メインコンテンツへジャンプ
AI 研究2026年5月8日<1分で読めます

Genieによるデータエージェントのフロンティアを押し広げる

Genieは、構造化データ(テーブル、ダッシュボード、ノートブックなど)と非構造化データ(ワークスペースファイル、Google Drive、Sharepointなど)の両方を含むエンタープライズデータに関する複雑な質問に回答するために設計された、Databricksの最先端データエージェントです。この記事では、データエージェントが直面する独自の課題のいくつかを説明し、専門的な知識検索、並列思考、およびマルチLLM設計の使用を含む、それらに対処するための技術を紹介します。実際のデータ分析タスクの内部ベンチマークでの実験から、これらの技術が、主要なコーディングエージェントと比較してGenieの全体的な精度を大幅に向上させ(32%から90%以上に)、コストとレイテンシを大幅に削減できることが観察されます。 データエージェントの主な課題 コーディングエージェントは、コードコンテキストを理解するのに役立つツールを備えていれば、強力なLLMが自律的に信じられないほどのことを実行できることを示してきました。コーディングエージェントは、ディスクのファイルシステムのような静的で決定論的な環境で効果的に動作しますが、 データエージェントはまったく新しいパラダイムを導入します。データエージェントは、何十万ものテーブル、ノートブック、ダッシュボード、ドキュメントにわたる豊富なセマンティックコンテキストを網羅する、動的で絶えず進化するデータレイクハウス内で動作します。 たとえば、図2の内部ユーザーが実際(匿名化)に尋ねたクエリを考えてみましょう。ユーザーは、同じ製品の収益を報告する2つのエンタープライズダッシュボードが異なる日付で矛盾したスパイクを示していることに気づき、エージェントにその理由を説明するように求めます。この妥当な質問は、単一のデータソースが答えを含んでおらず、質問を解決するにはテーブル、内部ドキュメント、ダッシュボードを横断するシステム間検出と、マルチデイレポートの設定方法に関する推論が必要であるため、見かけによらず困難です。さらに、エンタープライズの価格設定の詳細を掘り下げて契約料金を見つける必要があります。最後に、中間計算によって初期の仮定が誤っていることが明らかになった場合に、自動的に自己修正する能力が必要です。図は、エージェントが(1)並列マルチエージェントデータ検出、(2)データ調査、(3)自己修正ループ、(4)検証の異なるフェーズを進むことによって、タスクを正常に解決する方法を示しています。 コーディングエージェントと比較して、データエージェントには3つの主な独自の課題があります。 データ検出の規模:ユーザーのクエリに回答するための適切なデータソースを見つけることは、数百万の構造化および非構造化ソース(テーブル、ダッシュボード、ドキュメントなど)を持つエンタープライズ顧客にとって最大の課題の1つであり、従来の検索方法を破る規模です。 「信頼できる情報源」ビジネス知識の決定:ビジネスの質問に答えるには、多くの場合、古くなっていたり、矛盾していたり、置き換えられたりしている多くのソース(例:テーブルメタデータ、会社のドキュメント、内部メッセージ)から引き出された深い、特定の知識が必要であり、エージェントは最も権威のある情報を決定する必要があります。 検証可能なテストの欠如:コードを反復的に改良するために決定論的で検証可能なテストを使用できるコーディングエージェントとは異なり、データエージェントには対応するテストがありません。なぜなら、「仕様」は期待される正解の概念なしのハイレベルなユーザークエリにすぎないからです。さらに、データが不完全であるため、クエリが常に回答可能であるとは限らず、データエージェントがそのようなケースを特定してユーザーに提示できることが重要です。 主な技術的進歩 図3は、Genieが汎用コーディングエージェントよりも大幅に優れたパフォーマンスを発揮できるようにする主な技術革新、すなわちi)専門知識検索、ii)並列思考、およびiii)マルチLLMを示しています。専門知識検索は、セマンティックコンテキストデータを使用してアセット検出サブエージェントをグラウンド化し、検索品質を大幅に向上させます。並列思考により、エージェントは複数の異なる軌跡をサンプリングし、軌跡全体の結果を集約して最終的な回答を計算できます。最後に、マルチLLMにより、エージェントは各サブエージェントに異なるLLMとその最適化されたプロンプトを使用でき、全体的な精度とレイテンシをさらに向上させることができます。 専門知識検索 Genieは、ワークスペーステーブル、ノートブック、ダッシュボード、ドキュメント、ファイルなどの既存のデータアセットを使用して、リッチなセマンティックエンタープライズコンテキストを導き出し、このコンテキストを使用して検索インデックスを構築します。複数の検索インデックスを並列で使用し、リッチなメタデータ信号と組み合わせて、ユーザーのクエリに最も関連性の高いアセットを効率的に検出します。図4は、専門知識検索を活用することで、テーブル検出ベンチマークでGenieのテーブル検索パフォーマンスが最大40%向上することを示しています。 並列思考 コーディングエージェントが目的の機能を検証するためのテストを最初に記述し、テストが合格するまでコード生成を反復できるソフトウェアエンジニアリングタスクとは異なり、オープンエンドのデータクエリにはそのような対応する単体テストがありません。テストがない場合、データエージェントが生成された回答が正しいか、さらに改良が必要かを知ることは困難になります。この課題に対処するために、複数の軌跡をサンプリングし、軌跡全体に関連情報を集約して最終的な回答を計算することにより、並列思考を活用します。図5は、並列思考が回答の精度を大幅に向上させることができることを示していますが、いくらかの追加のレイテンシとトークンコストがかかります。さらに、図1に示すように、マルチLLMとさらなる最適化を組み合わせることで、コストとレイテンシをさらに大幅に削減できます。 マルチLLM Genieの主な技術的進歩の1つは、異なるLLMが補完的な機能に優れていることを観察しているため、異なるサブエージェントに異なるLLMを活用できることです。たとえば、計画ステージに異なるLLM、さまざまな検索サブエージェントに異なるLLM、コード生成とジャッジに別のLLMを使用できます。Databricksプラットフォームを使用すると、Opus、GPT、Geminiなどの最先端モデル、オープンソースモデル、カスタムトレーニング済みモデルをシームレスに試すことができます。精度に加えて、異なるLLMが非常に異なるレイテンシとコスト特性をもたらすことも観察されます。図6は、異なるLLMがテーブル検索タスクでどのようにパフォーマンスを発揮するか、およびGEPAのような手法を使用して対応する精度とコストをさらに最適化できるかを示しています。 結論 コーディングとデータ分析は多くの概念的な類似性を共有していますが、エンタープライズデータシステムの動的な性質は、いくつかのユニークな課題を生み出します。データエージェントは、大規模なエンタープライズコンテキストから適切なアセットを効率的に発見し、曖昧な環境で「真実」を判断し、ユーザーの質問に正しく答えるための効率的なコードとクエリを記述する必要があります。私たちは、豊富なセマンティック情報と複数のメタデータ信号を活用するための特殊化された知識検索、GEPAを使用した最適化されたプロンプトで異なるLLMを活用するためのMulti-LLM、および全体的な精度をさらに向上させるためのパラレルシンキングなど、これらの問題を解決するためのいくつかの新しいアプローチを開発しました。これらのアプローチをGenieに追加することで、ベンチマークタスクにおいて主要なコーディングエージェントよりも大幅に優れたパフォーマンスを発揮します。探求すべき挑戦的なオープンエンドの質問はまだたくさんあり、エンタープライズ向けの最先端のデータエージェントを構築するというこの分野の研究を探求するのに、これほどエキサイティングな時期はありません。 (このブログ記事はAI翻訳ツールを使用して翻訳されています) 原文記事

最新の投稿

最新の投稿を受信トレイで受け取る

ブログを購読して、最新の投稿を受信トレイにお届けします。