メインコンテンツへジャンプ
AI 研究2026年5月19日2分で読めます

MemEx:LLMエージェントのためのプログラマブルなスクラッチパッド

1945年、ヴァネヴァー・ブッシュは、科学者の記憶を拡張する、机サイズの機械を想像しました。それは、あらゆる文書、注釈、思考の軌跡を保存し、オンデマンドで呼び出すことができるものでした。彼はそれを MemExと名付けました。ブッシュは、手元に置いておけない情報に圧倒されるという人間の問題を解決しようとしていました。80年後、LLMエージェントも驚くほど似た壁にぶつかっています。 現在のAgentic Tool Callingパラダイムでは、コンテキストウィンドウがモデルが操作できる唯一の永続的な基盤です。これは、システムプロンプト、ユーザーのクエリ、モデルの推論、ツール呼び出し、および生のツール出力を運ぶ共有スペースです。ツール出力は最悪の犯人です。単一のSQLクエリが数百万行を返すことがあり、今日のハーネスでは、たった1つのセルが重要であったとしても、それらの行は後続のすべてのターンで一緒に移動します。エージェントは、結果がウィンドウをあふれさせる前に、それをスライス、要約、または保存する方法がありません。 Databricksでは、この壁に常にぶつかっています。 Genieから Agent Bricksに至るまで、当社の本番エージェントは、ある時点で同じコンテキストの制限に遭遇します。Genieは明確な例を提供します。単一のクエリで顧客のワークスペース全体を検索し、多くのツールを呼び出してテーブル、ベクトルインデックス、ダッシュボードからデータを取得します。これに対処するため、私たちは独自のMemExを構築し、複数の本番エージェントと内部エージェント内で検証しました。 困難なエンタープライズ構造化検索タスクにおいて、図1はMemExがあらゆるモデルでコスト対精度フロンティアを押し上げていることを示しています。Opus 4.6やSonnet 4.6のようなフロンティアモデルは、トークンコストを25~30%削減しながら、2~5パーセンテージポイントの向上を達成します。Qwen3.5-122B (18% → 36%) やQwen3.5-397B (20% → 38%) のようなオープンウェイトモデルは、トークンコストを40~50%削減しながら、精度をほぼ2倍にしています。MemExは任意の長さの入力に対して動作できるため、通常は単一のコンテキストウィンドウに収まらないMemEx自身のものを含むエージェントの軌跡の監査と、複数の軌跡にわたる並列思考という2つのさらなるアプリケーションも可能にします。 MemExの仕組み 図2:標準的なツール呼び出しとMemExエージェントハーネスにおけるコンテキスト管理"> MemExはLLMにプログラマブルなスクラッチパッドを提供します。これは、ツール出力を保持し、コードで変換し、print文のみをコンテキスト内のトークンとして具体化する型付きPythonカーネルです。この環境内では、ロールアウトは自己拡張型のPythonプログラムになります。各ターンで、エージェントは新しいブロックを作成し、カーネルは状態を維持し、次のブロックは以前のブロックに基づいて構築されます。ツールは、型付きパラメータと型付き戻り値を持つ型付きPython関数として公開されます。ツール出力はMemExのスコープ内でPythonオブジェクトとして着地し、ターン間で永続化されます。エージェントはそれらをコードで構成し、パターンが繰り返されるときにヘルパー関数を定義し、同じスコープ上で非同期関数呼び出しとしてサブエージェントを生成します。...

最新の投稿

最新の投稿を受信トレイで受け取る

ブログを購読して、最新の投稿を受信トレイにお届けします。