AI 研究2026年6月4日<1分で読めます

3倍高速な検索：Instructed-Retriever-1による並列テストタイムスケーリング

本日、 Agent Bricks Knowledge Assistantをより高速かつ高品質にするメジャーアップデートを発表します。回答生成時間は 2倍高速化し、検索時間は 3倍以上高速化され、Time To First Token (TTFT) は約2秒に短縮されました。 ¹これにより、Knowledge Assistantのユーザーは、再設定を行うことなく、品質を損なうこともなしに、あらゆるユースケースで著しく高速化された回答を得ることができます。これらの向上は、並列テスト時スケーリング向けに構築された検索特化型モデルである Instructed-Retriever-1によって実現されています。エージェントが逐次的に動作し、次のステップを決定する前に各結果について推論を行う標準的なエージェント型検索とは異なり、私たちのアプローチでは、この処理を並列に展開します。Instructed-Retriever-1は、再現率を高めるクエリ生成と、適合率を高めるリランキングという、検索における両方のステージ向けにトレーニングされた単一のモデルであり、これらを並列に実行することでレイテンシを低く抑えます。本ブログ記事では、このアプローチがどのようにパレート最適なパフォーマンスをもたらすか、検索パイプライン全体をサポートする1つのモデルをどのようにトレーニングするか、そして現実的なエンタープライズワークロードでパフォーマンスをどのように検証するかについて説明します。図： KARLBenchにおいて、Instructed-Retriever-1を搭載したKnowledge Assistantは、検索レイテンシと検索品質の両方を向上させます。 1. 検索における並列テスト時スケーリングこれまでの研究により、テスト時計算を追加することで品質が向上することが実証されています。しかし、現在の大半のエージェント型検索システムは、ツール呼び出し、推論・実行（reason-act）ループ、Chain-of-Thought（CoT）推論などの逐次的な処理にその計算量を費やしています。これらの手法は検索品質を向上させますが、レイテンシとコストが大幅に上昇するという代償を伴います。Instructed-Retriever-1のトレーニングにおいて、私たちは異なるアプローチを採用しました。計算量を逐次的にスケーリングするのではなく、初期検索フェーズで並列化するのです。取得する根拠の範囲を広げ、最も関連性の高いコンテキストを事前に選択することで、レイテンシを大幅に抑えながら、極めて効果的な検索を実現します。...

3倍高速な検索：Instructed-Retriever-1による並列テストタイムスケーリング

最新の投稿

3倍高速な検索：Instructed-Retriever-1による並列テストタイムスケーリング

MemEx: LLMエージェントのためのプログラマブルなスクラッチパッド

Genieによるデータエージェントのフロンティアを押し広げる

実践におけるエージェント的推論：構造化データと非構造化データの理解

AIエージェントのメモリスケーリング

KARL のご紹介：カスタム RL を活用した、より高速なエンタープライズナレッジエージェント

MemAlign: 人間のフィードバックとスケーラブルなメモリでより優れた LLM 判定者を構築する

NVIDIA MPSによる小規模LLMのスケーリング

指示付きリトリーバー：検索エージェントにおけるシステムレベルの推論能力を解放

RLVRの力：Databricksで先導的なSQL推論モデルを訓練する

最新の投稿を受信トレイで受け取る

Sign up