주요 컨텐츠로 이동

Instructed Retriever: 검색 에이전트에서 시스템 수준 추론 활용

작성자: The Mosaic Research Team

in


이 포스트 공유하기
Instructed Retriever

검색 기반 에이전트는 많은 미션 크리티컬 엔터프라이즈 사용 사례의 핵심입니다. 엔터프라이즈 고객은 에이전트가 특정 사용자 지침을 따르고 이기종 지식 소스에서 효과적으로 작동해야 하는 추론 작업을 수행하기를 기대합니다. 그러나 기존의 검색 증강 생성(RAG)은 세분화된 사용자 의도와 지식 소스 사양을 정확한 검색 쿼리로 변환하지 못하는 경우가 많습니다. 대부분의 기존 솔루션은 기성 검색 도구를 사용하여 이 문제를 사실상 무시합니다. 다른 솔루션들은 임베딩 및 재순위 지정(reranking)을 위한 맞춤형 모델에만 의존하여 문제를 과소평가하는데, 이는 근본적으로 표현력에 한계가 있습니다. 이 블로그에서는 RAG의 한계를 해결하고 에이전트 시대를 위한 검색을 재구성하는 새로운 검색 아키텍처인 Instructed Retriever 를 소개합니다. 그런 다음 이 아키텍처가 Agent Bricks: Knowledge Assistant와 같이 복잡한 엔터프라이즈 데이터에 대해 추론하고 사용자 지침을 엄격하게 준수해야 하는 시스템을 포함하여 더 유능한 검색 기반 에이전트를 어떻게 지원하는지 설명합니다.

예를 들어 그림 1에서 사용자가 가상의 FooBrand 제품의 배터리 수명에 대해 질문하는 예시를 생각해 보세요. 또한 시스템 사양에는 최신성, 고려할 문서 유형, 응답 길이에 대한 지침이 포함됩니다. 시스템 사양을 올바르게 따르려면 먼저 사용자 요청을 키워드 외에 적절한 열 필터 가 포함된 구조화된 검색 쿼리로 변환해야 합니다. 그런 다음 쿼리 결과에 기반한 간결한 응답이 사용자 지침에 따라 생성되어야 합니다. 이러한 복잡하고 의도적인 지침 준수는 사용자 쿼리에만 초점을 맞춘 간단한 검색 파이프라인으로는 달성할 수 없습니다.

그림 1. 쿼리 [FooBrand 제품의 배터리 기대 수명은 어떻게 되나요]에 대한 지시 기반 검색 워크플로 예시. 사용자 지침은 (a) 최신 리뷰와 공식 제품 설명을 모두 검색하는 2개의 구조화된 검색 쿼리와 (b) 검색 결과에 기반한 짧은 응답으로 변환됩니다.
Figure 1. Example of the instructed retrieval workflow for query [What is the battery life expectancy for FooBrand products]. User instructions are translated into (a) two structured retrieval queries, retrieving both recent reviews, as well as an official product description (b) a short response, grounded in search results.

기존 RAG 파이프라인은 사용자 쿼리만 사용하는 단일 단계 검색에 의존하며 특정 지침, 예시 또는 지식 소스 스키마와 같은 추가 시스템 사양을 통합하지 않습니다. 그러나 그림 1에서 볼 수 있듯이, 이러한 사양은 에이전트 기반 검색 시스템에서 지침을 성공적으로 준수하는 데 핵심적입니다. 이러한 한계를 해결하고 그림 1에 설명된 것과 같은 작업을 성공적으로 완료하기 위해, Instructed Retriever 아키텍처는 시스템 사양이 각 시스템 구성 요소로 전달될 수 있도록 합니다.

표 1에서 설명하는 것처럼 RAG를 넘어, 반복적인 검색 실행을 허용하는 더 발전된 에이전트 기반 검색 시스템에서도 지침 준수 및 기본 지식 소스 스키마 이해는 RAG를 여러 단계에 걸쳐 도구로 단순히 실행하는 것만으로는 구현할 수 없는 핵심적인 기능입니다. 따라서 Instructed Retriever 아키텍처는 낮은 지연 시간과 작은 모델 공간이 요구될 때 RAG에 대한 고성능 대안을 제공하는 동시에, 심층 연구와 같은 시나리오에서 더 효과적인 검색 에이전트를 가능하게 합니다.  

 

검색 증강 생성(Retrieval Augmented Generation, RAG) 

명령 기반 리트리버

다단계 에이전트(RAG)

다단계 에이전트(Instructed Retriever)

검색 단계 수

단일

단일

다중

다중

지침 준수 능력

✖️

✖️

지식 소스 이해도

✖️

✖️

레이턴시 짧음

✖️

✖️

작은 모델 공간

✖️

✖️

출력에 대한 추론

✖️

✖️

표 1. 기존 RAG, Instructed Retriever 및 두 방식 중 하나를 도구로 사용하여 구현된 다단계 검색 에이전트의 기능 요약 

Instructed Retriever의 장점을 보여주기 위해 그림 2에서는 여러 엔터프라이즈 질의응답 데이터 세트1에서 RAG 기반 기준 모델과 비교한 성능을 미리 보여줍니다. 이러한 복잡한 벤치마크에서 Instructed Retriever는 기존 RAG에 비해 성능을 70% 이상 향상시킵니다. Instructed Retriever는 RAG 기반 다단계 에이전트보다도 10% 더 뛰어난 성능을 보입니다. 이를 다단계 에이전트의 도구로 통합하면 RAG에 비해 실행 단계 수를 줄이면서 추가적인 성능 향상을 가져올 수 있습니다.

 Instructed Retriever와 RAG의 응답 품질 비교,
Figure 2. Comparing the response quality for instructed retriever and RAG, in both single-step and multi-step setup. RAG is implemented using Databricks Vector Search, and the multi-step agent is based on Claude Sonnet 4. 

블로그 게시물의 나머지 부분에서는 이 새로운 Instructed Retriever 아키텍처의 설계와 구현에 대해 논의합니다. instructed retriever는 쿼리 생성 단계에서 정확하고 견고한 지침 준수를 유도하여 검색 재현율을 크게 향상시킨다는 것을 보여줍니다. 또한, 이러한 쿼리 생성 기능은 오프라인 강화 학습을 통해 소규모 모델에서도 구현될 수 있음을 보여줍니다. 마지막으로, 단일 단계 및 다단계 에이전트 설정 모두에서 instructed retriever의 엔드투엔드 성능을 자세히 분석합니다. 기존 RAG 아키텍처에 비해 응답 품질이 지속적으로 크게 향상됨을 보여줍니다.

Instructed Retriever 아키텍처

에이전트 기반 검색 시스템의 시스템 수준 추론 문제를 해결하기 위해, 그림 3에 표시된 새로운 Instructed Retriever 아키텍처를 제안합니다. Instructed Retriever는 정적 워크플로에서 호출되거나 에이전트에 도구로 노출될 수 있습니다. 이 새로운 아키텍처의 핵심 혁신은 사용자의 즉각적인 query를 처리할 뿐만 아니라 시스템 사양 전체 를 검색 및 생성 시스템 구성 요소 모두에 전파하는 간소화된 방법을 제공한다는 것입니다. 이는 시스템 사양이 기껏해야 초기 query에 영향을 줄 수 있지만 그 후 손실되어 리트리버와 응답 생성기가 이러한 사양의 중요한 컨텍스트 없이 작동하도록 강제하는 기존의 RAG 파이프라인과는 근본적으로 다른 점입니다.

그림 3. 쿼리와 시스템 사양을 검색 및 응답 생성 구성 요소 모두에 전파하여 각 구성 요소에서 새로운 기능을 활성화하는 일반적인 Instructed Retriever 아키텍처입니다.
Figure 3. The general Instructed Retriever architecture, which propagates both query and system specifications to both retrieval and response generation components, and enables new capabilities in each component.

따라서 시스템 사양은 에이전트가 사용자 요청을 충실하게 이행하기 위해 따라야 하는 일련의 지침 원칙과 지침이며, 여기에는 다음이 포함될 수 있습니다.

  • 사용자 지침: '최근 몇 년간의 리뷰에 집중' 또는 '결과에 FooBrand 제품을 표시하지 않기'와 같은 일반적인 선호 사항이나 제약 조건입니다.
  • 레이블이 지정된 예시: 특정 태스크에 대해 수준 높은, 지시를 따르는 검색이 무엇인지 정의하는 데 도움이 되는 관련/비관련 <query, document> 쌍의 구체적인 샘플입니다.
  • 인덱스 설명: 에이전트가 검색 시 실제로 사용 가능한 메타데이터를 알려주는 스키마입니다(예: 그림 1의 예시에서 product_brand, doc_timestamp).2

전체 파이프라인에서 사양의 지속성을 구현하기 위해 검색 프로세스에 세 가지 핵심 기능을 추가합니다.

  1. 쿼리 분해: 복잡한 다중 파트 요청("작년 FooBrand 제품 중 '라이트' 모델이 아닌 것으로 찾아줘")을 여러 키워드 검색과 필터 지침을 포함하는 전체 검색 계획으로 분해하는 기능입니다.
  2. 문맥상 관련성: query 및 시스템 지침의 맥락에서 단순한 텍스트 유사성을 넘어 진정한 관련성을 이해하는 방향으로 나아갑니다. 즉, re-ranker는 예를 들어 키워드 일치도가 약하더라도 지침을 사용하여 사용자 의도(예: 'recency')와 일치하는 문서의 순위를 높일 수 있습니다.
  3. 메타데이터 추론: Instructed Retriever 아키텍처의 주요 차별점 중 하나는 자연어 지시('작년부터')를 정확하고 실행 가능한 검색 필터('doc_timestamp > TO_TIMESTAMP('2024-11-01')')로 변환하는 기능입니다.

또한 이 블로그에 더 자세히 설명된 것처럼, 응답 생성 단계가 검색된 결과, 시스템 사양, 이전 사용자 기록 또는 피드백과 일치하도록 보장합니다.

검색 에이전트에서 지침 준수는 어렵습니다. 사용자의 정보 요구가 복잡하거나, 모호하거나, 심지어 상충 될 수 있으며, 이는 여러 차례의 자연어 피드백 을 통해 축적되는 경우가 많기 때문입니다. 또한 리트리버는 스키마를  인식 해야 합니다. 즉, 사용자 언어를 인덱스에 실제로 존재하는 구조화된 필터, 필드, 메타데이터로 변환할 수 있어야 합니다. 마지막으로, 구성 요소는 원활하게 함께 작동하여 그중 어느 하나도 누락하거나 잘못 해석하지 않으면서 이러한 복잡하고 때로는 다층적인 제약 조건을 충족해야 합니다. 이러한 조율에는 전체적인 시스템 수준의 추론이 필요합니다. 다음 두 섹션의 실험에서 볼 수 있듯이, Instructed Retriever 아키텍처는 검색 워크플로와 에이전트에서 이 기능을 구현하는 데 있어 큰 발전을 이루었습니다.

쿼리 생성에서의 지침 준수 평가 

대부분의 기존 검색 벤치마크는 모델이 자연어 사양을 해석하고 실행하는 방식, 특히 인덱스 스키마에 기반한 구조화된 제약 조건을 포함하는 사양을 간과하는 경향이 있습니다. 따라서 저희는 Instructed Retriever 아키텍처의 역량을 평가하기 위해 StaRK(반정형 검색 벤치마크) 데이터 세트를 확장하고, 해당 데이터 세트의 전자상거래 하위 집합인 STaRK-Amazon을 사용하여 새로운 지침 준수 검색 벤치마크인 StaRK-Instruct 를 설계합니다.

데이터세트에서는 모델이 단순 텍스트 유사성을 넘어 추론해야 하는 세 가지 일반적인 유형의 사용자 지시에 중점을 둡니다.

  1. 포함 지침 – 특정 속성을 반드시 포함해야 하는 문서를 선택하는 것입니다(예: '추운 날씨에 가장 좋은 평점을 받은 FooBrand 재킷을 찾아주세요').
  2. 제외 지침 – 결과에 표시되어서는 안 되는 항목을 필터링합니다(예: “연비 좋은 SUV를 추천해 줘. 그런데 FooBrand는 안 좋은 경험이 있어서 그 회사 제품은 빼줘”).
  3. 최신성 부스팅 이란 시간 관련 메타데이터가 있을 때 최신 항목을 선호하는 것을 의미합니다(예: “오래 사용해도 괜찮은 FooBrand 노트북은 무엇인가요? OS 변경으로 인해 오래된 리뷰는 중요도가 낮으니, 최근 2~3년 리뷰를 우선적으로 살펴봐 주세요”).

StaRK-Instruct를 구축하기 위해 StaRK-Amazon의 기존 관련성 판단을 재사용하면서, 정보 검색 분야의 지시 따르기에 대한 이전 연구 를 따라 기존 쿼리를 더 구체적인 쿼리로 합성합니다. 그런 다음 관련 문서 세트를 프로그래밍 방식으로 필터링하여 다시 작성된 쿼리와의 일관성을 보장합니다. 이 과정을 통해 81개의 StaRK-Amazon 쿼리(쿼리당 관련 문서 19.5개)를 세 가지 지시 유형에 걸쳐 198개의 StaRK-Instruct 쿼리(쿼리당 관련 문서 11.7개)로 합성했습니다.

StaRK-Instruct를 사용하여 Instructed Retriever의 쿼리 생성 기능을 평가하기 위해 단일 단계 검색 설정에서 다음과 같은 방법을 평가합니다.

  • 원시 쿼리 – 기준선으로, 추가적인 쿼리 생성 단계 없이 검색을 위해 원래 사용자 쿼리를 사용합니다. 이는 기존의 RAG 접근 방식과 유사합니다.
  • GPT5-nano, GPT5.2, Claude4.5-Sonnet – 각 모델을 사용하여 원본 사용자 쿼리, 사용자 지침을 포함한 시스템 사양 및 인덱스 스키마를 모두 사용하여 검색 쿼리를 생성합니다.
  • InstructedRetriever-4B  GPT5.2 및 Claude4.5-Sonnet과 같은 최신 모델은 매우 효과적이지만, 특히 대규모 배포의 경우 쿼리 및 필터 생성과 같은 작업에는 비용이 너무 많이 들 수 있습니다. 따라서 과거 입력 예제를 기반으로 모델이 작업을 더 잘 수행하도록 학습시키기 위해 테스트 시간 컴퓨팅 및 오프라인 강화 학습(RL)을 활용하는 Test-time Adaptive Optimization (TAO) 메커니즘을 적용합니다. 특히, StaRK-Amazon의 '합성된' 쿼리 하위 집합을 사용하고, 이 합성된 쿼리를 사용하여 추가적인 지침 준수 쿼리를 생성합니다. 후보 도구 호출을 샘플링하고 더 높은 재현율 점수를 달성하는 호출을 강화하여 작은 4B 파라미터 모델을 미세 조정(fine-tune)하기 위해 재현율을 보상 신호로 직접 사용합니다. 

StaRK-Instruct에 대한 결과는 그림 4(a)에 나와 있습니다. 지침 기반 쿼리 생성은 Raw Query 기준선과 비교하여 StaRK-Instruct 벤치마크에서  35~50%더 높은 재현율 을 달성합니다. 이러한 이점은 모델 크기 전반에 걸쳐 일관되게 나타나므로, 효과적인 지침 구문 분석과 구조화된 쿼리 공식화가 제한된 컴퓨팅 예산 하에서도 측정 가능한 개선을 제공할 수 있음을 확인시켜 줍니다. 더 큰 모델은 일반적으로 더 많은 이점을 보여주며, 이는 모델 용량에 따른 접근 방식의 확장성을 시사합니다. 그러나 미세 조정된 InstructedRetriever-4B 모델은 훨씬 더 큰 최첨단 모델의 성능과 거의 맞먹으며,GPT5-nano 모델보다 성능이 뛰어납니다. 이는 정렬이 더 작은 모델에서도 에이전트 검색 시스템에서 지침 준수의 효율성을 크게 향상시킬 수 있음을 보여줍니다.

 접근 방식의 일반화를 추가로 평가하기 위해 쿼리에 명시적인 메타데이터 관련지시가 없는 원래 평가 세트인 StaRK-Amazon에 대한 성능도 측정합니다.그림 4(b)에서 볼 수 있듯이, 모든 지시된 쿼리 생성 방법은 StaRK-Amazon에서 Raw Query  재현율을 약 10% 초과하여, 지시 따르기가 제약 없는 쿼리 생성 시나리오에서도 유익하다는 것을 확인시켜 줍니다. 또한 미세 조정되지 않은 모델과 비교하여 InstructedRetriever-4B 성능이 저하되지 않았으며, 이는 구조화된 쿼리 생성에 대한 전문화가 일반적인 쿼리 생성 기능을 저해하지 않는다는 것을 확인시켜 줍니다.

StaRK-Instruct
StaRK-Amazon
Figure 4. Average retrieval performance on the three categories of (a) StaRK-Instruct and (b) StaRK-Amazon. Instructed query generation models provide significant performance improvements. Offline RL allows fine-tuning an efficient InstructedRetriever-4B model to match the performance of GPT-5 and Claude-4.5 models at a fraction of the cost.

Agent Bricks에서 Instructed Retriever 배포

이전 섹션에서는 지시 따르기 쿼리 생성을 사용하여 달성할 수 있는 검색 품질의 상당한 향상을 보여주었습니다. 이 섹션에서는 프로덕션급 에이전트 검색 시스템의 일부로서 Instructed Retriever의 유용성을 더 자세히 살펴봅니다. 특히, Instructed Retriever는 제공된 도메인 전문 지식을 기반으로 질문하고 신뢰할 수 있는 답변을 받을 수 있는 QA 챗봇인 Agent Bricks Knowledge Assistant에 배포됩니다.

두 가지 DIY RAG 솔루션을 베이스라인으로 고려합니다.

  • RAG 성능이 뛰어난 벡터 검색 에서 가져온 상위 검색 결과를 최첨단 대규모 언어 모델에 입력하여 생성합니다.
  • RAG + Rerank 검색 단계에 이어 재순위 지정 단계를 진행합니다. 이 방식은 이전 테스트에서 검색 정확도를 평균 15% 포인트 향상시키는 것으로 나타났습니다. 재순위 지정된 결과는 생성을 위해 최첨단 대규모 언어 모델에 입력됩니다.

DIY RAG 솔루션과 Knowledge Assistant의 효과를 평가하기 위해 그림 1에 보고된 것과 동일한 엔터프라이즈 질의응답 벤치마크 제품군에서 답변 품질 평가를 수행합니다. 또한 RAG 또는 Knowledge Assistant를 각각 검색 도구로 사용하는 두 개의 다단계 에이전트를 구현합니다. 각 데이터 세트에 대한 자세한 성능은 그림 5에 보고되어 있습니다(RAG 기준 모델 대비 성능 향상률 %).

전반적으로 모든 시스템이 모든 데이터 세트에서 단순한 RAG 기준선보다 일관되게 우수한 성능을 보입니다. 이는 RAG가 다중 파트 사양을 해석하고 일관되게 적용하지 못한다는 점을 보여줍니다. 재순위 지정 단계를 추가하면 결과가 개선되며, 이는 사후 관련성 모델링의 이점을 일부 보여줍니다. Instructed Retriever 아키텍처를 사용하여 구현된 Knowledge Assistant는 한층 더 개선된 성능을 보입니다. 이는 검색 및 생성의 모든 단계에서 제약 조건, 제외 항목, 시간적 선호도, 메타데이터 필터와 같은 시스템 사양을 유지하는 것의 중요성을 보여줍니다.

다단계 검색 에이전트는 단일 단계 검색 워크플로보다 일관되게 더 효과적입니다. 또한 도구의 선택이 중요합니다. 도구로서의 Knowledge Assistant는 모든 데이터 세트에서 일관된 개선을 보이며 도구로서의 RAG보다 30% 이상 뛰어난 성능을 보입니다. 흥미롭게도 품질을 개선할 뿐만 아니라 대부분의 데이터 세트에서 작업 완료 시간을 평균 8% 단축합니다(그림 6).

5개 벤치마크 데이터 세트의 응답 품질 비교
Figure 5. Comparing the response quality on five benchmark datasets (as % of improvement compared to RAG baseline) for DIY RAG + Rerank, Agent Bricks Knowledge Assistant, and a multi-step search agent with access to each of these as a tool. RAG + Rerank is implemented using Databricks Vector Search, and the multi-step agent is based on Claude Sonnet 4. 
5개 벤치마크 데이터세트에서의 태스크 완료 시간(초) 비교
Figure 6. Comparing time to task completion (in seconds) on five benchmark datasets for multi-step agents based on RAG or Knowledge Assistant as tools, respectively.

결론

신뢰할 수 있는 엔터프라이즈 에이전트를 구축하려면 이기종 지식 소스에서 검색할 때 포괄적인 지시 따르기 및 시스템 수준의 추론이 필요합니다. 이를 위해 이 블로그에서는 지시부터 예시, 인덱스 스키마에 이르는 완전한 시스템 사양을 검색 파이프라인의 모든 단계에 전파하는 핵심 혁신을 담은 Instructed Retriever 아키텍처를 소개합니다.

또한 포함, 제외, 최신성과 같은 실제 지침을 처리하는 검색 에이전트의 능력을 평가하는 새로운 StaRK-Instruct 데이터세트를 제시했습니다. 이 벤치마크에서 Instructed Retriever 아키텍처는 검색 재현율에서 35-50% 라는 상당한 향상을 달성하여 쿼리 생성을 위한 시스템 전반의 지침 인식의 이점을 경험적으로 입증했습니다. 또한 작고 효율적인 모델을 최적화하여 대규모 독점 모델의 지침 준수 성능에 필적할 수 있음을 보여주며, 이는 Instructed Retriever를 실제 엔터프라이즈 배포에 적합한 비용 효율적인 에이전트 아키텍처로 만들어 줍니다.

Agent Bricks Knowledge Assistant와 통합 시, Instructed Retriever 아키텍처는 최종 사용자에게 바로 더 높은 품질과 정확도의 응답을 제공합니다. 당사의 종합적인 고난도 벤치마크 스위트에서 이 아키텍처는  단순한 RAG 솔루션에 비해70% 이상, 재순위 지정을 포함하는 더 정교한DIY 솔루션에  비해서는 15%  이상의 품질 향상을 보였습니다. 또한, 다단계 검색 에이전트용 도구로 통합하면 Instructed Retriever는 RAG를 도구로 사용할 때보다성능을 30% 이상 향상시키고 작업 완료 시간을 8% 단축할 수 있습니다. 

Instructed Retriever는 이전에 발표된 프롬프트 최적화, ALHF, TAO, RLVR과 같은 여러 혁신 기술과 함께 이제 Agent Bricks 제품에서 사용할 수 있습니다. Agent Bricks의 핵심 원칙은 기업이 독점 데이터를 기반으로 정확하게 추론하고, 피드백을 통해 지속적으로 학습하며, 도메인별 작업에서 최첨단 품질과 비용 효율성을 달성하는 에이전트를 개발하도록 돕는 것입니다. 고객이 Knowledge Assistant 및 기타 Agent Bricks 제품을 사용하여 자체 엔터프라이즈 사용 사례에 맞는 조종 가능하고 효과적인 에이전트를 구축해 보시기를 권장합니다.

저자: Cindy Wang, Andrew Drozdov, Michael Bendersky, Wen Sun, Owen Oertell, Jonathan Chang, Jonathan Frankle, Xing Chen, Matei Zaharia, Elise Gonzales, Xiangrui Meng


 

1 저희 제품군에는 지시 따르기, 도메인별 검색, 보고서 생성, 목록 생성, 복잡한 레이아웃의 PDF 검색 기능을 테스트하는 5가지 독점 및 학술 벤치마크가 혼합되어 있습니다. 각 벤치마크는 응답 유형에 따라 맞춤형 품질 평가 기준과 연결됩니다.
2 Index 설명은 사용자가 지정한 지시에 포함하거나, text-to-SQL 시스템에서 값 검색 등에 자주 사용되는 스키마 연결 방법을 통해 자동으로 구성할 수 있습니다.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)