작성자: Databricks AI 연구팀
오늘 저희는 Agent Bricks Knowledge Assistant의 속도와 품질을 모두 크게 향상시킨 주요 업데이트를 발표합니다. 답변 생성 시간은 2배 단축되었고, 검색 시간은 3배 이상 단축되어 TTFT(Time To First Token)가 약 2초로 줄어들었습니다.¹ 이에 따라 Knowledge Assistant 사용자는 별도의 재설정 없이 품질 저하 없이 모든 사용 사례에서 눈에 띄게 빠른 답변을 얻을 수 있습니다.
이러한 성능 향상은 병렬 테스트 시간 스케일링(parallel test-time scaling)을 위해 구축된 검색 특화 모델인 Instructed-Retriever-1 덕분입니다. 에이전트가 순차적으로 작동하여 각 결과를 추론한 후 다음 단계를 결정하는 표준 에이전트 기반 검색과 달리, 저희의 접근 방식은 이 작업을 병렬로 분산 처리합니다. Instructed-Retriever-1은 재현율(recall)을 높이기 위한 쿼리 생성과 정밀도(precision)를 높이기 위한 재순위화(reranking)라는 두 가지 검색 단계 모두를 위해 학습된 단일 모델로, 대기 시간(latency)을 낮게 유지하기 위해 병 렬로 실행됩니다. 이 블로그 글에서는 이러한 접근 방식이 어떻게 파레토 최적(Pareto-optimal) 성능을 제공하는지, 전체 검색 파이프라인을 지원하기 위해 단일 모델을 어떻게 학습시키는지, 그리고 실제 기업 워크로드에서 성능을 어떻게 검증하는지 설명합니다.

그림: KARLBench에서 Instructed-Retriever-1이 탑재된 Knowledge Assistant는 검색 대기 시간과 검색 품질을 모두 향상시킵니다.
이전 연구를 통해 추가적인 테스트 시간 연산(test-time compute)으로 품질을 향상시킬 수 있음을 보여주었습니다. 하지만 오늘날 대부분의 에이전트 기반 검색 시스템은 도구 호출, 추론-행동 루프(reason-act loops), 생각의 사슬(chain-of-thought) 추론과 같은 순차적 작업에 이러한 연산을 사용합니다. 이러한 방법은 검색 품질을 향상시키지만, 대기 시간과 비용이 크게 증가한다는 단점이 있습니다. Instructed-Retriever-1 학습을 위해 저희는 다른 경로를 택했습니다. 연산을 순차적으로 확장하는 대신, 초기 검색 단계에서 병렬화하는 것입니다. 검색된 근거의 범위를 넓히고 가장 관련성 높은 컨텍스트를 미리 선택함으로써, 훨씬 더 낮은 대기 시간으로 매우 효과적인 검색을 달성합니다.
초기 검색을 개선하는 것은 학습 하네스(training harness)에 크게 의존합니다. 저희 하네스는 모델에 사용자 지침과 기본 검색 인덱스의 정확한 스키마를 제공하고, 이를 쿼리 및 필터 생성, 재순위화, 답변 생성의 모든 후속 단계로 전파합니다. 저희는 이전 Instructed Retriever 블로그에서 이를 달성하는 방법을 설명했으며, Instructed-Retriever-1 모델을 학습시키는 데 동일한 검색 하네스를 사용합니다. 이 접근 방식은 기간, 조직, 문서 유형 또는 제품 영역과 같은 도메인별 제약 조건이 포함되는 경우가 많은 기업용 질문에 특히 중요합니다.
병렬 쿼리 및 필터 생성은 동일한 요청의 여러 표현 방식과 측면을 동시에 탐색하여 후보군 재현율(recall)을 향상시킵니다. 이를 통해 시스템은 대기 시간을 낮게 유지하면서 더 광범위하게 검색할 수 있습니다. 검색 범위가 넓어지면 병합(aggregation) 문제가 발생합니다. 서로 다른 표현 방식은 중복되거나 부분적으로만 관련이 있는 청크(chunk)를 반환할 수 있습니다. 병합된 후보군에서 가장 유용한 컨텍스트를 선택하기 위해, 저희는 다중 피벗(multi-pivot) 그룹별 재순위화 모델(groupwise reranker)을 사용합니다. 후보들은 하나 이상의 피벗 청크를 기준으로 병렬 그룹으로 순위가 매겨지며, 그룹 순위는 최종 순서로 병합됩니다. 이를 통해 재순위화 효율성을 유지하면서 컨텍스트 내에서 근거를 비교하는 핵심적인 이점을 얻을 수 있습니다.
이러한 단계들이 결합되어 두 가지 테스트 시간 스케일링 조절 장치(knob)를 제공합니다. 쿼리 및 필터 표현의 수를 늘리면 재현율이 향상되고, 피벗 수를 늘리면 정밀도가 향상됩니다. 두 단계 모두 병렬 처리를 사용할 수 있으므로, 시스템은 낮은 대기 시간을 유지하면서 더 높은 품질의 컨텍스트를 얻기 위해 추가적인 테스트 시간 연산을 활용할 수 있습니다.

그림: Instructed-Retriever-1에 사용된 검색 하네스.
검색을 위한 병렬 테스트 시간 스케일링에는 효과적인 검색을 생성하고 검색된 근거를 판단하는 두 가지 작업을 모두 잘 수행할 수 있는 모델이 필요합니다. 저희는 병렬 쿼리 생성 및 재순위화를 지원하는 단일 검색 특화 모델로 Instructed-Retriever-1을 학습시켰습니다. 그 결과, 낮은 대기 시간을 유지하면서 KARLBench에서 Claude Sonnet 4.5의 검색 품질과 일치하는 모델을 얻었습니다.

그림: 학습 후 KARLBench에서의 검 색 품질(재순위화 구성 전반에 걸쳐 평가됨). Instructed-Retriever-1은 Claude Sonnet 4.5의 검색 품질과 일치합니다. 모든 모델에서 피벗 기반 재순위화는 재순위화 모델을 사용하지 않는 설정에 비해 Recall@10을 향상시키며, 두 개의 피벗은 하나의 피벗보다 품질을 더욱 향상시킵니다.
학습용 데이터를 준비하기 위해, 저희는 평가 벤치마크와는 독립적으로 광범위한 사전 학습 코퍼스(pretraining corpus)로부터 합성 기업형 검색 환경을 구축합니다. 저희는 KARL 보고서에 설명된 에이전트 기반 데이터 합성 방식을 사용하여 이를 생성합니다. 결과 환경은 비정형 문서와 정형 메타데이터가 결합된 코퍼스에 대한 사실 조회, 요약, 추천, 문제 해결, 의사 결정 지원 등 Knowledge Assistant가 처리해야 하는 다양한 작업 유형을 반영합니다.
모델은 여러 검색 기능을 획득하기 위해 두 단계로 학습됩니다. 결과 모델은 쿼리 및 필터 생성뿐만 아니라 검증 스타일의 검색 기능도 지원하여, 병렬 테스트 시간 스케일링을 실제로 유용하게 만드는 두 단계를 가능하게 합니다.
검색 기능의 개선은 실제 워크로드에서 작동하고 프로덕션 대기 시간 제약 조건을 충족할 때만 의미가 있습니다. 저희는 Knowledge Assistant 사용량을 대표하는 대규모 내부 데이터 세트에서 Instructed-Retriever-1을 평가하여 위에서 소개한 두 가지 스케일링 메커니즘(재현율을 위한 병렬 쿼리 및 필터 생성, 정밀도를 위한 다중 피벗 재순위화)이 검색 품질을 향상시키는지 측정합니다.

그림: Instructed-Retriever-1이 탑재된 Knowledge Assistant의 데모.
저희 평가 데이터 세트는 실제 Knowledge Assistant 워크로드를 기반으로 하며, 여기서는 유용한 답변을 얻기 위해 단일 정답(ground-truth) 문서보다는 여러 개의 뒷받침하는 근거가 필요한 경우가 많습니다. 저희는 검색을 두 단계로 평가합니다. 먼저, 모든 후보 시스템에서 쿼리 생성 대기 시간과 품질을 측정합니다. 품질 측정을 위해 구체성(specificity), 광범위성(breadth), 관련성(relevance)에 대한 LLM 판정 루브릭 점수를 사용합니다. 이러한 지표는 생성된 쿼리가 타겟팅되어 있는지, 요청의 중요한 측면을 다루고 있는지, 질문에 답변하는 데 유용한지 여부를 파악합니다.

그림: 프로덕션 환경과 유사한 내부 예시에서의 쿼리 생성 품질 및 대기 시간. 평균 루브릭 점수는 1~5점 척도로 구체성, 광범위성, 관련성에 걸쳐 쿼리 생성 품질을 평가합니다. 대기 시간은 쿼리 생성 단계에 대해 계산됩니다.
재순위화(reranking)의 경우, 검색된 후보군 세트를 고정하고 각 재순위화 모델(reranker)이 가장 유용한 근거를 얼마나 효과적으로 표출하는지 평가합니다. 조밀한 관련성 레이블을 얻기 위해, LLM 심사위원을 사용하여 각 청크를 0~3점의 TREC 스타일 관련성 척도로 평가한 다음, 결과 순위에서 nDCG@10을 계산합니다. Claude Sonnet 4.5와 Instructed-Retriever-1은 각각 80.1 및 81.0 nDCG@10을 기록했습니다. 이는 재순위화를 적용하지 않은 설정과 비교했을 때 각각 +12.8% 및 +14.1% 향상된 수치이며, 다중 피벗 그룹와이즈 재순위화 모델의 효과를 입증합니다.
전반적으로 실제 워크로드에서 Instructed-Retriever-1은 쿼리 생성 평가 기준 지표 전반에서 강력한 성능을 발휘하며, 재순위화에서도 가장 강력한 베이스라인 모델과 대등한 경쟁력을 유지합니다. 이는 쿼리 생성과 후보군 선택 모두에 단일 검색 특화 모델을 사용하는 것을 지지합니다.
병렬 테스트 시간 스케일링(Parallel test-time scaling)은 추가적인 컴퓨팅을 효율적으로 서빙할 수 있고 검색 횟수에 따라 확장 가능한 경우에만 유용합니다. 이를 위해 Instructed-Retriever-1은 Mixture-of-Experts 아키텍처와 FP8 양자화(quantization),2 추측형 디코딩(speculative decoding)을 포함한 서빙 최적화, 그리고 전체 검색 파이프라인을 위한 추가적인 인프라 튜닝을 사용합니다. 자체 평가에서 FP8은 BF16에 비해 추론 속도와 처리량(throughput)을 향상시키면서도 품질 저하는 전혀 보이지 않았습니다.3 추측형 디코딩은 결합된 쿼리 생성 및 재순위화 경로에 대해 30% 이상의 추가 속도 향상을 제공합니다.
이번 업데이트를 통해 병렬 테스트 시간 스케일링(Parallel Test-Time Scaling)이 프로덕션 검색 스택에 도입되었습니다. 이 시스템은 병렬 쿼리 및 필터 생성을 통해 광범위하게 검색한 다음, 다중 피벗 근거 비교를 통해 정밀하게 재순위화를 수행합니다. Instructed-Retriever-1은 검색 생성 및 근거 순위 지정을 위해 학습된 단일 검색 특화 모델로 두 단계 모두를 지원합니다. 그 결과 더 우수하고 더 빠른 Knowledge Assistant가 탄생했습니다. 오프라인 평가 설정에서 검색 시간은 3배 이상 단축되고, 답변 생성 시간은 2배 단축되며, TTFT는 약 2초, 엔드투엔드(end-to-end) 레이턴시는 일관되게 10초 미만을 유지합니다.¹ 베일러 대학교(Baylor University)를 비롯한 초기 사용자들은 이미 그 차이를 체감하고 있습니다.
"(새로운 경험은) 더 간결하고, 핵심 정보를 더 빨리 보여주는 '빠릿빠릿한(snappy)' 느낌을 줍니다. 저희의 사용 사례에서 눈에 띄는 UX 개선입니다." — Kyle Van Pelt, 베일러 대학교 등록 관리 부문 프로세스 및 거버넌스 디렉터.
지금 바로 Knowledge Assistant에 더 많은 것을 요구해 보세요. Instructed-Retriever-1이 모든 고객에게 배포되기 시작하여, 팀이 대기 시간을 줄이면서 더 높은 품질의 컨텍스트를 검색할 수 있도록 지원합니다. 이제 더 많은 질문을 던지고, 더 많은 지식을 발견하며, 질문에서 답변까지 더 빠르게 도달할 수 있습니다. 지금 바로 사용해 보세요.
1 레이턴시 추정치는 오프라인 평가 전반의 평균으로 측정되었으며, 평균 길이는 약 256개의 출력 토큰입니다. 실제 레이턴시는 특정 Knowledge Assistant 인스턴스 및 쿼리의 데이터 형태에 따라 달라질 수 있습니다.
2 FP8 양자화에는 NVIDIA의 ModelOpt 라이브러리를 사용합니다.
3 당사는 10회에 걸친 테스트를 통해 KARLBench에서 BF16 및 FP8 모델을 평가했습니다. FP8은 BF16에 비해 통계적으로 유의미한 품질 저하를 보이지 않았습니다. 평균 점수 차이는 +0.33점이었으며, 표준 오차는 1.69점, 95% 신뢰 구간은 [-2.99, 3.65]였습니다.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.