주요 컨텐츠로 이동
AI 연구

Genie와 함께 데이터 에이전트의 한계를 넓히다

작성자: Databricks AI 연구팀

Genie는 Databricks의 최첨단 데이터 에이전트로, 정형(테이블, 대시보드, 노트북 등) 및 비정형(작업 공간 파일, Google Drive, Sharepoint 등) 데이터 소스를 모두 포함하는 엔터프라이즈 데이터에 대한 복잡한 질문에 답변하도록 설계되었습니다. 이 블로그에서는 데이터 에이전트가 직면하는 고유한 과제 중 일부를 설명하고 전문 지식 검색, 병렬 사고 및 다중 LLM 설계를 사용하는 방법을 포함하여 이를 해결하기 위한 기술을 소개합니다. 실제 데이터 분석 작업에 대한 내부 벤치마크 실험을 통해 이러한 기술이 선도적인 코딩 에이전트에 비해 Genie의 전반적인 정확도를 크게 향상시키고(32%에서 90% 이상으로) 비용과 지연 시간을 크게 줄일 수 있음을 관찰했습니다.

Figure 1: A plot of Genie experiments using different techniques such as specialized knowledge search, parallel thinking, and a Multi-LLM design with optimized prompts.
Figure 1: 전문 지식 검색, 병렬 사고 및 최적화된 프롬프트가 포함된 Multi-LLM 설계를 포함한 다양한 기술을 사용한 Genie 실험 플롯.

데이터 에이전트의 주요 과제

코딩 에이전트는 코드 컨텍스트를 이해하는 데 도움이 되는 도구를 갖추면 강력한 LLM이 자율적으로 놀라운 일을 할 수 있음을 보여주었습니다. 코딩 에이전트는 디스크 파일 시스템과 같은 정적이고 결정론적인 환경에서 효과적으로 작동하지만, 데이터 에이전트는 완전히 새로운 패러다임을 도입합니다. 데이터 에이전트는 수십만 개의 테이블, 노트북, 대시보드 및 문서에 걸쳐 풍부한 의미론적 컨텍스트를 포함하는 동적이고 끊임없이 진화하는 데이터 레이크하우스 내에서 작동합니다.

예를 들어, Figure 2에 표시된 내부 사용자가 제기한 실제(익명화된) 쿼리를 생각해 보세요. 사용자는 동일한 제품의 수익을 보고하는 두 개의 엔터프라이즈 대시보드에서 서로 다른 날짜에 상반된 급증을 발견하고 에이전트에게 그 이유를 설명하도록 요청합니다. 이 합리적인 질문은 단일 데이터 소스에 답이 포함되어 있지 않고 질문을 해결하려면 테이블, 내부 문서 및 대시보드 전반에 걸친 교차 시스템 검색과 다일 보고서 설정 방법에 대한 추론이 필요하기 때문에 기만적으로 어렵습니다. 또한 엔터프라이즈 가격 책정 세부 정보를 조사하여 계약 요율을 찾아야 합니다. 마지막으로 중간 계산에서 초기 가정이 잘못되었음을 밝힐 때 에이전트가 자동으로 수정할 수 있는 능력이 필요합니다. 그림은 에이전트가 여러 단계(1) 병렬 다중 에이전트 데이터 검색, (2) 데이터 조사, (3) 자체 수정 루프 및 (4) 검증)를 통해 작업을 성공적으로 해결하는 방법을 보여줍니다.

코딩 에이전트에 비해 데이터 에이전트에는 세 가지 주요 고유 과제가 있습니다.

  • 데이터 검색 규모: 사용자 쿼리에 답하기 위한 올바른 데이터 소스를 찾는 것은 엔터프라이즈 고객이 수백만 개의 정형 및 비정형 소스(테이블, 대시보드, 문서 등)를 보유하고 있어 기존 검색 방법을 무너뜨리는 규모로 인해 가장 큰 과제 중 하나입니다.
  • "진실의 원천" 비즈니스 지식 결정: 비즈니스 질문에 답하려면 많은 소스(예: 테이블 메타데이터, 회사 문서, 내부 메시지)에서 가져온 깊고 구체적인 지식이 필요하며, 이러한 소스는 종종 오래되었거나 모순되거나 대체되어 에이전트가 가장 권위 있는 정보를 결정해야 합니다.
  • 검증 가능한 테스트 부족: 코딩 에이전트는 결정론적이고 검증 가능한 테스트를 사용하여 코드를 반복적으로 개선할 수 있지만, 데이터 에이전트에는 "명세"가 예상되는 올바른 답변에 대한 개념 없이 고수준 사용자 쿼리일 뿐이므로 해당 테스트가 없습니다. 또한 쿼리가 데이터 불완전성으로 인해 항상 답변 가능하지 않을 수 있으며, 데이터 에이전트가 이러한 사례를 식별하고 사용자에게 다시 표시할 수 있어야 합니다.
Figure 2: An example trajectory showing how Genie solves a complex user query across different phases: parallel multi-agent asset discovery, data investigation (SQL extraction, comparative analysis, root-cause investigation), self-correction and reconciliation, and final verification.
Figure 2: 병렬 다중 에이전트 자산 검색, 데이터 조사(SQL 추출, 비교 분석, 근본 원인 조사), 자체 수정 및 조정, 최종 검증 등 여러 단계를 거쳐 Genie가 복잡한 사용자 쿼리를 해결하는 방법을 보여주는 예시 궤적입니다.

주요 기술 발전

Figure 3은 Genie가 일반 코딩 에이전트보다 훨씬 뛰어난 성능을 발휘하도록 하는 주요 기술 혁신(i) 전문 지식 검색, ii) 병렬 사고, iii) 다중 LLM)을 보여줍니다. 전문 지식 검색은 의미론적 컨텍스트 데이터를 사용하여 자산 검색 하위 에이전트를 기반으로 검색 품질을 크게 향상시킵니다. 병렬 사고는 에이전트가 여러 다른 궤적을 샘플링한 다음 궤적 전반에 걸쳐 결과를 집계하여 최종 답변을 계산할 수 있도록 합니다. 마지막으로 다중 LLM을 사용하면 에이전트가 각기 다른 하위 에이전트에 대해 서로 다른 LLM을 최적화된 프롬프트와 함께 사용하여 전반적인 정확도와 지연 시간을 더욱 개선할 수 있습니다.

Figure 3: The key technical advances in Genie: i) Specialized Knowledge Search, ii) Parallel Thinking, and iii) Multi-LLM that allow for significant improvements in accuracy and latency.
Figure 3: Genie의 주요 기술 발전: 정확도 및 지연 시간의 상당한 개선을 가능하게 하는 i) 전문 지식 검색, ii) 병렬 사고 및 iii) 다중 LLM입니다.

전문 지식 검색

Genie는 작업 공간 테이블, 노트북, 대시보드, 문서 및 파일과 같은 기존 데이터 자산을 사용하여 풍부한 의미론적 엔터프라이즈 컨텍스트를 파생한 다음 이 컨텍스트를 사용하여 검색 인덱스를 구축합니다. 여러 검색 인덱스를 병렬로 사용하고 풍부한 메타데이터 신호를 함께 사용하여 사용자 쿼리에 가장 관련성이 높은 자산을 효율적으로 검색합니다. Figure 4는 전문 지식 검색을 활용하는 것이 Genie의 테이블 검색 성능을 테이블 검색 벤치마크에서 최대 40%까지 향상시키는 데 어떻게 도움이 되는지 보여줍니다.

Figure 4: Comparison of Specialized Knowledge Search for Table Search performance.
Figure 4: 테이블 검색 성능을 위한 전문 지식 검색 비교입니다.

병렬 사고

코딩 에이전트가 원하는 기능을 확인하기 위해 테스트를 먼저 작성한 다음 테스트가 통과될 때까지 코드 생성을 반복할 수 있는 소프트웨어 엔지니어링 작업과 달리, 개방형 데이터 쿼리에는 해당 단위 테스트가 없습니다. 테스트가 없으면 데이터 에이전트가 생성된 답변이 올바른지 또는 추가 개선이 필요한지 알기 어렵습니다. 이 문제를 해결하기 위해 여러 궤적을 샘플링하고 궤적 전반에 걸쳐 관련 정보를 집계하여 최종 답변을 계산하는 병렬 사고를 활용합니다. Figure 5는 병렬 사고가 약간의 추가 지연 시간과 토큰 비용이 발생하지만 전반적인 답변 정확도를 크게 향상시킬 수 있음을 보여줍니다. 또한 Figure 1에서 볼 수 있듯이 Multi-LLM과 추가 최적화를 결합하면 비용과 지연 시간을 더욱 크게 줄일 수 있습니다.

Figure 5: Adding parallel thinking improves overall performance across both GPT-5.4 and Opus-4.6.
Figure 5: 병렬 사고를 추가하면 GPT-5.4 및 Opus-4.6 모두에서 전반적인 성능이 향상됩니다.

다중 LLM

Genie의 주요 기술 발전 중 하나는 서로 다른 LLM이 상호 보완적인 기능에 능숙하다는 것을 관찰했기 때문에 서로 다른 하위 에이전트에 대해 서로 다른 LLM을 활용하는 기능입니다. 예를 들어, 계획 단계에 다른 LLM을 사용하고, 다양한 검색 하위 에이전트에 다른 LLM을 사용하고, 코드 생성 및 심사에는 다른 LLM을 사용할 수 있습니다. Databricks 플랫폼을 사용하면 Opus, GPT 및 Gemini를 포함한 모든 최신 모델, 오픈 소스 모델 및 사용자 지정 학습 모델을 쉽게 사용해 볼 수 있습니다. 정확도 외에도 서로 다른 LLM이 매우 다른 지연 시간 및 비용 특성을 초래한다는 것을 관찰했습니다. Figure 6은 서로 다른 LLM이 테이블 검색 작업에서 어떻게 수행되는지, 그리고 GEPA와 같은 방법을 사용하여 해당 정확도와 비용을 더욱 최적화할 수 있는 방법을 보여줍니다.

Figure 6: Optimizing the accuracy and cost for different LLMs for Table Search using GEPA.
Figure 6: GEPA를 사용하여 테이블 검색에 대한 서로 다른 LLM의 정확도 및 비용을 최적화합니다.

결론

코딩과 데이터 분석은 개념적으로 많은 유사점을 공유하지만, 엔터프라이즈 데이터 시스템의 동적인 특성은 몇 가지 고유한 과제를 안겨줍니다. 데이터 에이전트는 대규모 엔터프라이즈 환경에서 올바른 자산을 효율적으로 검색하고, 모호한 환경에서 “진실”을 파악하며, 사용자의 질문에 정확하게 답하기 위해 효율적인 코드와 쿼리를 작성해야 합니다. 저희는 이러한 문제를 해결하기 위해 풍부한 의미 정보와 여러 메타데이터 신호를 활용하는 특화된 지식 검색, GEPA를 사용하여 최적화된 프롬프트를 가진 다양한 LLM을 활용하는 Multi-LLM, 그리고 전반적인 정확도를 더욱 향상시키기 위한 병렬 사고와 같은 몇 가지 새로운 접근 방식을 개발했습니다. 이러한 접근 방식을 Genie에 추가함으로써 벤치마크 작업에서 선도적인 코딩 에이전트보다 훨씬 더 나은 성능을 발휘할 수 있습니다. 아직 탐구해야 할 어렵고 열린 질문이 많이 남아 있으며, 엔터프라이즈를 위한 최첨단 데이터 에이전트 구축이라는 이 분야에서 연구를 탐구하기에 이보다 더 흥미로운 시기는 없습니다.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.