Genie, TabPFN, Agent Bricks를 사용하여 대화형 BI에 예측 인텔리전스 제공
작성자: 류타 요시마츠 , Javier Poveda Panter, Dominik Safaric, Philipp Singer, Diana Kriuchkova, Sauraj Gambhir, Dael Williamson , Bryan Smith
비즈니스 인텔리전스는 항상 질문에 답하는 것이었습니다. 대부분의 조직에게 이러한 질문은 설명적(지난 분기에 무슨 일이 있었나요?)이거나 진단적(남동부에서 이탈이 급증한 이유는 무엇인가요?)이었습니다. Databricks Genie는 이러한 질문을 훨씬 더 쉽게 접근할 수 있도록 하여, 비즈니스 사용자가 SQL을 작성하거나 분석가를 기다릴 필요 없이 자연어로 답변을 얻을 수 있도록 했습니다.
하지만 가장 중요한 결정을 내리는 데 영향을 미치는 질문은 예측적입니다. 다음 분기에 이탈할 가능성이 있는 고객은 누구인가요? 가격을 조정하면 수요가 어떻게 변할까요? 이 대출 신청자가 채무 불이행할 가능성은 얼마나 되나요? 이러한 질문에 답하는 것은 역사적으로 완전히 다른 도구, 기술 및 팀을 필요로 했습니다. 즉, 데이터를 탐색하고 예측에 적합한지 검증하고, 특성을 엔지니어링하고, 모델을 훈련하고, 조건이 변경됨에 따라 모델을 유지 관리하는 데이터 과학자입니다. 결과적으로 비즈니스 사용자가 자신 있게 작업하는 BI 세계와 전문 팀만 접근할 수 있는 예측 분석 세계 사이에 명확한 경계가 생겼습니다.
이전 블로그 게시물에서는 테이블형 데이터용 파운데이션 모델인 Prior Labs의 TabPFN이 단일 순방향 전달로 프로덕션 등급 예측을 제공함으로써 해당 예측 워크플로우의 상당 부분을 어떻게 축소하는지 보여주었습니다. 하지만 주요 병목 현상이 남아 있었습니다. TabPFN이 예측을 수행하기 전에 누군가는 비즈니스 질문을 잘 구성된 데이터 세트로 변환해야 했습니다. 모델은 즉각적일 수 있지만, 이를 지원하는 작업은 그렇지 않습니다.
여기서 Genie의 역할은 질문에 답하는 것에서 예측을 가능하게 하는 것으로 전환됩니다. Genie는 이미 조직의 데이터(스키마, 관계 및 비즈니스 의미)를 이해하고 있습니다. Genie와 TabPFN을 다중 에이전트 오케스트레이터 내에서 결합함으로써, 우리는 폐쇄 루프를 만듭니다. Genie는 자연어 질문을 TabPFN이 필요로 하는 정확한 입력 데이터로 동적으로 변환하고, TabPFN은 단일 순방향 전달로 해당 데이터를 예측으로 변환합니다. 대화 중에 요청된 모든 예측 질문에 대해 즉석에서 맞춤형 응답을 받았습니다. 답변할 수 있는 질문의 범위는 본질적으로 무제한이 됩니다. 즉, "결과가 있는 과거 데이터를 기반으로 새로운 시나리오에 대한 결과를 예측하라"로 구성할 수 있는 모든 질문은 몇 초 안에 답변할 수 있습니다.
결과는 Unity Catalog를 통한 전체 계보 및 액세스 제어가 적용된 Lakehouse 데이터에 기반한 단일의 거버넌스 환경으로, 비즈니스 사용자가 설명 분석에 사용하는 대화형 인터페이스에서 동일하게 예측 질문을 할 수 있습니다.
이 게시물에서는 이를 가능하게 하는 애플리케이션 아키텍처를 살펴보고, 각 기술 구성 요소를 소개하고, 대화형 BI 내에서 예측 인텔리전스를 직접 제공하기 위해 어떻게 결합되는지 보여줍니다.
비디오 1. Databricks Apps 인터페이스를 통해 Genie 및 TabPFN을 사용하는 다중 에이전트 슈퍼바이저와 상호 작용
이 시스템은 Databricks에서 엔터프라이즈 에이전트를 구축하고 배포하기 위한 플랫폼 인 Agent Bricks를 사용하여 기본 구성 요소를 연결하는 Databricks App으로 배포된 다중 에이전트 오케스트레이터로 구축됩니다. Genie는 거버넌스된 Lakehouse 데이터에 대한 구조화된 SQL 분석의 하위 에이전트 역할을 합니다. TabPFN은 외부 MCP 서버로 Unity Catalog에 연결됩니다. 이 시스템은 추가 하위 에이전트 및 서빙 엔드포인트도 지원합니다. 필요에 따라 다른 Databricks 애플리케이션 또는 추가 MCP 서버를 추가할 수 있습니다.
예측 질문이 도착하면 오케스트레이터는 에이전트 워크플로우를 실행합니다. 사용자의 비즈니스 의도를 해석합니다. 질문에 답하기 위해 예측 분석이 필요한 경우 Genie에 쿼리하여 Lakehouse에서 적절한 레이블이 지정된 데이터를 추출합니다. 필요한 모든 데이터를 수집한 후 TabPFN을 호출하여 올바른 형식으로 모델에 이 데이터를 전달합니다. 마지막으로 슈퍼바이저는 예측을 해석하고 실행 가능한 권장 사항을 사용자에게 제공합니다(그림 1).

구체적으로 영업 책임자가 "Horton-Cross 거래를 가장 성공적으로 성사시킬 수 있는 프로모션 유형은 무엇인가요?"라고 질문할 때 발생하는 상황을 생각해 보겠습니다.
기존 워크플로우에서는 이 질문에 답하기 위해 데이터 과학자가 질문을 이해하고 어떤 테이블과 열이 중요한지 식별해야 합니다. 프로모션 유형과 승/패 결과를 포함하는 과거 거래에서 올바른 훈련 세트를 추출합니다. 알고리즘을 선택하고, 하이퍼파라미터를 조정하고, 성능을 검증합니다. Horton-Cross 거래에 특정한 추론 데이터를 준비합니다. 모델을 실행합니다. 그리고 출력을 비즈니스 권장 사항으로 변환합니다. 이러한 각 단계에는 시간, 전문 지식 및 반복이 필요합니다. 그리고 다음 질문인 "승리 확률을 최대화하기 위해 후속 조치를 취할 최적의 날짜는 언제인가요?"는 처음부터 완전히 다른 모델을 구축해야 합니다.
이제 동일한 다중 에이전트 슈퍼바이저 하에서 Genie와 TabPFN을 사용할 때 발생하는 상황을 고려해 보겠습니다. 슈퍼바이저는 자연어 질문과 그 의미론적 의도를 해석한 다음, Genie에 해당 의도를 특정 요청으로 변환하여 데이터 세트를 생성하도록 합니다. Genie는 이 질문에 답하기 위해 승패를 레이블로 사용하여 과거 기회를 프로모션 및 계정과 조인해야 한다는 것을 인식하고, 이 데이터를 즉시 추출하기 위한 정확한 SQL을 생성합니다.
TabPFN은 해당 데이터 세트를 수신하고 단일 순방향 전달로 예측을 생성합니다. 특성 전처리, 모델 선택, 하이퍼파라미터 튜닝이 없습니다. 마지막으로 슈퍼바이저는 명확하고 데이터 기반의 권장 사항을 반환합니다. 질문에서 예측까지 전체 파이프라인이 단일 대화 턴에서 자연어로부터 자체적으로 조립됩니다.
이 패턴에는 제한 사항이 있습니다. TabPFN은 Genie가 생성하는 데이터만큼만 좋습니다. 스키마가 올바른 신호를 캡처하지 못하거나, 필요한 조인이 존재하지 않거나, 결과가 데이터에 표현되지 않아 Genie가 주어진 질문에 대한 명확한 레이블 열이 있는 의미 있는 데이터 세트를 구성할 수 없다면, TabPFN의 능력이 아무리 뛰어나더라도 예측은 신뢰할 수 없을 것입니다. 효과적인 Genie 공간 구축을 위한 모범 사례는 여기에서 확인할 수 있습니다. 또한 에이전트가 다중 턴 대화 중에 주요 정보를 환각하거나 누락할 수 있는 더 넓은 위험도 있습니다.
이것이 바로 체계적인 평가가 필수적인 이유입니다. 배포 전에 한 번만 검증하면 되는 정적 ML 파이프라인과 달리, 이 시스템은 각 질문에 대해 별도의 ML 문제를 동적으로 구성합니다. 우리는 경계가 어디에 있는지 이해하기 위한 평가 프레임워크가 필요합니다. 즉, 어떤 종류의 질문이 신뢰할 수 있는 예측을 생성하고, 어떤 질문이 Genie가 잘 구성된 훈련 세트로 표현할 수 있는 범위를 초과하는지 알아야 합니다.
솔루션 가속기에는 MLflow의 GenAI 평가 프레임워크를 기반으로 하는 포괄적인 평가 하네스가 함께 제공됩니다. 라이브 에이전트에서 실행되고 MLflow 실험 추적에 결과를 기록하여, 팀이 품질을 평가하고 시간이 지남에 따라 모니터링할 수 있는 단일 창을 제공합니다. 전체 세부 정보는 여기에서 찾을 수 있습니다.
비디오 2. Databricks Experiments 인터페이스를 통해 Genie 및 TabPFN을 사용하는 다중 에이전트 슈퍼바이저 평가.
이 평가 루프 없이는 신뢰할 수 있는 예측과 그렇지 않은 예측을 구별할 방법 없이 시스템이 자신 있게 예측을 반환할 수 있습니다. 이 엄격한 접근 방식은 모든 수준에서 커버리지를 보장합니다. 대화 및 동작 회귀를 포착하는 동시에 예측 파이프라인의 엔드투엔드 정확성을 검증합니다. 이러한 검사를 통해 팀은 이 패턴을 프로덕션에 배포할 때 어떤 질문 클래스가 신뢰할 수 있는 예측을 생성하고 시스템 경계가 어디에 있는지 명확하게 이해하고 자신감을 가질 수 있습니다.
Genie, TabPFN, 그리고 Agent Bricks의 조합은 기술 통계와 예측 분석 간의 관계를 재정의합니다. Genie는 피처 엔지니어링 계층이 됩니다. TabPFN은 학습 및 유지 관리 오버헤드를 제거합니다. Agent Bricks는 오케스트레이션 및 거버넌스 백본을 제공하며, MLflow는 응답 품질을 평가하고 모니터링합니다. 그 결과 비즈니스 사용자는 이미 기술 통계에 사용하고 있는 동일한 대화형 인터페이스에서 예측 관련 질문을 할 수 있습니다.
전체 솔루션 가속기는 여기에서 확인할 수 있습니다. 이 리포지토리에는 샘플 데이터 생성, Genie Space 구성 및 위에서 설명한 엔드투엔드 평가 하네스가 포함되어 있습니다. 이 패턴은 도메인에 구애받지 않습니다. 가속기는 엔터프라이즈 영업 분석을 보여주지만, 동일한 아키텍처는 의료 위험 점수 책정, 제조 품질 예측, 금융 사기 탐지, 고객 이탈 분석 등을 포함하여 결과가 있는 구조화된 데이터가 있는 모든 도메인에 적용됩니다.
지금 바로 시작하여 팀이 이미 진행 중인 대화에 예측 인텔리전스를 적용하세요.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.