2026년 3월 2일

Jefferies, Databricks와 에이전트 분석으로 주식 리서치를 대규모로 현대화하다

AI/BI Genie를 기반으로 Jefferies가 수백 명의 애널리스트에게 다중 소스 리서치에 대한 자연어 액세스를 제공하는 방법.

작성자: Ethan Geismar, Julia Brouillette, Afsana Afzal , 벤 도안

Jefferies는 Databricks AI/BI Genie와 에이전트 분석을 사용하여 250명 이상의 애널리스트가 여러 데이터 소스에 걸쳐 개방형 리서치 질문에 답변하도록 지원합니다.
한때 며칠 또는 몇 주가 걸렸던 복잡한 리서치가 이제는 셀프서비스의 속도와 내재된 도메인 전문 지식을 결합하여 몇 분 안에 완료됩니다.
Databricks에 직접 구축되고 Unity Catalog에 의해 거버넌스가 적용되는 이 솔루션은 데이터, 도구 또는 액세스 제어를 복제하지 않고도 전 세계적으로 확장됩니다.

주식 리서치는 분석의 폭과 확신이 관건인 게임입니다.

Jefferies의 글로벌 주식 리서치 조직은 미국, EMEA, APAC에 기반을 둔 애널리스트들과 함께 여러 부문과 지역에 걸쳐 약 3,500개 기업을 담당하고 있습니다. 이러한 규모는 경쟁 우위가 되지만, 확장되는 서드파티 및 내부 데이터세트로 작업하는 모든 리서치 조직에게는 익숙한 과제를 야기하기도 합니다.

“저희 애널리스트들은 방대한 수의 기업, 산업, 데이터 소스 전반의 신호를 종합해야 합니다.”라고 Jefferies의 주식 리서치 데이터 & AI 책임자인 에단 가이즈마(Ethan Geismar)는 말했습니다. “저희의 목표는 애널리스트들이 이러한 복잡성을 고객을 위한 차별화되고 실행 가능한 투자 조언으로 전환하도록 돕는 것입니다.”

애널리스트가 던지는 질문은 좀처럼 범위가 좁거나 규범적이지 않습니다. 이 질문들은 개방형이며 특정 도메인에 국한되고, 어떤 데이터세트를 query할지 또는 어떤 테이블을 조인할지에 대한 용어가 아닌 시장 및 펀더멘털의 언어로 구성됩니다. 예를 들어, 애널리스트들은 '패스트 캐주얼 레스토랑의 수요와 전망은 어떤가요?'와 같은 질문을 합니다. 또는 '제가 담당하는 브랜드들의 유동 인구와 앱 다운로드 추세는 어떤가요?'와 같은 질문을 합니다.

투자 결정이 신뢰에 좌우되는 분야에서는 단 하나의 신호만으로는 충분하지 않은 경우가 많습니다. 애널리스트들은 확신을 얻기 위해 여러 독립적인 출처를 통한 확증이 필요합니다.

지난 몇 년간 Jefferies의 주식 리서치 엔지니어링 팀은 Databricks와 긴밀히 협력하여 수십 개의 정형 데이터세트를 수집, 정리, 표준화했습니다. 이 중 다수는 대체 데이터에서 시작되었지만 현재는 금융, 시장 및 거시 경제 지표까지 포괄합니다. 생성형 AI 기능이 성숙해짐에 따라 팀은 새로운 질문에 대한 답을 찾기 시작했습니다.

Jefferies는 거버넌스를 유지하고 기존 데이터 인프라에 직접 연결하며 자연어 질문을 신뢰할 수 있는 다중 소스 분석으로 변환하면서, 애널리스트에게 이 데이터를 더 빠르고 쉽게 탐색할 수 있는 방법을 어떻게 제공할 수 있을까요?

이 문제를 해결하기 위해 Jefferies는 Databricks AI/BI Genie로 구동되는 대화형 분석 환경인 Jefferies Data Intelligence(JDI)를 구축하여 분석가가 관리되는 다중 소스 데이터세트에 대해 직접 개방형 리서치 질문을 할 수 있도록 했습니다.

기존 셀프 서비스 및 맞춤형 고급 지원의 한계

기존에 Jefferies는 두 가지 주요 방식으로 신규 및 임시 애널리스트 요청을 지원해 왔습니다.

첫째, 애널리스트에게 데이터세트에 대한 직접적인 액세스를 제공하지만 의미 있는 인사이트를 추출하기 위해서는 기본 데이터 환경과 도구에 대한 이해가 필요한 기존의 셀프 서비스 데이터 브라우징 도구를 통하는 것입니다.

둘째, 맞춤형 내부 서비스 모델을 통해 리서치 엔지니어링 팀이 애널리스트의 질문을 데이터 추출로 변환하고 종합된 결과를 전달하는 것입니다.

“데이터를 정리하고 매핑한 후에도 여전히 마찰이 있습니다. 애널리스트가 묻는 근본적인 질문을 올바른 데이터세트와 뷰로 변환해야 하는 사람이 필요합니다.”라고 Geismar는 설명했습니다. “애널리스트들은 테이블이나 조인(join)과 같은 용어로 질문을 구성하지 않습니다. 그들은 펀더멘털, 거시 경제, 산업 동향, 비교 포지셔닝, 촉매제, 리스크 등에 관해 질문합니다.”

이 접근 방식은 강력했지만, 팀의 역량이라는 다른 제약이 있었습니다.

“저희는 월간 스프린트 단위로 일하기 때문에 막바지에 들어오는 요청에 대응할 여유가 많지 않습니다.”라고 가이즈마는 말했습니다. “기술적으로 처리하기 어려운 일이 아니더라도, 처리 역량의 한계 때문에 어떤 경우에는 며칠 또는 몇 주가 걸리기도 했습니다.”

더 복잡한 질문, 특히 여러 데이터세트에 걸친 교차 검증이 필요한 질문은 우선순위가 정해지면 집중적인 노력이 몇 시간 또는 며칠이 걸릴 수 있었습니다.

복잡한 리서치 질문은 종종 가장 어려운 과제였습니다. 패스트 캐주얼 레스토랑의 소비자 수요 동향에 대해 질문하는 애널리스트는 유동 인구 데이터, 모바일 앱 참여 지표, 설문조사 기반 구매 의도, 거시 경제적 맥락이 필요할 수 있으며, 각 항목은 별도의 데이터 추출, 조인, 분석이 필요합니다.

두 모델 모두 작동했지만 둘 다 마찰을 일으켰습니다. Jefferies에 필요한 것은 새로운 병목 현상을 일으키지 않으면서 셀프 서비스의 독립성과 리서치 엔지니어링 팀의 내재된 전문성을 결합하는 방법이었습니다.

애널리스트의 눈높이에 맞춘 Research Agent

이를 대규모로 운영하기 위해 Jefferies는 회사의 정형 데이터 레이크 위에 오케스트레이션 및 추론 엔진으로 AI/BI Genie를 탑재한 분석가용 맞춤형 인터페이스를 갖춘 내부 주식 리서치 어시스턴트를 구축했습니다.

이를 통해 애널리스트는 도메인 전문가에게 던지는 것과 동일한 질문을 하고 여러 관련 데이터세트에 기반한 답변을 받을 수 있습니다. 중요한 점은, 시스템이 애널리스트들이 연구를 구상할 때 사용하는 언어를 이해한다는 것입니다.

예를 들어, 애널리스트가 패스트 캐주얼 레스토랑에 대해 질문하면 AI/BI Genie는 도메인별 시맨틱 매핑과 큐레이팅된 비즈니스 컨텍스트를 사용하여 해당 섹터 약어를 해석하고, 적절한 커버리지 유니버스에 매핑하며, 애널리스트가 브랜드, 테이블 또는 조인을 지정할 필요 없이 관련 데이터를 검색합니다.

애널리스트들이 자연스럽게 섹터를 분류하는 방식과 업계 분류에 맞춰진 동일한 커버리지 매핑을 통해 구성 브랜드 전반의 총 레스토토랑 방문 수와 같은 집계 뷰를 볼 수 있습니다. 이 로직은 Genie에 직접 내장되어 있으므로 애널리스트는 익숙한 언어와 그룹을 사용하여 자신의 커버리지를 검토할 수 있습니다.

이를 통해 애널리스트는 브랜드 수준 세부 분석("개별 브랜드별로 분류해 줘"), 모회사 집계 또는 추가적인 맥락을 요청하며 자연스럽게 반복 작업을 수행할 수 있으며, 해당 차원을 미리 지정할 필요 없이 더 심층적인 분석을 유도할 수 있습니다.

개방형 질문을 통해 숨겨진 인사이트를 발견하는 방법

애널리스트가 개방형 프롬프트를 사용하면 시스템은 당면한 질문과 가장 관련성이 높은 신호를 식별하는 데 도움을 주며, 애널리스트가 이전에 고려하지 않았을 수 있는 인사이트와 데이터세트를 발견하는 경우가 많습니다.

"패스트 캐주얼 레스토랑 방문객 수를 보여줘"와 같은 간단한 query는 관련 유동 인구 데이터를 검색하고 추세 분석을 제시합니다.

하지만 '패스트 캐주얼 레스토랑의 수요와 전망을 보여줘'와 같이 더 광범위한 프롬프트는 유동 인구, 모바일 앱 사용량, 설문조사 기반 구매 의향, 거시 경제 지표 및 기타 신호들을 취합하여 분석의 범위를 넓힙니다.

그림: Jefferies 데이터 인텔리전스가 거버넌스 데이터세트와 실시간 FRED/BLS API를 사용하여 공공 데이터 질문에 답변하는 모습 — Jefferies Data Intelligence answering a multi-source research question with natural-language synthesis and generated visualizations.

Geismar는 "애널리스트들은 기술적 지식이나 지원 없이도 데이터에 원활하게 액세스할 수 있습니다."라고 말했습니다. "하지만 더 강력한 가치는 분석가들이 존재 자체를 몰랐거나, 묻고 있는 질문에 사용할 생각도 못 했던 데이터를 접하게 해준다는 점입니다."

이러한 다중 소스 응답은 애널리스트가 명시적으로 요청하지 않았을 수 있는 분석적 관점을 제시하여 독립적인 소스 간의 교차 검증을 가능하게 합니다.

Geismar는 바로 그 교차 검증이 핵심 가치 제안이라고 말합니다. 그는 '여러 독립적인 데이터 세트를 함께 사용하여 가설을 입증하는 것이 바로 힘입니다'라고 덧붙였습니다. '이는 중복이 아니라 확신을 높여주는 것입니다. 그것이 이 게임의 핵심이죠.'

반대로, 결과가 가정과 모순될 때는 새로운 연구 방향을 제시하고 투자 논제를 구체화하는 데 도움이 됩니다.

작동 방식: Databricks 기반의 에이전틱 워크플로

애널리스트 경험은 대화형처럼 느껴지지만, 그 뒤에 있는 인프라는 정교합니다. 내부적으로 이 애플리케이션은 LangGraph 기반의 멀티 에이전트 아키텍처로 구동되며 Databricks Model Serving을 통해 운영됩니다.

애널리스트가 질문을 제출하면 시스템은 다음과 같은 구조화된 워크플로를 따릅니다.

도구 검증 은 내부 Databricks 리소스와 연방준비은행 경제 데이터(FRED), 노동통계국(BLS) 등과 같은 타사 서비스를 모두 확인하여 필요한 데이터 서비스와 APIs를 사용할 수 있도록 보장합니다.
계획 에이전트 는 질문을 일련의 리서치 작업으로 분해하여, 무엇을 조사해야 하고 사용 가능한 도구를 사용하여 포괄적으로 답변하는 방법에 대한 계획을 생성합니다.
실행 에이전트 는 가능한 경우 데이터를 병렬로 검색하고 Genie를 통해 거버넌스 데이터 세트에서 데이터를 가져오며 필요에 따라 타사 API를 호출합니다. 이 에이전트는 리서치 계획의 순서를 따르며, 종속성이 있는 경우에는 순차적으로 실행하고 가능한 경우에는 병렬로 실행합니다.
종합 에이전트 는 여러 소스의 결과를 결합한 차트와 분석을 포함하여 결과를 일관성 있는 응답으로 종합합니다.

결정적으로, 이 시스템은 하나의 테이블이나 단일 조인 뷰에 의존하는 대신, 단일 질문에 대한 응답으로 여러 데이터세트에 걸쳐 신호를 검색하고 확증하여 데이터세트 간 교차 검증을 가능하게 합니다. 이 아키텍처를 통해 애널리스트는 티커 또는 브랜드 수준 세부 분석과 같은 자연스러운 후속 질문으로 반복 작업을 수행하여 신호를 검증하고 세부 사항을 심층적으로 분석할 수 있습니다.

이 워크플로 내에서 Genie는 큐레이션되고 거버넌스가 적용된 비즈니스 데이터에 대한 자연어 질문을 가능하게 함으로써 핵심적인 역할을 수행하며, Databricks Model Serving은 JDI 애플리케이션을 위한 배포 및 서빙 레이어를 제공합니다.

이 시스템은 모델에 구애받지 않으며 계획 및 종합과 같은 추론 집약적인 작업을 위해 다양한 파운데이션 모델을 활용하는 동시에, 아키텍처가 발전함에 따라 (도구 검증과 같은) 더 간단한 단계를 위해 더 가볍거나 특정 작업에 맞는 모델을 통합할 수 있는 유연성을 유지합니다.

JDI를 구축하는 팀에게 이 아키텍처는 주식 리서치 수행 방식의 더 광범위한 변화를 예고합니다.

주식 리서치 팀의 선임 데이터 사이언티스트인 Dylan Andrews는 "Databricks로 Jefferies Data Intelligence를 구축하면서 미래의 리서치가 어떤 모습일지 엿볼 수 있었습니다."라고 설명했습니다. "데이터와 상호 작용하는 구문을 아는 것은 점점 덜 중요해지고, 여러 도메인에 걸친 데이터 모자이크에 기반하여 단 몇 분 안에 가설을 검증하거나 반증하는 데 더 많은 초점이 맞춰질 것입니다."

Unity Catalog를 통한 Default 거버넌스

Jefferies의 가장 중요한 요구 사항 중 하나는 거버넌스가 나중에 고려되는 사항이 아니도록 보장하는 것이었습니다.

데이터세트가 Databricks Unity Catalog를 통해 등록되고 액세스되기 때문에 사용자 ID를 기반으로 액세스 제어가 자동으로 시행됩니다. Genie는 Unity Catalog에 이미 정의된 동일한 테이블 수준 및 행 또는 열 수준 권한을 준수하므로 AI 환경을 위해 맞춤형 권한 부여 로직을 구축하고 유지 관리할 필요가 없습니다.

이를 통해 데이터 보안이나 규정 준수를 저해하지 않으면서 비기술적인 사용자에게도 강력한 분석 기능을 자신 있게 확장할 수 있었습니다. 시스템이 더 민감한 데이터세트를 포함하고 전 세계적으로 사용자 액세스 범위를 넓히도록 확장됨에 따라, 이러한 기본 내장된 거버넌스 제어 기능은 적합한 사람이 적합한 데이터를 자동으로 볼 수 있도록 보장합니다.

기존 데이터 인프라 기반으로 구축

주식 리서치 에이전트는 독립형 AI 프로토타입으로 개발되지 않았습니다. 이 에이전트는 Jefferies가 7년간의 파트너십을 통해 Databricks에 이미 구축한 데이터 기반 위에 직접 탑재되도록 설계되었습니다.

현재 이 시스템은 거버넌스가 적용된 Databricks 데이터 세트와 런타임 API 호출을 결합한 하이브리드 아키텍처의 여러 소스에서 데이터를 가져옵니다.

Genie Spaces(선별된 데이터세트):

기본 데이터: 분기별 실적 발표 주기 동안 공개되는 회사별 KPI를 포함한, 회사가 보고한 재무 및 운영 지표
대체 데이터세트: 웹 트래픽, 유동 인구, 소셜 미디어 참여도 등, 교차 분석을 위해 미리 조인되어 준비된 데이터

런타임 API 연결:

거시 경제 데이터: FRED 및 BLS의 지표.
기타 타사 서비스 및 API: 사전 준비되지 않고 런타임에 API 또는 MCP를 통해 더 효과적으로 수집되는 추가 타사 데이터 소스입니다.

에이전트는 API 호출의 데이터와 Genie를 통해 검색된 거버넌스 데이터세트를 원활하게 조인하여 실시간 외부 데이터와 신중하게 큐레이션된 내부 소스를 모두 포괄하는 종합적인 답변을 제공합니다.

이 어시스턴트는 이미 마련된 동일한 수집 파이프라인, 오케스트레이션 작업, 거버넌스 모델을 활용하므로 Jefferies는 병렬 시스템을 도입하는 대신 기존 인프라 위에 에이전틱 기능을 계층화할 수 있었습니다. 기존 Databricks 파이프라인을 통해 수집, 정리, 표준화를 처리하는 Databricks의 오케스트레이션된 작업은 계속해서 기반 역할을 하며, 이제 자연어를 통해 액세스할 수 있습니다.

주식 리서치 팀의 선임 데이터 사이언티스트인 Tamar Kellner는 Databricks의 기본 기능이 개발을 어떻게 가속화했는지 다음과 같이 강조했습니다.

"Databricks Genie와 Model Serving은 데이터 액세스, 배포, 거버넌스를 즉시 처리해주었기 때문에 우리 팀은 JDI의 핵심 차별화 요소인 에이전트 시스템 설계, 분석가 우선 워크플로, 신속한 데이터세트 간 신호 교차 검증에 집중할 수 있었습니다."

투명성을 통한 신뢰 구축

도입에는 속도 이상의 것이 필요했습니다. 애널리스트들은 특히 인간 중재자가 없는 워크플로에서 결과를 신뢰해야 했습니다.

팀이 해결한 중요한 과제 중 하나는 다음과 같았습니다. 비기술적인 사용자가 AI 생성 결과물을 편안하게 사용하고 신뢰하게 만들려면 어떻게 해야 할까? 비정형 데이터를 기반으로 구축된 도구와 달리, 팀은 단순히 소스 문서를 다시 link하고 정보가 어디에서 추출되었는지 강조 표시할 수 없었습니다. 또한 애널리스트에게 정확성 검증을 위해 SQL query를 확인해달라고 기대할 수도 없었습니다.

해결책은 모든 응답에 감사 가능성을 직접 내장하는 것이었습니다. JDI가 반환하는 모든 답변에는 확장 가능한 드롭다운이 포함되어 있으며, 이는 시스템이 애널리스트의 프롬프트를 데이터 추출 호출로 변환한 방법을 보여주는 사고 연쇄(chain-of-thought) 뷰를 표시합니다. 이러한 투명성은 비기술적인 사용자가 SQL 또는 소스 테이블을 직접 검사할 필요 없이 추론 과정을 이해하고 감사하여 결과에 대한 신뢰를 구축하는 데 도움이 됩니다.

이러한 설명 가능성은 여러 확증 데이터 세트를 제시하는 시스템의 능력과 결합하여, 애널리스트가 투자 추천에 대한 확신을 구축하는 데 필요한 증거를 제공합니다.

초기 영향 및 향후 계획

이 어시스턴트는 현재 미국 내 250명 이상의 사용자에게 배포되었으며, EMEA와 APAC으로 확장하여 전 세계 약 550명의 애널리스트에게 액세스를 제공할 계획입니다.

이 도구는 출시된 지 불과 몇 주밖에 되지 않았지만, 폭넓게 도입되었습니다. 이미 수백 개의 질문에 대한 답변이 이루어졌고, 수천 개의 인사이트와 차트를 생성했습니다.

이전에는 대역폭 제약이나 복잡성 때문에 며칠 또는 몇 주가 걸리던 작업이 이제는 몇 분 만에 완료됩니다.

Jefferies의 소비자 리서치 부문 상무 이사(Managing Director)인 Kaumil Gajrawala와 같은 사용자에게 이러한 가속화는 이미 리서치 수행 방식을 바꾸고 있습니다.

Gajrawala는 'JDI는 우리의 워크플로를 엄청나게 가속화했습니다'라고 말했습니다. '더 많은 일을 더 빠르게 처리하고 있습니다. '이제 막 시작했을 뿐입니다. 단순히 업무를 더 빨리 처리하는 단계에서 벗어나, 이전에는 불가능했던 일을 이제 무엇을 할 수 있는지 발견하는 단계로 발전하고 있습니다.'

현재 시스템은 약 10~12개의 핵심 데이터 소스를 활용하며, 이 중 일부는 여러 데이터세트를 포함하고 있습니다. 또한 시간이 지남에 따라 30~40개 이상의 소스로 확장할 수 있는 명확한 계획이 있습니다.

“가장 일반적인 소스부터 시작했지만, 앞으로 2~3배 더 많은 소스를 추가할 수 있습니다.”라고 가이즈마는 말했습니다. “비전은 이 도구가 우리 부서의 정형 데이터를 위한 단일 액세스 포인트가 되고, 대부분의 애널리스트에게는 일상적인 도구가 되는 것입니다.”

플랫폼이 확장됨에 따라 Jefferies는 액세스 가능한 리서치 데이터의 범위를 확장하는 동시에 성능, 사용성, 해석 가능성을 유지하는 데 계속 집중하고 있습니다.

주식 리서치의 새로운 접근점

Jefferies는 Databricks의 데이터 엔지니어링, 거버넌스, AI 역량을 기반으로 셀프 서비스의 자율성과 리서치 엔지니어링 팀의 내재된 전문성을 결합하여 애널리스트가 정형 데이터와 상호 작용하는 방식을 발전시키고 있습니다.

그 결과 더 빠른 답변을 얻을 수 있을 뿐만 아니라, 확증된 증거에 기반하여 리서치에 필요한 속도로 제공됨으로써 애널리스트들이 더 강력하고 방어하기 쉬운 투자 논제를 개발하는 데 도움이 되는 시스템을 구축했습니다.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)