작성자: 케이시 허탄
월드뱅크 그룹의 사명은 전 세계적으로 공유된 번영을 개선하는 것입니다. 그 사명을 달성하는 것은 방대한 양의 데이터를 실행 가능한 통찰력으로 전환하는 것에 달려 있습니다. 지식 저장소에 수천만 개의 문서와 매월 3백만 건의 출판물 다운로드가 있는 상황에서, 문제는 그 지식을 대규모로 찾고 사용할 수 있도록 하여 팀이 더 큰 글로벌 영향을 주도록 하는 것입니다.
이를 위해 월드뱅크 그룹은 Databricks에 통합된 데이터 및 AI 플랫폼을 구축하여 처음으로 구조화된 운영 데이터와 비정형 문서 저장소를 통합함으로써 훨씬 적은 수동 연구로 더 나은 정보에 입각한 결정을 내릴 수 있도록 했습니다.
월드뱅크 그룹은 구조화된 데이터와 비정형 데이터 스트림을 모두 운영하지만, 이 둘은 통합된 적이 없습니다. 구조화된 측면에서는 레거시 온프레미스 데이터베이스로 인해 변화하는 보고 요구 사항을 따라가기 어렵습니다. 비정형 측면에서는 연구원과 분석가가 기본적인 질문에 답하기 위해 방대한 문서 라이브러리를 수동으로 검색해야 했습니다.
월드뱅크 그룹의 데이터 및 AI 리더인 Suresh Kaudi는 "1960년에 인도에서 실행된 프로젝트를 어떻게 찾을 수 있을까요? 그 프로젝트의 함정은 무엇이었을까요? 무엇이 잘 되었을까요?"라고 말합니다. "우리는 전혀 몰랐습니다. 사서, 연구원들이 들어가서 엄청난 양의 문서를 찾아 읽고, 그것을 이해하려고 노력했습니다."
이러한 지식 병목 현상은 의사 결정을 늦추고 조직이 전 세계 포트폴리오에서 배운 교훈을 파악하는 능력을 제한했습니다.
월드뱅크 그룹은 Databricks 여정을 집중적인 목표로 시작했습니다. 바로 데이터 플랫폼을 현대화하고 레거시 시스템에서 구조화된 콘텐츠를 마이그레이션하는 것이었습니다. 그 노력이 성숙해짐에 따라 팀은 Databricks를 이 문제를 해결할 수 있는 플랫폼으로 식별했습니다.
Kaudi의 말에 따르면, Unity Catalog는 팀에게 전환점이었습니다. Kaudi는 "Unity Catalog는 우리에게 게임 체인저였습니다. 우리가 데이터를 관리할 수 있는 단일 통합 인터페이스였습니다."라고 말합니다. 거기에서 Databricks Volumes는 팀에게 동일한 플랫폼에서 구조화된 데이터와 함께 비정형 문서 콘텐츠를 관리할 수 있는 확장 가능한 경로를 제공했습니다. Genie를 통해 비즈니스 사용자는 SQL을 작성하거나 기술 팀에 의존하지 않고도 구조화된 데이터에 대해 자연어 질문을 할 수 있었습니다. Databricks AI Gateway는 시스템이 더 복잡해짐에 따라 에이전트 액세스, 비용 관리 및 보안에 대한 중앙 집중식 제어를 제공했습니다.
핵심 기술이 마련되자 월드뱅크 그룹은 데이터 민주화라는 비전을 실현할 솔루션 구현의 가장 영향력 있는 단계를 시작할 준비가 되었습니다. 월드뱅크 그룹의 구현은 각 단계가 이전 단계를 기반으로 발전했습니다. 팀은 운영 데이터를 Databricks로 마이그레이션하는 것으로 시작했으며 Unity Catalog를 사용하여 구조화된 콘텐츠에 대한 거버넌스를 수립했습니다. 이것은 조직의 기업 성과표, 즉 대중에게 공개되는 책임 도구의 기반을 마련했습니다.
Kaudi는 "결과 중심이라기보다는 성과 중심입니다. 우리가 얼마나 많은 도로를 건설했는지 말하는 대신, 얼마나 많은 일자리를 창출했는지, 얼마나 많은 연결이 이루어졌는지를 측정하기 시작했습니다."라고 말합니다. 초기 Genie 배포에서 구조화된 쿼리에 대해 일관되지 않은 결과가 나오자, 팀은 결정론적인 답변을 얻도록 보장하기 위해 메트릭 계층을 구현했습니다. 이는 재무 및 운영 보고에 매우 중요했습니다.
Kaudi는 "구조화된 콘텐츠에서는 답변이 필요합니다. 내 은행 잔고는 얼마인가요? 매번 다른 숫자를 보고 싶지 않습니다."라고 설명합니다. 그런 다음 팀은 비정형 콘텐츠로 눈을 돌렸습니다. Databricks Volumes와 벡터 검색을 사용하여 프로젝트 문서를 인덱싱하여 자연어 쿼리에 응답하고 수동 검색을 절약할 수 있는 검색 증강 생성 기능을 만들었습니다.
이것은 새로운 문제를 야기했습니다. 각 Genie 인스턴스는 특정 메트릭 계층을 기반으로 구축되므로 각 데이터 도메인마다 별도의 Genie가 필요합니다. 예를 들어 "인도에서의 내 약정은 얼마이며 내 조치는 무엇인가?"와 같이 두 도메인에 걸친 질문은 두 개의 별도 Genie를 쿼리해야 합니다.
해결책은 그 위에 에이전트 계층을 두는 것이었습니다. 월드뱅크 그룹은 의도 분류기, 도메인 분류기 및 쿼리 분해기를 기반으로 하는 단일 인터페이스를 구축했습니다. 질문이 들어오면 의도 분류기가 무엇을 묻고 있는지 식별하고, 도메인 분류기가 어떤 에이전트 또는 에이전트를 호출해야 하는지 결정하고, 쿼리 분해기가 복잡한 다중 부분 질문을 구성 요소로 분해하여 올바른 위치로 라우팅합니다. 결과는 단일 응답으로 조립되어 반환됩니다.
이는 프론트엔드, 애플리케이션 계층, 비즈니스 로직 및 데이터베이스를 갖춘 전통적인 다중 계층 웹 디자인과 다르지 않으며, AI 컨텍스트에 맞게 업데이트되었습니다. 사용자는 하나의 인터페이스를 보지만, 그 뒤에는 수많은 도메인별 Genie 에이전트, 문서 검색을 위한 RAG 에이전트 및 결과 표시 방식을 제어하는 시각화 에이전트가 실행될 수 있습니다. 쿼리가 막대 차트로 데이터를 반환하고 사용자가 대신 파이 차트를 원하면 시각화 에이전트가 기본 쿼리를 다시 실행하지 않고도 이를 처리합니다.
시스템을 광범위하게 확장하기 전에 팀은 아프리카 및 동아시아 태평양 지역의 NGO, 공무원 및 정부 대표를 포함한 외부 이해 관계자와 구조화된 피드백 세션을 진행했습니다. 그들은 AI/BI를 사용하여 쿼리 입력, 라우팅 결정 및 출력을 캡처한 다음 결과를 분석하여 사용자가 실제로 어떤 질문을 하고 있으며 격차가 어디에 있는지 이해했습니다.
Kaudi는 "외부에서도 피드백을 수집해야 했습니다. 월드뱅크 그룹이 그들에게 어떻게 도움이 되고 있습니까? 그들은 어떤 종류의 질문을 합니까? 그래서 우리가 더 선제적으로 대응할 수 있습니다."라고 말합니다.
이 플랫폼은 이제 AI 기반 검색 및 합성 계층을 통해 월 3백만 건의 문서 다운로드를 지원하며, 이 트래픽의 절반은 저소득 및 중간 소득 국가에서 발생합니다. 여러 글로벌 지역에 걸친 사용자 피드백 프로토타입은 약 이틀 반 만에 구축 및 배포되었습니다.
Kaudi는 "프로젝트로 이것을 하는 것을 상상해 보세요. 2년 전이라면 2년이 걸릴 것이라고 상상했을 것입니다. 하지만 이것은 실질적인 가치를 얻기 위해 즉석에서 빠르게 이루어졌습니다."라고 말합니다.
기업 성과표는 Databricks 플랫폼에서 제공되었습니다. 분석가는 이제 단일 쿼리에서 귀중한 데이터와 컨텍스트를 검색할 수 있어 수동 문서 검색의 필요성이 사라졌습니다. 월드뱅크 그룹은 이러한 모든 것을 플래그십 Knowledge 360 및 Data 360 프로젝트에 통합하기 위해 노력하고 있습니다. 목표는 월드뱅크 그룹, IFC, IDA 및 MIGA를 플래그십 이니셔티브를 통해 통합하여 지식이 어떤 기관에서 생성되었는지에 관계없이 모든 이해 관계자가 액세스할 수 있도록 하는 것입니다.
장기적인 이 해 관계는 운영 효율성을 넘어섭니다.
Databricks가 조직을 돕는 방법을 확인하여 데이터를 통합하고, AI를 관리하고, 지식을 글로벌 규모로 실행 가능한 조치로 전환하십시오.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.