Databricks로 문서를 가치 있는 비즈니스 인사이트로 전환하세요
작성자: Elena Tesser
-미디어, 통신, 게임 산업의 수동 문서 추출 워크플로는 팀의 속도를 늦추고 수익을 유출하며 규정 준수 위험을 증가시킵니다.
-기업은 AI/BI Genie, Agent Bricks 및 Unity Catalog를 통합하여 마케팅, 법률, 재무, HR 등의 주요 문서를 거버넌스화되고 검색 가능하며 실행 가능한 데이터로 변환할 수 있는 엄격한 다중 에이전트 워크플로를 구축할 수 있습니다.
-추출에서 다중 에이전트 오케스트레이션 및 시스템 쓰기 백으로 이동하면 조직은 문서 처리, 읽기, 활성화로 원활하게 전환할 수 있습니다.
조직은 계약, 고용 계약, 인재 계약 및 NDA부터 광고 삽입 주문 및 마스터 서비스 계약 등에 이르기까지 방대한 양의 문서로 운영됩니다. 각 문서는 잠재적 수익, 위험 및 의무에 대한 귀중한 통찰력을 담고 있지만, 대부분의 조직이 문서를 다루는 방식은 수십 년 동안 거의 변하지 않았습니다.
하지만 오늘날 조직은 AI를 통합하여 더 빠르게 업무를 처리하고 있음에도 불구하고, 많은 팀은 여전히 사람이 PDF를 읽고, 스프레드시트 필드를 복사하고, ERP, CRM 및 계획 시스템에 데이터를 다시 입력하는 데 의존하고 있습니다. 이는 상당한 위험을 초래합니다. 수동 처리 워크플로는 지연과 인적 오류로 인한 잠재적 수익 손실을 유발하며, 거버넌스 부족은 팀이 보고서를 안정적으로 감사할 수 없음을 의미합니다.
리더들은 AI 자동화가 이러한 문제를 극복하는 데 도움이 될 수 있다는 것을 이해합니다. 그러나 OCR 엔진, 계약 수명 주기 관리 시스템 및 도메인별 개별 솔루션과 같은 초기 투자가 종종 기대에 미치지 못했기 때문에 많은 사람들이 워크플로에 AI를 완전히 통합하는 것을 꺼립니다. 조직이 GenAI를 실험하고 있음에도 불구하고, 많은 재무, 법률 및 운영 팀은 여전히 AI 투자에서 실현된 가치가 거의 없다고 보고합니다. 문제는 AI 자동화 자체가 아니라 이러한 초기 도구가 기반하는 파편화되고 불완전한 데이터 기반입니다.
통합되고 잘 관리되는 데이터 기반 없이는 산업 및 조직 컨텍스트가 부족하고, 주요 엔터프라이즈 시스템과 분리되어 있으며, 읽기용으로만 구축되고 활성화되지 않습니다. 더 나쁜 것은, 위에 에이전트 워크플로를 구축하려고 하면 단절되고 일관성이 없으며 확장 불가능한 경험을 얻게 됩니다.
문서 정보의 결정적인 순간은 기업이 개별 도구 솔루션으로 워크플로를 관리하는 것에서 통합되고 관리되는 데이터 기반 위에 구축하는 것으로 발전할 때입니다. 이 전환은 기술 및 비기술 사용자가 구조화 및 비구조화 비즈니스 데이터에 대해 질문하고 해당 데이터에 대해 적절한 조치를 취할 수 있도록 하는 진정한 통합되고 확장 가능한 다중 에이전트 경험을 위한 문을 엽니다.
세 가지 핵심 Databricks 기능이 이를 가능하게 합니다:
이 기반 위에, 기술 및 비기술 팀이 단계별로 채택하고 복제할 수 있는 단계적 문서 활성화 워크플로를 구현합니다.

1단계에서는 정보 추출 에이전트가 LLM 기반 추출을 사용하여 사용자 지정 OCR 파이프라인이나 일회성 파서를 구축하지 않고도 비구조화 문서(PDF, DOC/DOCX, PPT/PPTX, 이미지)를 구조화된 필드로 변환합니다.
원시 출력은 Lakeflow medallion 파이프라인에 안착합니다:
이 추출은 쿼리 시간이 아닌 수집 시간에 실행되므로 다운스트림의 모든 것이 일관되고 관리되는 데이터 기반 위에 구축됩니다.
핵심 용어가 Delta 테이블에 구조화되면, AI/BI Genie는 비즈니스 사용자에게 일반 영어로 질문할 수 있는 셀프 서비스 인터페이스를 제공합니다.
Gold 계층 테이블에 Genie를 연결하면 사용자는 “다음 분기에 EMEA에서 만료되는 계약은 무엇인가?” 또는 “지정된 지출 임계값 이상에 서 활성화되는 수익 공유 계층이 있는 게시자 계약은 무엇인가?”와 같은 질문을 할 수 있습니다. Genie는 이러한 쿼리를 SQL로 변환하고, Unity Catalog 권한을 적용하며, 테이블 또는 시각적 결과를 반환하여 분석가 병목 현상을 제거하는 동시에 데이터 액세스를 관리합니다.
일부 질문은 집계만으로는 답할 수 없습니다. 법률, 권리 및 규정 준수 팀은 종종 특정 조항이 정확히 무엇을 말하는지 알아야 합니다.
여기서 RAG 기반 대화형 에이전트인 지식 도우미는 Unity Catalog 볼륨에 저장된 원본 문서에서 직접 실행됩니다.
“Warner 거래의 재라이선스 제한 사항은 무엇인가?” 또는 “2027년 프랑스에서 쇼 X에 대한 SVOD 권리가 있으며 독점적인가?”와 같은 질문에 답할 수 있습니다. 그런 다음 도우미는 전체 추적성을 유지하면서 원본 PDF로 돌아가는 인용과 함께 조항 수준의 스니펫을 반환합니다.
더 많은 에이전트를 추가하면 사용자가 각 질문에 대해 어떤 도구를 열어야 할지 결정하도록 하고 싶지 않을 것입니다.
다중 에이전트 감독자는 각 쿼리를 분석하고 올바른 전문가에게 라우팅하는 단일 대화형 진입점 역할을 합니다:
사용자는 질문하기만 하면 감독자가 올바른 경로를 선택하고 필요한 경우 비구조화 및 구조화된 컨텍스트를 결합합니다.
마지막으로, MCP 서버는 외부 시스템 API(ERP, HRIS, CRM, 광고 플랫폼, 권리 시스템, Slack)를 감독자가 호출할 수 있는 도구로 래핑하여 문서 이해를 실행으로 전환합니다.
이를 통해 추출된 데이터와 조직 컨텍스트를 기반으로 최상의 조치를 취할 수 있습니다. 예를 들면 다음과 같습니다:
마지막으로, 이 모든 것이 Unity Catalog에 의해 관리되므로 모든 필드는 해당 필드가 나온 문서까지 추적 가능하며, 에이전트 및 시스템 쓰기 전반에 걸쳐 계보 및 감사 추적이 유지됩니다.
이 문서 활성화 워크플로는 광범위한 산업 및 사용 사례에 적용될 수 있습니다. 그러나 고객이 방대한 양의 빠르게 변화하는 구조화 및 비구조화 데이터에 문서 내에서 의존하는 통신 및 미디어 및 엔터테인먼트와 같은 산업에 특히 영향력 이 클 수 있습니다. 비즈니스 요구 사항이나 페르소나에 관계없이 관련 문서를 정리되고 관리되는 통찰력과 적절한 다음 조치로 전환하는 데 적용할 수 있습니다.

이러한 시나리오 전반에 걸쳐 고객은 월말 마감 단축, 수익 회수, 누수 감소, 운영 위험 감소와 같은 개선을 경험하며, 재무, 법률, 운영 및 마케팅 팀의 수동 작업을 줄입니다.
귀사의 팀이 여전히 수동 문서 워크플로우와 분리된 도구에 의존하고 있다면, 이제 관리되는 데이터 및 AI 플랫폼에서 문서 인텔리전스를 현대화할 때입니다.
Databricks에서 추출, 쿼리, RAG, 오케스트레이션 및 시스템 쓰기 백을 통합함으로써 단순히 “문서를 읽는 것”을 넘어 문 서를 활성화하여 새로운 수익을 창출하고 위험을 줄이며 팀이 더 높은 가치의 작업에 집중할 수 있도록 할 수 있습니다.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.