Databricks로 문서를 가치 있는 비즈니스 인사이트로 전환하세요
작성자: Elena Tesser
-미디어, 통신, 게임 산업의 수동 문서 추출 워크플로는 팀의 속도를 늦추고 수익을 유출하며 규정 준수 위험을 증가시킵니다.
-기업은 AI/BI Genie, Agent Bricks 및 Unity Catalog를 통합하여 마케팅, 법률, 재무, HR 등의 주요 문서를 거버넌스화되고 검색 가능하며 실행 가능한 데이터로 변환할 수 있는 엄격한 다중 에이전트 워크플로를 구축할 수 있습니다.
-추출에서 다중 에이전트 오케스트레이션 및 시스템 쓰기 백으로 이동하면 조직은 문서 처리, 읽기, 활성화로 원활하게 전환할 수 있습니다.
조직은 계약, 고용 계약, 인재 계약 및 NDA부터 광고 삽입 주문 및 마스터 서비스 계약 등 에 이르기까지 방대한 양의 문서로 운영됩니다. 각 문서는 잠재적 수익, 위험 및 의무에 대한 귀중한 통찰력을 담고 있지만, 대부분의 조직이 문서를 다루는 방식은 수십 년 동안 거의 변하지 않았습니다.
하지만 오늘날 조직은 AI를 통합하여 더 빠르게 업무를 처리하고 있음에도 불구하고, 많은 팀은 여전히 사람이 PDF를 읽고, 스프레드시트 필드를 복사하고, ERP, CRM 및 계획 시스템에 데이터를 다시 입력하는 데 의존하고 있습니다. 이는 상당한 위험을 초래합니다. 수동 처리 워크플로는 지연과 인적 오류로 인한 잠재적 수익 손실을 유발하며, 거버넌스 부족은 팀이 보고서를 안정적으로 감사할 수 없음을 의미합니다.
리더들은 AI 자동화가 이러한 문제를 극복하는 데 도움이 될 수 있다는 것을 이해합니다. 그러나 OCR 엔진, 계약 수명 주기 관리 시스템 및 도메인별 개별 솔루션과 같은 초기 투자가 종종 기대에 미치지 못했기 때문에 많은 사람들이 워크플로에 AI를 완전히 통합하는 것을 꺼립니다. 조직이 GenAI를 실험하고 있음에도 불구하고, 많은 재무, 법률 및 운영 팀은 여전히 AI 투자에서 실현된 가치가 거의 없다고 보고합니다. 문제는 AI 자동화 자체가 아니라 이러한 초기 도구가 기반하는 파편화되고 불완전한 데이터 기반입니다.
통합되고 잘 관리되는 데이터 기반 없이는 산업 및 조직 컨텍스트가 부족하고, 주요 엔터프라이즈 시스템과 분리되어 있으며, 읽기용으로만 구축되고 활성화되지 않습니다. 더 나쁜 것은, 위에 에이전트 워크플로를 구축하려고 하면 단절되고 일관성이 없으며 확장 불 가능한 경험을 얻게 됩니다.
문서 정보의 결정적인 순간은 기업이 개별 도구 솔루션으로 워크플로를 관리하는 것에서 통합되고 관리되는 데이터 기반 위에 구축하는 것으로 발전할 때입니다. 이 전환은 기술 및 비기술 사용자가 구조화 및 비구조화 비즈니스 데이터에 대해 질문하고 해당 데이터에 대해 적절한 조치를 취할 수 있도록 하는 진정한 통합되고 확장 가능한 다중 에이전트 경험을 위한 문을 엽니다.
세 가지 핵심 Databricks 기능이 이를 가능하게 합니다:
이 기반 위에, 기술 및 비기술 팀이 단계별로 채택하고 복제할 수 있는 단계적 문서 활성화 워크플로를 구현합니다.

1단계에서는 정보 추출 에이전트가 LLM 기반 추출을 사용하여 사용자 지정 OCR 파이프라인이나 일회성 파서를 구축하지 않고도 비구조화 문서(PDF, DOC/DOCX, PPT/PPTX, 이미지)를 구조화된 필드로 변환합니다.
원시 출력은 Lakeflow medallion 파이프라인에 안착합니다:
이 추출은 쿼리 시간이 아닌 수집 시간에 실행되므로 다운스트림의 모든 것이 일관되고 관리되는 데이터 기반 위에 구축됩니다.
핵심 용어가 Delta 테이블에 구조화되면, AI/BI Genie는 비즈니스 사용자에게 일반 영어로 질문할 수 있는 셀프 서비스 인터페이스를 제공합니다.
Gold 계층 테이블에 Genie를 연결하면 사용자는 “다음 분기에 EMEA에서 만료되는 계약은 무엇인가?” 또는 “지정된 지출 임계값 이상에서 활성화되는 수익 공유 계층이 있는 게시자 계약은 무엇인가?”와 같은 질문을 할 수 있습니다. Genie는 이러한 쿼리를 SQL로 변환하고, Unity Catalog 권한을 적용하며, 테이블 또는 시각적 결과를 반환하여 분석가 병목 현상을 제거하는 동시에 데이터 액세스를 관리합니다.
일부 질문은 집계만으로는 답할 수 없습니다. 법률, 권리 및 규정 준수 팀은 종종 특정 조항이 정확히 무엇을 말하는지 알아야 합니다.
여기서 RAG 기반 대화형 에이전트인 지식 도우미는 Unity Catalog 볼륨에 저장된 원본 문서에서 직접 실행됩니다.
“Warner 거래의 재라이선스 제한 사항은 무엇인가?” 또는 “2027년 프랑스에서 쇼 X에 대한 SVOD 권리가 있으며 독점적인가?”와 같은 질문에 답할 수 있습니다. 그런 다음 도우미는 전체 추적성을 유지하면서 원본 PDF로 돌아가는 인용과 함께 조항 수준의 스니펫을 반환합니다.
더 많은 에이전트를 추가하면 사용자가 각 질문에 대해 어떤 도구를 열어야 할지 결정하도록 하고 싶지 않을 것입니다.
다중 에이전트 감독자는 각 쿼리를 분석하고 올바른 전문가에게 라우팅하는 단일 대화형 진입점 역할을 합니다:
사용자는 질문하기만 하면 감독자가 올바른 경로를 선택하고 필요한 경우 비구조화 및 구조화된 컨텍스트를 결합합니다.
마지막으로, MCP 서버는 외부 시스템 API(ERP, HRIS, CRM, 광고 플랫폼, 권리 시스템, Slack)를 감독자가 호출할 수 있는 도구로 래핑하여 문서 이해를 실행으로 전환합니다.
이를 통해 추출된 데이터와 조직 컨텍스트를 기반으로 최상의 조치를 취할 수 있습니다. 예를 들면 다음과 같습니다:
마지막으로, 이 모든 것이 Unity Catalog에 의해 관리되므로 모든 필드는 해당 필드가 나온 문서까지 추적 가능하며, 에이전트 및 시스템 쓰기 전반에 걸쳐 계보 및 감사 추적이 유지됩니다.
이 문서 활성화 워크플로는 광범위한 산업 및 사용 사례에 적용될 수 있습니다. 그러나 고객이 방대한 양의 빠르게 변화하는 구조화 및 비구조화 데이터에 문서 내에서 의존하는 통신 및 미디어 및 엔터테인먼트와 같은 산업에 특히 영향력이 클 수 있습니다. 비즈 니스 요구 사항이나 페르소나에 관계없이 관련 문서를 정리되고 관리되는 통찰력과 적절한 다음 조치로 전환하는 데 적용할 수 있습니다.

이러한 시나리오 전반에 걸쳐 고객은 월말 마감 단축, 수익 회수, 누수 감소, 운영 위험 감소와 같은 개선을 경험하며, 재무, 법률, 운영 및 마케팅 팀의 수동 작업을 줄입니다.
귀사의 팀이 여전히 수동 문서 워크플로우와 분리된 도구에 의존하고 있다면, 이제 관리되는 데이터 및 AI 플랫폼에서 문서 인텔리전스를 현대화할 때입니다.
Databricks에서 추출, 쿼리, RAG, 오케스트레이션 및 시스템 쓰기 백을 통합함으로써 단순히 “문서를 읽는 것”을 넘어 문서를 활성화하여 새로운 수익을 창출하고 위험을 줄이며 팀이 더 높은 가치의 작업에 집중할 수 있도록 할 수 있습니다.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.