주요 컨텐츠로 이동
솔루션

Genie와 Agent Bricks를 사용하여 문서 활성화 워크플로를 변환하는 방법

Databricks로 문서를 가치 있는 비즈니스 인사이트로 전환하세요

작성자: Elena Tesser

-미디어, 통신, 게임 산업의 수동 문서 추출 워크플로는 팀의 속도를 늦추고 수익을 유출하며 규정 준수 위험을 증가시킵니다.
-기업은 AI/BI Genie, Agent Bricks 및 Unity Catalog를 통합하여 마케팅, 법률, 재무, HR 등의 주요 문서를 거버넌스화되고 검색 가능하며 실행 가능한 데이터로 변환할 수 있는 엄격한 다중 에이전트 워크플로를 구축할 수 있습니다.
-추출에서 다중 에이전트 오케스트레이션 및 시스템 쓰기 백으로 이동하면 조직은 문서 처리, 읽기, 활성화로 원활하게 전환할 수 있습니다.

오늘날 기업에는 문서 정보 격차가 존재합니다

조직은 계약, 고용 계약, 인재 계약 및 NDA부터 광고 삽입 주문 및 마스터 서비스 계약 등에 이르기까지 방대한 양의 문서로 운영됩니다. 각 문서는 잠재적 수익, 위험 및 의무에 대한 귀중한 통찰력을 담고 있지만, 대부분의 조직이 문서를 다루는 방식은 수십 년 동안 거의 변하지 않았습니다.

하지만 오늘날 조직은 AI를 통합하여 더 빠르게 업무를 처리하고 있음에도 불구하고, 많은 팀은 여전히 사람이 PDF를 읽고, 스프레드시트 필드를 복사하고, ERP, CRM 및 계획 시스템에 데이터를 다시 입력하는 데 의존하고 있습니다. 이는 상당한 위험을 초래합니다. 수동 처리 워크플로는 지연과 인적 오류로 인한 잠재적 수익 손실을 유발하며, 거버넌스 부족은 팀이 보고서를 안정적으로 감사할 수 없음을 의미합니다.

개별 도구와 레거시 아키텍처는 부족합니다

리더들은 AI 자동화가 이러한 문제를 극복하는 데 도움이 될 수 있다는 것을 이해합니다. 그러나 OCR 엔진, 계약 수명 주기 관리 시스템 및 도메인별 개별 솔루션과 같은 초기 투자가 종종 기대에 미치지 못했기 때문에 많은 사람들이 워크플로에 AI를 완전히 통합하는 것을 꺼립니다. 조직이 GenAI를 실험하고 있음에도 불구하고, 많은 재무, 법률 및 운영 팀은 여전히 AI 투자에서 실현된 가치가 거의 없다고 보고합니다. 문제는 AI 자동화 자체가 아니라 이러한 초기 도구가 기반하는 파편화되고 불완전한 데이터 기반입니다.

통합되고 잘 관리되는 데이터 기반 없이는 산업 및 조직 컨텍스트가 부족하고, 주요 엔터프라이즈 시스템과 분리되어 있으며, 읽기용으로만 구축되고 활성화되지 않습니다. 더 나쁜 것은, 위에 에이전트 워크플로를 구축하려고 하면 단절되고 일관성이 없으며 확장 불가능한 경험을 얻게 됩니다.

문서 활성화를 위한 플랫폼 접근 방식

문서 정보의 결정적인 순간은 기업이 개별 도구 솔루션으로 워크플로를 관리하는 것에서 통합되고 관리되는 데이터 기반 위에 구축하는 것으로 발전할 때입니다. 이 전환은 기술 및 비기술 사용자가 구조화 및 비구조화 비즈니스 데이터에 대해 질문하고 해당 데이터에 대해 적절한 조치를 취할 수 있도록 하는 진정한 통합되고 확장 가능한 다중 에이전트 경험을 위한 문을 엽니다.

세 가지 핵심 Databricks 기능이 이를 가능하게 합니다:

  • AI/BI Genie: SQL을 작성하지 않고도 관리되는 Delta 테이블에 대해 자연어로 질문할 수 있는 AI 기반 BI 환경입니다.
  • Agent Bricks: 일회성 프로토타입이 아닌, 데이터 위에 구축 및 최적화된 정보 추출, 지식 도우미 및 오케스트레이션을 포함한 고품질의 프로덕션 등급 에이전트를 위한 재사용 가능한 빌딩 블록입니다.
  • Unity Catalog: 원본 문서부터 에이전트 응답 및 시스템 쓰기까지 데이터, AI 에이전트 및 MCP 서버 전반에 걸쳐 통합 거버넌스, 계보 및 세분화된 액세스 제어입니다.

다중 에이전트 문서 활성화 워크플로

이 기반 위에, 기술 및 비기술 팀이 단계별로 채택하고 복제할 수 있는 단계적 문서 활성화 워크플로를 구현합니다.

문서 활성화 참조 아키텍처

1단계 - 추출: PDF에서 관리되는 Delta 테이블로

1단계에서는 정보 추출 에이전트가 LLM 기반 추출을 사용하여 사용자 지정 OCR 파이프라인이나 일회성 파서를 구축하지 않고도 비구조화 문서(PDF, DOC/DOCX, PPT/PPTX, 이미지)를 구조화된 필드로 변환합니다.

원시 출력은 Lakeflow medallion 파이프라인에 안착합니다:

  • Bronze: 추출된 필드를 그대로 저장합니다.
  • Silver: 정리되고 표준화된 값으로, 표준 ID가 해결되고 코드가 정규화됩니다.
  • Gold: 쿼리 및 분석에 최적화된 비즈니스 준비 테이블입니다.

이 추출은 쿼리 시간이 아닌 수집 시간에 실행되므로 다운스트림의 모든 것이 일관되고 관리되는 데이터 기반 위에 구축됩니다.

2단계: 쿼리 - Genie를 사용한 셀프 서비스 분석

핵심 용어가 Delta 테이블에 구조화되면, AI/BI Genie는 비즈니스 사용자에게 일반 영어로 질문할 수 있는 셀프 서비스 인터페이스를 제공합니다.

Gold 계층 테이블에 Genie를 연결하면 사용자는 “다음 분기에 EMEA에서 만료되는 계약은 무엇인가?” 또는 “지정된 지출 임계값 이상에서 활성화되는 수익 공유 계층이 있는 게시자 계약은 무엇인가?”와 같은 질문을 할 수 있습니다. Genie는 이러한 쿼리를 SQL로 변환하고, Unity Catalog 권한을 적용하며, 테이블 또는 시각적 결과를 반환하여 분석가 병목 현상을 제거하는 동시에 데이터 액세스를 관리합니다.

3단계: 이해 - 지식 도우미를 사용한 조항 수준 답변

일부 질문은 집계만으로는 답할 수 없습니다. 법률, 권리 및 규정 준수 팀은 종종 특정 조항이 정확히 무엇을 말하는지 알아야 합니다.

여기서 RAG 기반 대화형 에이전트인 지식 도우미는 Unity Catalog 볼륨에 저장된 원본 문서에서 직접 실행됩니다.

“Warner 거래의 재라이선스 제한 사항은 무엇인가?” 또는 “2027년 프랑스에서 쇼 X에 대한 SVOD 권리가 있으며 독점적인가?”와 같은 질문에 답할 수 있습니다. 그런 다음 도우미는 전체 추적성을 유지하면서 원본 PDF로 돌아가는 인용과 함께 조항 수준의 스니펫을 반환합니다.

4단계: 오케스트레이션 — 다중 에이전트 감독자를 통한 단일 진입점

더 많은 에이전트를 추가하면 사용자가 각 질문에 대해 어떤 도구를 열어야 할지 결정하도록 하고 싶지 않을 것입니다.

다중 에이전트 감독자는 각 쿼리를 분석하고 올바른 전문가에게 라우팅하는 단일 대화형 진입점 역할을 합니다:

  • 구조화된 질문 → Genie Spaces
  • 조항 수준 질문 → 지식 도우미
  • 시스템 작업 → MCP 기반 커넥터 및 다운스트림 흐름

사용자는 질문하기만 하면 감독자가 올바른 경로를 선택하고 필요한 경우 비구조화 및 구조화된 컨텍스트를 결합합니다.

5단계: 실행 — MCP를 통한 통찰력에서 시스템 업데이트로

마지막으로, MCP 서버는 외부 시스템 API(ERP, HRIS, CRM, 광고 플랫폼, 권리 시스템, Slack)를 감독자가 호출할 수 있는 도구로 래핑하여 문서 이해를 실행으로 전환합니다.

이를 통해 추출된 데이터와 조직 컨텍스트를 기반으로 최상의 조치를 취할 수 있습니다. 예를 들면 다음과 같습니다:

  • SAP에 검증된 권리 데이터를 푸시하고 제목 카탈로그 또는 CRM과 동기화합니다.
  • 추출된 약관을 기반으로 청구 및 고객 관리 시스템의 권한 및 번들을 업데이트합니다.
  • 규제 마감일 또는 보완 의무가 감지될 때 티켓팅 또는 프로젝트 관리 도구에서 워크플로를 트리거합니다.

마지막으로, 이 모든 것이 Unity Catalog에 의해 관리되므로 모든 필드는 해당 필드가 나온 문서까지 추적 가능하며, 에이전트 및 시스템 쓰기 전반에 걸쳐 계보 및 감사 추적이 유지됩니다.

미디어, 에이전시, 애드테크 및 통신 전반의 산업별 사용 사례

이 문서 활성화 워크플로는 광범위한 산업 및 사용 사례에 적용될 수 있습니다. 그러나 고객이 방대한 양의 빠르게 변화하는 구조화 및 비구조화 데이터에 문서 내에서 의존하는 통신 및 미디어 및 엔터테인먼트와 같은 산업에 특히 영향력이 클 수 있습니다. 비즈니스 요구 사항이나 페르소나에 관계없이 관련 문서를 정리되고 관리되는 통찰력과 적절한 다음 조치로 전환하는 데 적용할 수 있습니다.

  • 미디어 게시자 및 스튜디오
    • 권리 및 라이선스 계약을 추적하고 “2027년까지 독일에서 타이틀 X의 스트리밍 권리가 있는가?”와 같은 질문에 답하고 향후 90일 이내에 만료되는 계약을 사전에 플래그 지정합니다.
    • 수익 공유 및 배포 조건을 구조화된 테이블로 추출하고 검증된 숫자를 ERP 및 계획 시스템으로 파이프라인합니다.

RightsIQ

  • 미디어 대행사
    • 미디어 구매 계약에서 요금표, AVB 임계값 및 청구 트리거를 추출하고 제공 및 지출에 대해 자동으로 조정합니다.
    • 고객 브리프 및 연구 보고서를 계획 시스템 및 캠페인 분석을 위한 재사용 가능한 데이터로 구조화합니다.
  • 광고 기술 플랫폼
    • 개인 정보 보호 규정 및 광고 정책 문서를 활성화하여 “행동 타겟팅에 옵트아웃 메커니즘이 필요한 활성 규정은 무엇인가?”라는 질문에 답하고 동의 및 정책 엔진에서 제어를 시행합니다.
    • 데이터 라이선스 및 API 약관을 추적하여 규정을 준수하지 않는 모델 학습 또는 활성화를 방지합니다.
  • 통신 제공업체
    • SLA, 에스컬레이터 및 갱신 기간에 대한 명확한 가시성을 확보하여 서비스 및 도매 계약, 로밍 및 상호 연결 거래 조건, 타워 임대 계약을 관리합니다.
    • 고객 권한 및 번들을 엔드투엔드로 관리하고 검증된 권리를 청구, CRM 및 지원 시스템과 동기화합니다.

이러한 시나리오 전반에 걸쳐 고객은 월말 마감 단축, 수익 회수, 누수 감소, 운영 위험 감소와 같은 개선을 경험하며, 재무, 법률, 운영 및 마케팅 팀의 수동 작업을 줄입니다.

다음 단계

귀사의 팀이 여전히 수동 문서 워크플로우와 분리된 도구에 의존하고 있다면, 이제 관리되는 데이터 및 AI 플랫폼에서 문서 인텔리전스를 현대화할 때입니다.

  • 미디어, 엔터테인먼트통신 산업을 위한 Databricks 탐색을 통해 계약, 정책 및 계약이 더 넓은 데이터 전략에 어떻게 부합하는지 확인하세요.
  • Databricks 계정 팀에 문의하여 단일 비즈니스 라인에 대한 단일 고영향 사용 사례로 시작하는 집중적인 문서 활성화 가치 증명에 대해 논의하세요.
  • SEGA, First American, Vale와 같은 고객 사례를 더 자세히 살펴보세요.

Databricks에서 추출, 쿼리, RAG, 오케스트레이션 및 시스템 쓰기 백을 통합함으로써 단순히 “문서를 읽는 것”을 넘어 문서를 활성화하여 새로운 수익을 창출하고 위험을 줄이며 팀이 더 높은 가치의 작업에 집중할 수 있도록 할 수 있습니다.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.