잠긴 엔터프라이즈 지식을 쿼리 가능하고 신뢰할 수 있는 인텔리전스로 전환
수십 년간 정형 데이터 파이프라인을 완벽하게 구축해 왔음에도 불구하고, 기업 지식의 80%는 PDF, 이미지, 오피스 문서에 갇혀 기능적으로 보이지 않는 상태로 남아 있습니다.
전통적으로 지능형 문서 처리(IDP)는 파편화된 악몽이었습니다. 생성형 AI 시대 이전에는 조직들이 주요 데이터 플랫폼 외부의 분리된 NLP 및 컴퓨터 비전 API에 의존해야 했습니다. 이러한 사일로화된 OCR(광학 문자 인식) 공급업체는 정확도가 제한적이었고 공식적인 거버넌스 프로토콜이 부족하여 상당한 마찰을 일으켰습니다. 엔터프라이즈 AI의 약속을 이행하려면 데이터 수명 주기에 데이터 인텔리전스를 직접 통합하는 통합된 접근 방식이 필요합니다.
오늘날, 데이터 엔지니어들이 Databricks의 통합 데이터 엔지니어링 솔루션인 Lakeflow와 Databricks Document Intelligence를 활용하여 해당 데이터를 잠금 해제하고 Databricks 플랫폼에서 프로덕션 등급의 자율 IDP를 구축하여 비즈니스에 영향을 미치는 인텔리전스로 전환하는 방법을 보여드리겠습니다.

기업 문서는 폴더 이름이 변경되는 순간 깨지는 취약한 사용자 지정 코드 API 통합을 통해서만 액세스할 수 있는 사일로화된 무덤에 존재합니다. Lakehouse로 데이터를 수집하는 Databricks의 솔루션인 Lakeflow Connect는 SharePoint 및 Google Drive를 포함한 많은 인기 있는 엔터프라이즈 애플리케이션, 데이터베이스 및 파일 소스에 대한 내장 커넥터를 통해 판도를 바꿉니다.
이 솔루션은 복잡한 OAuth 흐름 또는 사용자 지정 Python 스크립트를 관리할 필요성을 제거하여 유지 관리가 전혀 필요 없는 수집을 제공합니다. 문서는 Unity Catalog Volumes 및 테이블에 직접 안착되므로 파일이 Lakehouse에 들어오는 즉시 액세스 제어, 계보 및 감사가 적용되며 정형 데이터에 이미 의존하고 있는 것과 동일한 세분화된 속성 기반 정책을 재사용할 수 있습니다.
또한 증분 읽기 및 쓰기를 포함한 강력한 기능 덕분에 대규모에서 빠르고 효율적인 수집이 가능하며, 이는 스트리밍 다운스트림과 결합될 때 배치 백필 및 거의 실시간 문서 흐름 모두에 대해 대규모 라이브러리의 전체 재인출을 방지합니다.
이러한 기업 문서는 조직의 가장 귀중한 통찰력을 담고 있지만 본질적으로 지저분하고 가변적이며 일관성이 없습니다. 스캔된 페이지, 손글씨 메모 및 중첩된 테이블은 가장 귀중한 통찰력을 가둡니다. 이를 해결하기 위해 단순히 다른 문서 추출 도구가 필요한 것이 아닙니다. Forrester가 지적했듯이 “추론 우선 아키텍처 진화”가 필요합니다. 이 접근 방식을 통해 Gartner는 GenAI가 사용자 지정 학습 문서 모델의 필요성을 70% 줄일 것이라고 예측합니다.
오늘날 Databricks Document Intelligence를 사용하면 최첨단 문서 이해 기능을 데이터에 직접 가져올 수 있습니다. 데이터 엔지니어링 팀은 기존 데이터 파이프라인과 나란히 복잡한 문서를 안정적으로 구문 분석, 구조화 및 풍부하게 만들 수 있는 목적별 AI 함수를 활용할 수 있으며, 이 모든 것은 Unity Catalog에 의해 원활하게 관리됩니다.
구문 분석된 구조 위에 추가적인 연구 중심 AI 함수를 연결할 수 있습니다.
아래는 ai_parse_document와 ai_extract를 함께 연결하는 간단한 예입니다.
참고: 이 예는 PySpark를 보여주지만 SQL도 사용할 수 있습니다(문서 참조).
이러한 함수는 Databricks 플랫폼에 통합된 관리형 AI 함수이므로 Document Intelligence는 이를 엔터프라이즈 컨텍스트(카탈로그 메타데이터, 비즈니스 의미론, 기존 테이블)와 결합하여 엔터프라이즈 도메인 컨텍스트에 기반한 높은 정확도로 데이터에 대해 추론하는 에이전트 워크플로를 지원할 수 있습니다.
노트북에서 수집 및 구문 분석이 작동하면 IDP를 프로덕션화해야 합니다. 즉, 수집, 구문 분석, 풍부화 및 제공 을 오케스트레이션해야 합니다. 또한 파이프라인이 정상 상태를 유지하도록 CI/CD에서 SLA, 오류 및 재시도를 모니터링해야 합니다.
Databricks의 네이티브 오케스트레이터인 Lakeflow Jobs를 사용하면 ETL, 분석 및 ML에 사용하는 것과 동일한 오케스트레이션 시스템으로 IDP 워크로드를 강력하고 자동화된 파이프라인으로 전환할 수 있습니다. IDP DAG의 모든 작업에 대한 통합 오케스트레이션을 제공하므로 단일 작업에서 노트북, Python 스크립트, SQL 쿼리, 파이프라인, LLM 또는 에이전트 호출을 연결하고 문서 수집부터 전체 흐름을 모델링할 수 있습니다.
Lakeflow Jobs에는 (if/else 조건, for each, 재시도 등 포함) 고급 제어 흐름 및 (테이블 업데이트, 파일 도착, 연속 등) 트리거가 내장되어 있습니다. 이를 통해 1) 실패한 파티션 또는 특정 문서 배치를 다시 처리하고 2) 특정 일정, 이벤트 기반 트리거 또는 실시간 문서 스트림에 맞게 작업을 관리하는 것이 쉽습니다.
Lakeflow Jobs의 서버리스 컴퓨팅과 네이티브 관찰 기능을 사용하면 문서 볼륨의 급증에 따라 자동 확장이 가능하며 실시간 모니터링, 메트릭 및 경고를 표시하여 성공한 작업을 다시 실행할 필요 없이 병목 현상을 파악하고 오류를 복구할 수 있습니다.

IDP는 고유한 스키마, 비즈니스 정의 및 사용자 지정 의미론과 같은 엔터프라이즈 컨텍스트로 지원될 때 가장 가치가 있습니다.
Unity Catalog는 모든 클라우드에서 정형 데이터, 비정형 파일, ML 모델 및 비즈니스 메트릭에 걸쳐 통합된 거버넌스 및 검색을 제공합니다. IDP의 경우 이는 다음을 의미합니다.
문서 인텔리전스는 이 컨텍스트를 사용하여 프로덕션 AI 에이전트를 구축합니다. 이 에이전트는 주어진 IDP 작업을 위해 어떤 테이블, 도구 및 모델을 사용해야 하는지 알고, 종단 간에 거버넌스되어 너무 많은 것에 액세스하지 않으며, LLM 기반 품질 평가, 작업별 벤치마크 및 학습 루프를 통해 지속적으로 개선됩니다. 개발자를 위해 Databricks는 API 및 SDK를 제공하므로 이러한 에이전트를 코드로 정의하고 다른 데이터 또는 ML 에셋과 마찬가지로 기존 CI/CD 파이프라인에 통합할 수 있습니다.
파일럿에서 플랫폼으로 전환하려면 다음 모범 사례를 염두에 두십시오.
Databricks를 사용하면 최신 데이터 플랫폼에서 지능형 문서 처리의 전체 수명 주기를 소유할 수 있습니다. Lakeflow와 AI 함수를 결합하면 비정형의 숨겨진 데이터를 신뢰할 수 있는 쿼리 가능한 데이터 세트로 변환하고 핵심 ETL 및 ML과 함께 관찰 가능한 문서 파이프라인을 원활하게 실행할 수 있습니다.
이제 자율 문서 인텔리전스의 전략적 가치를 다루었으므로 이제 구축할 차례입니다. Databricks를 사용하여 이 정확한 아키텍처를 배포하는 단계별 기술 가이드에 대한 동반 게시물 From PDF to Insights를 확인하십시오.
또한 문서 인텔리전스 및 Lakeflow 문서를 탐색하여 첫 IDP 파이프라인 구축을 시작하십시오!
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.