주요 컨텐츠로 이동

문서 AI란 무엇인가요?

작성자: Databricks 직원

  • Document AI의 가치는 단순히 빠른 처리 속도 그 이상입니다. 계약서, 송장, 청구서, 서식 등 복잡하고 방대한 문서를 다운스트림 시스템에서 실제로 사용할 수 있는 정형 데이터로 변환합니다.
  • 생성형 AI는 Document AI를 더 유연하게 만들지만, 완전히 자립적으로 만들지는 못합니다. LLM은 새로운 형식의 문서 요약, 질의 및 추출을 도울 수 있지만, 정확성은 여전히 검증, 신뢰도 점수 평가, 사람의 검토에 달려 있습니다.
  • 거버넌스는 Document AI 도입의 핵심이 되고 있습니다. 문서에는 민감한 재무, 임상 또는 개인 데이터가 포함되는 경우가 많기 때문에 조직에는 워크플로에 내장된 액세스 제어, 데이터 계보(lineage), 감사 로깅 및 보존 정책이 필요합니다.

Document AI는 머신러닝, 자연어 처리(NLP), 광학 문자 인식(OCR)을 포함한 AI를 사용하여 문서에서 정보를 자동으로 추출, 분류 및 이해하는 기술입니다. Document AI와 혼용되어 사용되는 다른 용어로는 "문서 인텔리전스" 및 "지능형 문서 처리(IDP)" 등이 있습니다.

텍스트 이미지를 기계가 읽을 수 있는 문자로 변환하는 기존 OCR과 달리, Document AI는 문맥과 의미를 이해합니다. 예를 들어, "납부 총액(Total Due)" 옆에 표시된 "$1,250.00"이 단순히 페이지에 적힌 숫자가 아니라 송장 금액이라는 것을 인식합니다.

Document AI는 스프레드시트와 같은 정형 파일, 송장, 양식, 영수증과 같은 반정형 문서, 계약서, 이메일, 보고서와 같은 비정형 파일을 포함한 다양한 유형의 문서를 처리하여 실행 가능한 데이터로 변환합니다.

이 가이드에서는 Document AI의 작동 방식, 장점과 한계, 다양한 산업 분야에서의 활용 사례, 그리고 Databricks 플랫폼에서 작동하는 방식에 대해 설명합니다.

Document AI는 어떻게 작동하나요?

Document AI는 여러 다양한 기술을 사용하여 사람이 문서를 읽는 방식을 모방합니다. 파일을 수집하고, 문자를 읽고, 레이아웃과 언어를 해석하며, 관련 정보를 추출하여 비즈니스 시스템에 입력합니다. 이 파이프라인의 단계는 다음과 같습니다.

  1. 수집(Ingestion): 시스템이 PDF, 스캔된 이미지, 사진, 텍스트 파일, 이메일 등 다양한 형식의 문서를 가져옵니다. 여기에는 손글씨나 저화질 스캔본도 포함됩니다.
  2. OCR: OCR은 시각적 콘텐츠를 기계가 읽을 수 있는 텍스트로 변환합니다.
  3. 레이아웃 파싱(Layout parsing): 시스템이 제목, 단락, 표, 양식 필드, 서명 등을 포함한 문서의 구조를 식별하여 정보가 어떻게 구성되어 있는지 이해합니다.
  4. 개체명 추출(Entity extraction): NLP 및 머신러닝 모델이 송장 번호, 날짜, 이름, 금액 또는 계약 조항과 같은 특정 정보 조각을 추출합니다.
  5. 분류 및 분할(Classification and splitting): 시스템이 문서 유형을 분류하고 여러 문서가 포함된 파일을 개별 부분으로 분할합니다.
  6. 후처리(Post-processing): 추출된 데이터를 검증, 정규화 및 포맷팅하여 데이터베이스에 저장하거나 다른 시스템으로 전송하거나 나중에 쿼리할 수 있도록 합니다.
  7. 사람의 검토(Human review): 중요한 의사 결정이나 신뢰도가 낮은 추출 결과의 경우, 사람이 출력을 확인하고 수정하여 시간이 지남에 따라 정확도를 향상시킵니다.

Document AI vs. OCR: 어떤 차이가 있나요?

OCR은 AI 파이프라인의 한 부분일 뿐입니다. OCR은 문자를 읽는 반면, Document AI는 문맥과 의미를 이해합니다.

기능OCRDocument AI
역할텍스트 이미지를 기계가 읽을 수 있는 텍스트로 변환문서에서 정보를 추출, 분류 및 이해
이해하는 대상문자 및 단어의미, 문맥 및 문서 구조
생성하는 결과물원시 텍스트(Raw text)정형 데이터, 문서 분류, 요약 및 자연어 답변
레이아웃 해석서식이 없는 비정형 텍스트 생성표, 양식, 제목이 그대로 유지된 정형 데이터 생성
손글씨 및 다중 형식 지원제한적임다양한 문서 유형에서 더 높은 정확도 제공
일반적인 출력.txt 파일 또는 문자열다운스트림 시스템에서 사용할 수 있도록 준비된 정형화되고 레이블이 지정된 데이터 필드

OCR이 핵심 빌딩 블록이라면, Document AI는 문서 작업을 사용 가능한 비즈니스 데이터로 변환하는 전체 시스템입니다.

Document AI의 핵심 기능은 무엇인가요?

Document AI 시스템은 문서 라이프사이클 전반에 걸쳐 다양한 작업을 처리합니다.

  • 데이터 추출(Data extraction): 문서에서 송장 합계, 날짜, 이름, 주소와 같은 특정 필드를 추출하여 정형 레코드로 포맷팅합니다.
  • 분류(Classification): 송장, 영수증, 계약서, 신분증, 의료 양식 등 문서 유형을 자동으로 식별합니다.
  • 분할(Splitting): 여러 문서가 포함된 단일 파일을 개별 부분으로 분리합니다.
  • 요약(Summarization): 계약서, 보고서, 연구 논문과 같은 긴 문서의 짧은 요약본을 생성합니다.
  • Q&A: 문서에 대해 자연어로 질문하는 사용자에게 답변을 제공합니다. (예: "갱신일이 언제인가요?")
  • 번역(Translation): 문서를 한 언어에서 다른 언어로 번역합니다.
  • 검증(Validation): 정보가 다운스트림으로 이동하기 전에 오류를 잡아내기 위해 규칙이나 외부 시스템과 비교하여 추출된 데이터를 확인합니다.

생성형 AI가 Document AI를 어떻게 변화시키고 있는가

기존의 Document AI는 OCR, 규칙 기반 템플릿, 이전의 머신러닝 모델을 결합하여 사용했습니다. 이러한 시스템은 예측 가능한 형식은 잘 처리했지만, 특이한 레이아웃이나 낮은 스캔 품질을 포함한 비표준 상황에서는 어려움을 겪었습니다.

현대의 문서 인텔리전스는 기존 스택 위에 언어를 읽고 쓰고 추론할 수 있는 AI 모델인 대형 언어 모델(LLM)과 생성형 AI를 계층화하여 시스템이 요약하고 질문에 답변할 수 있도록 합니다. 또한 작업별 학습 예시 없이도 새로운 문서 형식에서 정보를 추출할 수 있습니다(이를 제로샷 추출이라고 함). 팀은 모든 새로운 형식에 대해 규칙을 작성하는 대신 평이한 언어로 쿼리하여 필요한 데이터를 얻을 수 있습니다.

환각(Hallucination) 위험은 이에 따른 트레이드오프입니다. LLM은 원본 문서에 근거하지 않은 출력을 만들어낼 수 있으며, 이는 특히 규제가 엄격한 산업에서 심각한 문제가 될 수 있습니다. 따라서 검증과 사람의 검토가 Document AI 워크플로우에 필수적입니다.

실제 Document AI 활용 사례

많은 산업이 문서 작업을 기반으로 운영되며, Document AI는 이를 대규모로 처리할 수 있도록 지원합니다. 금융 서비스, 의료, 보험, 법률, 물류 및 공공 부문은 모두 유입되는 문서를 정형화되고 실행 가능한 데이터로 변환하기 위해 문서 인텔리전스에 의존하고 있습니다. 다음은 가장 일반적인 애플리케이션 중 일부입니다.

금융 및 회계

금융 팀은 송장, 구매 주문서, 은행 거래 명세서, 지출 보고서와 같은 대량의 정형 문서를 처리합니다. Document AI는 공급업체 이름, 날짜, 금액, 계정 코드 등과 같은 핵심 정보를 자동으로 추출 및 검증하여 수동 입력 없이 회계 시스템에 이 데이터를 추가합니다.

보험

보험 업무는 모든 단계에서 문서 집약적입니다. Document AI는 청구서, 신분증, 재무제표, 피해 보고서 등의 문서에 대한 접수, 분류 및 데이터 추출을 처리합니다. 이를 통해 검토 속도를 높이고 오류를 줄이는 동시에 규정 준수 요구 사항을 지원하는 감사 추적을 생성합니다.

의료

의료 분야는 환자 접수 양식, 동의서, 퇴원 요약서, 의뢰서부터 사전 승인 요청에 이르기까지 다양한 문서 작업을 기반으로 운영됩니다. Document AI는 문서를 디지털화 및 분류하고, 관련 임상 및 행정 데이터를 추출하며, 규정 준수를 지원하면서 전자 건강 기록(EHR) 시스템과 통합합니다.

법률 및 규정 준수

법률 팀은 수백 페이지에 달하는 계약서, 규제 신고서, 실사 패키지를 검토합니다. Document AI는 핵심 조항을 식별하고, 의무 및 위험 조건을 표시하며, 날짜 및 거래 상대방 정보를 추출하고, 변호사 검토를 위해 이상 징후를 찾아냅니다. 이를 통해 변호사가 추출 및 검토에 소비하는 시간을 줄여 분석 및 의사 결정에 집중할 수 있도록 돕습니다.

모기지 및 부동산

모기지 산업에서는 신청서, 소득 증명서, 감정서, 권리 보고서, 마감 공시를 포함한 문서가 여러 당사자로부터 제공되며, 형식이 일치하지 않는 경우가 많습니다. Document AI는 핵심 데이터를 추출, 검증 및 표준화하여 수동 처리 노력을 줄이고 비용을 절감하며 프로세스 속도를 높입니다.

공공 부문 및 신분 확인

정부 기관은 신청서, 허가증, 혜택 청구, 신분증과 같은 시민 서비스를 대량으로 처리합니다. Document AI는 접수 및 분류를 처리하고, 데이터를 추출하며, 적절한 검토를 거쳐 신청서를 라우팅합니다. 이러한 문서 중 상당수에는 민감한 개인 정보가 포함되어 있으며, 문서 인텔리전스 시스템은 프로세스 전반에 걸쳐 개인 정보 보호 제어 및 감사 가능성을 보장합니다.

보고서

기업을 위한 에이전틱 AI 플레이북

Document AI의 이점

Document AI는 처리 시간을 단축하고 오류를 줄이며 문서를 사용 가능한 데이터로 대규모 변환하는 비용을 낮춥니다.

  • 속도: 문서 처리 시간을 몇 분 또는 몇 시간에서 단 몇 초로 단축합니다
  • 정확성: 데이터 입력 오류를 줄입니다
  • 확장성: 인력을 추가하지 않고도 문서량이 급증하는 상황을 처리합니다
  • 비용: 문서당 수동 처리 시간을 줄여 비용을 절감합니다
  • 검색 가능성: 정적 파일 및 스캔된 파일을 검색 가능한 데이터로 변환합니다
  • 더 나은 AI 결과: 깨끗하고 구조화된 문서 데이터는 분석, 머신러닝 모델 및 AI 에이전트에 신뢰할 수 있는 입력을 제공하여 더 나은 성능을 이끌어냅니다

문서 AI의 한계

문서 AI 시스템은 강력한 기능을 제공하지만, 그 한계를 이해하는 것도 중요합니다.

지원 언어 범위

대부분의 모델은 주로 영어 문서로 학습됩니다. 자원이 부족한 언어, 여러 언어가 혼용된 문서 또는 비라틴 문자 체계의 경우 정확도가 떨어집니다.

문서 품질

문서 AI도 '쓰레기를 넣으면 쓰레기가 나온다(garbage-in, garbage-out)'는 원칙에서 예외가 아닙니다. 최신 모델이라도 저해상도 스캔, 기울어진 이미지, 흐릿한 텍스트 또는 심한 노이즈가 있는 저품질 원본 문서에서는 정확한 결과를 도출하는 데 어려움을 겪습니다.

처리량 및 반복 요구 사항

머신러닝 모델은 더 많이 노출될수록 성능이 향상되므로, 문서 AI는 학습 데이터에 자주 등장하여 신뢰할 수 있는 패턴을 구축할 수 있는 문서 유형에서 가장 잘 작동합니다. 드물거나 변동성이 큰 형식은 자동화에 적합하지 않을 수 있습니다.

엣지 케이스에는 사람이 라벨링한 데이터가 필요합니다

프로덕션 수준의 정확도를 확보하려면 레이아웃이 특이하거나 전문적인 도메인의 문서의 경우, 모델에 올바른 추출 방식을 보여주는 주석이 달린 학습 예시가 필요한 경우가 많습니다. 이를 구축하는 데는 시간과 도메인 전문 지식이 필요합니다.

LLM 환각 위험

LLM은 원본 문서에 근거하지 않은 출력을 만들어낼 수 있습니다. 재무 보고, 임상 문서 또는 법률 검토와 같이 위험성이 높은 상황에서 이러한 환각 현상은 심각한 결과를 초래할 수 있습니다. 출처 검증, 신뢰도 점수 산정, 사람의 검토는 환각을 예방하고 완화하는 데 핵심적인 요소입니다.

거버넌스 및 개인정보 보호

문서 AI 시스템으로 처리되는 문서에는 민감한 개인 정보, 재무 또는 임상 데이터가 포함되는 경우가 많습니다. 액세스 제어, 계보(lineage), 감사 로깅, 보존 정책 등 적절한 데이터 거버넌스 제어 기능이 없으면 해당 데이터는 규정 준수 리스크가 됩니다. 파이프라인의 모든 단계는 거버넌스 하에 관리되고 감사 가능해야 합니다.

문서 AI 및 관련 용어

문서 AI는 여러 인접 기술과 중첩됩니다. 이들의 관계는 다음과 같습니다.

용어기능문서 AI와의 관계
OCR (optical character recognition)텍스트 이미지를 기계가 읽을 수 있는 텍스트로 변환문서 AI 파이프라인 내부의 기본 구성 요소
ICR (intelligent character recognition)손글씨 텍스트 인식문서 AI 내에서 자주 사용되는 더 발전된 형태의 OCR
IDP (intelligent document processing)문서 기반 워크플로우의 엔드투엔드 자동화문서 AI와 거의 유사한 동의어
RPA (robotic process automation)클릭, 복사 등 반복적인 소프트웨어 작업 자동화시스템 간에 추출된 데이터를 이동하기 위해 문서 AI와 함께 자주 사용됨
LLM 기반 문서 Q&ALLM을 사용하여 문서에 대한 질문에 답변최신 문서 AI 시스템 내부의 기능
AI 문서 생성프롬프트나 템플릿에서 새 문서 생성문서 AI와는 별개의 카테고리

Databricks의 문서 AI 접근 방식

대부분의 조직은 문서 AI를 한 시스템에서 실행하고, 분석 및 AI는 다른 시스템에서 실행합니다. Databricks Document Intelligence는 이러한 워크플로우를 더 광범위한 Databricks 플랫폼의 일부로 통합합니다. 문서는 조직의 나머지 데이터와 함께 처리, 구조화 및 저장됩니다. 이 모든 것은 Unity Catalog를 통해 거버넌스가 관리되며, 시스템 간의 데이터 이동 없이 분석, AI 에이전트 및 애플리케이션에서 액세스할 수 있습니다.

플랫폼의 통합된 기능은 대규모 문서 워크플로우를 지원합니다. AI Functions는 SQL에서 직접 문서를 파싱하고 보강할 수 있으며, Variant 데이터 타입은 각 단계를 거치는 반구조화된 문서 출력을 쿼리 가능한 형식으로 저장합니다. Lakeflow Jobs는 재시도, 예약 및 조건부 로직을 사용하여 문서 처리 파이프라인을 오케스트레이션합니다. 단절된 도구와 불안정한 인계를 관리하는 대신, 조직은 단일 플랫폼 내에서 문서를 거버넌스가 제공되는 프로덕션 지원 데이터로 변환할 수 있습니다.

FAQ

문서 AI는 어디에 사용되나요?

문서 AI는 조직이 대규모 문서에서 구조화된 정보를 추출하는 데 사용됩니다. 일반적인 애플리케이션으로는 송장 처리, 보험 청구 접수, 환자 기록 디지털화, 계약서 검토, 주택 담보 대출 실행, 정부 혜택 처리 등이 있습니다.

문서 AI는 OCR과 같은 건가요?

아닙니다. OCR은 이미지 기반 문자를 기계가 읽을 수 있는 텍스트로 변환하는 문서 AI 시스템 내부의 한 구성 요소일 뿐입니다. 문서 AI는 머신러닝과 자연어 처리(NLP)를 사용하여 특정 정보를 식별 및 추출하고, 유형별로 문서를 분류하며, 구조를 이해하고, 출력의 정확성을 확인합니다.

문서 AI가 새로운 문서를 생성할 수 있나요?

문서 AI는 기존 문서에서 정보를 추출하고 이해하는 데 중점을 둡니다. 계약서 초안 작성, 보고서 생성 또는 요약본 작성과 같은 새로운 문서 생성은 이와 관련은 있지만 별개의 기능이며, 일반적으로 생성형 AI 모델에 의해 구동됩니다.

문서 AI가 손글씨 문서를 처리할 수 있나요?

네, 일부 한계는 있지만 가능합니다. 최신 시스템은 지능형 문자 인식(ICR)을 사용하여 손글씨 콘텐츠를 처리합니다. 정확도는 손글씨의 가독성, 문서 품질, 학습 데이터에 포함된 손글씨 스타일의 다양성에 따라 달라집니다.

문서 AI는 LLM과 어떻게 다른가요?

대형 언어 모델(LLM)은 언어를 이해하고 생성하기 위해 방대한 양의 텍스트로 학습된 AI 모델입니다. 문서 AI는 문서에서 정보를 추출, 분류 및 구조화하여 사용 가능한 데이터를 만드는 더 광범위한 시스템입니다. LLM은 문서 AI 워크플로우의 일부가 될 수 있지만, 전체 시스템의 한 구성 요소일 뿐입니다.

Databricks에서 문서 AI 시작하기

문서 AI는 PDF, 양식, 계약서, 송장, 보고서 등을 포함한 문서를 분석, AI 및 운영 워크플로우에 활용할 수 있는 구조화되고 거버넌스가 제공되는 데이터로 변환합니다. Databricks는 이미 데이터와 AI에 사용하고 있는 동일한 플랫폼에 문서 인텔리전스를 통합하여, 단절된 도구와 시스템 간에 데이터를 이동할 필요가 없습니다.

Databricks Document Intelligence가 어떻게 PDF를 프로덕션 지원 데이터로 변환하는지 확인해 보세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.