によって Databricks Staff による投稿
ドキュメントAIとは、機械学習、自然言語処理(NLP)、光学的文字認識(OCR)などのAI技術を活用して、ドキュメントから情報を自動的に抽出、分類、理解することです。ドキュメントAIは、「ドキュメントインテリジェンス」や「インテリジェントドキュメント処理」(IDP)とも呼ばれます。
テキストの画像をマシンが読み取り可能な文字に変換する従来のOCRとは異なり、ドキュメントAIは文脈や意味を理解します。例えば、「Total Due(請求金額)」の横に表示されている「$1,250.00」が、単なるページ上の数字ではなく、請求金額であることを認識できます。
ドキュメントAIは、スプレッドシートなどの構造化ファイル、請求書、フォーム、領収書などの半構造化ドキュメント、契約書、メール、レポートなどの非構造化ファイルといった、さまざまな種類のドキュメントに対応し、これらを実用的なデータに変換します。
このガイドでは、ドキュメントAIの仕組み、そのメリットと限界、さまざまな業界での活用方法、およびDatabricksプラットフォーム上での動作方法について解説します。
ドキュメントAIは、人間がドキュメントを読むプロセスをシミュレートするために、いくつかの異なる技術を使用します。ファイルを取り込み、文字を読み取り、レイアウトと言語を 解釈し、関連情報を抽出してビジネスシステムに供給します。このパイプラインのステップは以下の通りです:
OCRはAIパイプラインの一部にすぎません。OCRは文字を読み取りますが、ドキュメントAIは文脈と意味を理解します。
| 機能 | OCR | ドキュメントAI |
|---|---|---|
| 役割 | テキストの画像をマシンが読み取り可能なテキストに変換する | ドキュメントから情報を抽出、分類、理解する |
| 理解の対象 | 文字と単語 | 意味、文脈、ドキュメント構造 |
| 出力内容 | 生テキスト | 構造化データ、ドキュメント分類、要約、自然言語による回答 |
| レイアウトの解釈 | フォーマットされていない非構造化テキストを出力する | 表、フォーム、見出しを維持したまま構造化データを出力する |
| 手書きおよび複数フォーマットのサポート | 限定的 | さまざまなドキュメントタイプで高い精度を発揮 |
| 一般的な出力 | .txtファイルまたは文字列 | 後続システムですぐに利用可能な、構造化およびラベル付けされたデータフィールド |
OCRは重要な構成要素ですが、ドキュメントAIは書類を実用的なビジネスデータに変換する包括的なシステムです。
ドキュメントAIシステムは、ドキュメントのライフサイクル全体にわたるさまざまなタスクを処理します:
従来のドキュメントAIは、OCR、ルールベースのテンプレート、および古い機械学習モデルを組み合わせていました。これらのシステムは、予測可能なフォーマットはうまく処理できましたが、変則的なレイアウトやスキャン品質の低さなど、標準外の状況には対応が困難でした。
最新のドキュメントインテリジェンスは、従来のスタックの上に、言語 を読み、書き、推論できるAIモデルである大規模言語モデル(LLM)とジェネレーティブAIを重ね合わせることで、要約や質問への回答を可能にしています。また、タスク固有のトレーニングデータがなくても、新しいドキュメントフォーマットから情報を抽出できます(ゼロショット抽出と呼ばれます)。これにより、チームは新しいフォーマットごとにルールを作成する代わりに、自然言語でクエリを実行するだけで必要なデータを取得できます。
そのトレードオフとなるのが、ハルシネーション(事実とは異なる情報の生成)のリスクです。LLMは、元のドキュメントに基づかない出力を捏造する可能性があり、これは特に規制の厳しい業界において深刻な問題となる可能性があります。そのため、ドキュメントAIのワークフローにおいて、検証と人間によるレビューが不可欠となります。
多くの業界が書類業務を中心に動いており、ドキュメントAIはこれらを大規模に処理するのに役立ちます。金融サービス、ヘルスケア、保険、法務、物流、公共部門はすべて、受け取ったドキュメントを構造化された実用的なデータに変換するためにドキュメントインテリジェンスに依存しています。以下に、最も一般的なアプリケーションの一部を紹介します。
財務チームは、請求書、注文書、銀行取引明細書、経費報告書などの大量の構造化ドキュメントを処理します。ドキュメントAIは、ベンダー名、日付、金額、勘定科目コードなどの重要な情報を自動的に抽出および検証し、手動で入力することなくこれらのデータを会計システムに追加します。
保険業務は、あらゆる段階で大量のドキュメントを伴います。ドキュメントAIは、請求フォーム、身分証明書、財務諸表、損害報告書などのドキュメントの取り込み、分類、データ抽出を処理します。これにより、レビューが迅速化され、エラーが減少すると同時に、コンプライアンス要件をサポートする監査証跡が作成されます。
ヘルスケア業界は、患者の受付フォーム、同意書、退院サマリー、紹介状から、事前承認申請に至るまで、多くの書類業務で成り立っています。ドキュメントAIは、ドキュメントをデジタル化して分類し、関連する臨床データや管理データを抽出して、規制コンプライアンスをサポートしながら電子カルテ(EHR)システムと統合します。
法務チームは、数百ページに及ぶこともある契約書、規制当局への提出書類、デューデリジェンスパッケージをレビューします。ドキュメントAIは、重要な条項を特定し、義務やリスクに関する条件にフラグを立て、日付や取引先情報を抽出し、弁護士がレビューするための異常値を浮き彫りにします。これにより、弁護士が抽出やレビューに費やす時間を削減し、分析や意思決定に集中できるよう支援します。
住宅ローン業界では、申請書、収入証明書、査定書、権原報告書、クロージング開示書などのドキュメントが複数の関係者から、多くの場合不統一なフォーマットで提出されます。ドキュメントAIは、重要なデータを抽出、検証、標準化し、手動処理の手間を省き、コストを削減してプロセスを迅速化します。
政府機関は、申請書、許可証、給付金請求書、本人確認書類などの市民サービスを大量に処理します。ドキュメントAIは、取り込みと分類を処理し、データを抽出して、申請を適切なレビュープロセスにルーティングします。これらのドキュメントの多くには機密性の高い個人情報が含まれていますが、ドキュメントインテリジェンスシステムはプロセス全体を通じてプライバシー管理と監査可能性を保証します。
ドキュメントAIは、処理時間を短縮し、エラーを減らし、ドキュメ ントを大規模に実用的なデータに変換するコストを削減します。
ドキュメントAIシステムには強力な機能がありますが、その制限事項を理解することも重要です。
ほとんどのモデルは主に英語の文書でトレーニングされています。リソースの少ない言語、複数の言語が混在する文書、またはラテン文字以外の文字では、精度が低下します。
ドキュメントAIも「ゴミを入力すればゴミが出てくる(Garbage In, Garbage Out)」の原則から免れることはできません。最新のモデルであっても、低解像度のスキャン、傾いた画像、かすれた文字、ノイズの多い低品質なソース文書から正確な結果を得るのには苦労します。
機械学習モデルはデータに触れることで向上するため、ドキュメントAIは、トレーニングデータに頻繁に登場し、信頼性の高いパターンを確立できる文書タイプで最も効果を発揮します。まれなフォーマットや変化の激しいフォーマットは、自動化に適していない場合があります。
本番環境レベルの精度を実現するには、珍しいレイアウトや専門分野の文書に対して、正しい抽出方法をモデルに示すアノテーション(注釈)付きのトレーニングデータが必要になることがよくあります。このセットアップには、時間とドメインの専門知識が必要です。
LLMは、元の文書に基づかない出力を捏造(ハルシネーション)することがあります。財務報告、臨床文書、法的審査など、ミッションクリティカルな状況では、こうしたハルシネーションが深刻な結果を招く可能性があります。ソースの検証、確信度スコアリング、そして人の目によるレビューが鍵となります。
ドキュメントAIシステムで処理される文書には、機密性の高い個人データ、財務データ、または臨床データが含まれていることがよくあります。アクセス制御、リネージ、監査ログ、保存ポリシーなどの適切なデータガバナンス管理がなければ、そのデータはコンプライアンス上のリスクとなります。パイプ ラインのすべてのステップが管理され、監査可能である必要があります。
ドキュメントAIは、いくつかの隣接する技術と重複しています。それぞれの関係は以下の通りです。
| 用語 | 機能 | ドキュメントAIとの関係 |
|---|---|---|
| OCR(光学文字認識) | テキストの画像を機械が読み取り可能なテキストに変換する | ドキュメントAIパイプライン内の構成要素の1つ |
| ICR(インテリジェント文字認識) | 手書きのテキストを読み取る | ドキュメントAI内でよく使用される、より高度なOCR |
| IDP(インテリジェント文書処理) | 文書ベースのワークフローのエンドツーエンドの自動化 | ドキュメントAIとほぼ同義 |
| RPA(ロボティックプロセスオートメーション) | クリックやコピーなどの反復的なソフトウェアタスクを自動化する | 抽出されたデータをシステム間で移動するために、ドキュメントAIと組み合わせて使用されることが多い |
| LLMベースの文書Q&A | LLMを使用して文書に関する質問に答える | 最新のドキュメントAIシステムに搭載されている機能の1つ |
| AIによる文書生成 | プロンプトやテンプレートから新しい文書を作成する | ドキュメントAIとは異なるカテゴリ |
多くの組織では、ドキュメントAIをあるシステムで実行し、分析やAIを別のシステムで実行しています。Databricks Document Intelligenceは、より広範なDatabricksプラットフォームの一部として、これらのワークフローを統合します。文書は、組織の他のデータとともに処理、構造化、保存されます。これらはすべてUnity Catalogを通じて管理され、システム間でデータを移動させることなく、分析、AIエージェント、アプリケーションからアクセスできます。
プラットフォームの統合された機能により、大規模な文書ワークフローがサポートされます。AI FunctionsはSQLで直接文書を解析して強化でき、Variantデータ型は各ステージを移動する半構造化された文書出力をクエリ可能な形式で保存します。Lakeflow Jobsは、リトライ、スケジューリング、条件付きロジックを使用して、文書処理パイプラインをオーケストレートします。分断されたツールや不安定な引き継ぎを管理する代わりに、組織は単一のプラットフォーム内で文書を管理された本番環境対応のデータに変換できます。
ドキュメントAIは、組織が文書から構造化された情報を大規模に抽出するのを支援するために使用されます。一般的な用途には、請求書処理、保険金請求の受付、患者記録のデジタル化、契約書レビュー、住宅ローン組成、政府給付金の処理などがあります。
いいえ、違います。OCRはドキュメントAIシステム内の1つのコンポーネントであり、画像ベースの文字を機械が読み取り可能なテキストに変換します。ドキュメントAIは、機械学習と自然言語処理(NLP)を使用して、特定の情報を特定して抽出し、文書をタイプ別に分類し、その構造を理解し、出力の正確性をチェックします。
ドキュメントAIは、既存の文書からの情報の抽出と理解に焦点を当てています。新しい文書の生成(契約書の起草、レポートの作成、要約の作成など)は、関連していますが別の機能であり、通常は生成AIモデルによって実行されます。
はい、いくつかの制限はありますが可能です。最新のシステムでは、インテリジェント文字認識(ICR)を使用して手書きのコンテンツを処理します。精度は、手書き文字の読みやすさ、文書の品質、およびトレーニングデータにおける手書きスタイルの多様性によって異なります。
大規模言語モデル(LLM)は、言語を理解して生成するために大量のテキストでトレーニングされたAIモデルです。ドキュメントAIは、文書から情報を抽出、分類、構造化して、利用可能なデータを作成する、より広範なシステムです。LLMはドキュメントAIワークフローの一部になり得ますが、システム全体の1つのコンポーネントにすぎません。
ドキュメントAIは、PDF、フォーム、契約書、請求書、レポートなどの文書を、分析、AI、および業務ワークフローを強化できる、管理された構造化データに変換します。Databricks は、データとAIにすでに使用しているのと同じプラットフォームにドキュメントインテリジェンスを組み込むため、分断されたツールやシステム間でデータを移動する必要がなくなります。
Databricks Document IntelligenceがどのようにしてPDFを本番環境対応のデータに変換するかをご覧ください。
(このブログ記事はAI翻訳ツールを使用して翻訳されています) 原文記事
ブログを購読して、最新の投稿を受信トレイにお届けします。