Databricks for Good が MapAid の静的なアーカイブをスーダンの水危機のための実行可能な検索エンジンに変えるのにどのように役立ったか
によって Andres David Blandon Restrepo 、 Mofeed Nagib による投稿
スーダン全土で、地域社会は飲料水、灌漑、そして生存のために地下水に依存していますが、生産的な井戸を掘削することは保証されているわけではありません。地質は複雑で、帯水層は大きく異なり、掘削に失敗すると数千ドルもの費用がかかることがあります。数十年にわたる地質調査とフィールドレポートには、成果を改善するために必要なデータが含まれていますが、この情報はアーカイブに散在しており、体系的に整理されたことがないため、最も必要と している人々にとっては見えない状態でした。
MapAidは、スタンフォード大学で設立された非営利団体であり、AI強化マッピングを通じて、主にアフリカの支援・開発関係者がデータに基づいた意思決定を行えるようにすることをミッションとしています。彼らの主力ツールであるWellMaprアプリ(無料で使用可能)は、AIと地理空間データを使用して浅層地下水帯を特定し、小規模農家の飲料水と灌漑のための低コスト掘削をガイドします。これらのモデルの重要な入力は、井戸、掘削孔、帯水層地質に関する履歴データです。
スーダン知識アーカイブ協会(SUDAAK)は、このデータの中で最も豊富なコレクションの1つを維持しています。ほぼ700のPDF、TIFF、JPGのスキャン画像、合計5,000ページ以上の地質調査、井戸掘削レポート、フィールドスタディが含まれており、wossac.comで公開されています。しかし、利用可能であることとアクセス可能であることは同じではありません。スーダンの一部の地域の掘削孔データを検索する研究者は、何百ものドキュメントを手動でふるいにかける必要があります。データはデジタル化されましたが、検索システムがなければ、活用されないままでした。
DatabricksはMapAidと提携し、アーカイブ内のすべ てのドキュメントを分類し、地理的および主題のメタデータをタグ付けし、水関連ドキュメントから構造化された井戸および掘削孔レコードを抽出するAI搭載パイプラインを構築しました。このシステムは完全にDatabricks上で実行され、単一コマンドでのデプロイ用にパッケージ化されています。この記事では、技術的なアプローチと、構造化されていないスキャンされたドキュメントの大規模コレクションから構造化された知識を抽出したいあらゆる組織にどのように一般化できるかについて説明します。
アーカイブは、従来のテキスト抽出を排除する課題を提示しました。ドキュメントは物理的なレポートのスキャンであり、数十年前のもので、埋め込まれたテキストレイヤーはありません。一部のページは歪んでおり、一部は英語とアラビア語を組み合わせており、多くには手書きのフィールドノートが含まれています。最初のステップとしてOCRを試みるのではなく、チームは問題を視覚的な理解の問題として再定義しました。スキャンされたページ画像を、視覚的にコンテンツを解釈できるマルチモーダルAIモデルに直接送信しました。
各ドキュメントのページは画像としてレンダリングされ、Unity Catalog Volumesに保存され、クリーンでバージョン管理された基盤データセットが作成されます。そこから、インテリジェントなサンプリング戦略により処理コストが削減されます。短いドキュメントは完全に分析され、長いドキュメントは最も情報量の多いセクション(タイトルページ、はじめに、結論)からサ ンプリングされます。これにより、分類品質を維持しながら、AI処理量が70%以上削減されました。
サンプリングされた各ページは、Databricks AI Functions(ai_query)を使用して分析されます。これは、マルチモーダル入力と構造化されたJSON出力をネイティブにサポートします。モデルは各ページ画像を検査し、以下を返します。
AI FunctionsはSQL内で直接実行されるため、チームは個別のモデルサービングインフラストラクチャを構築することなく、プロンプトと出力スキーマを反復処理できました。ページレベルの結果はドキュメントレベルの分類に集約され、すべてのドキュメントがカバーしている内容と適用される場所でタグ付けされた、構造化された検索可能なカタログが生成されます。

水関連フラグが付けられたドキュメントの多くには、MapAidのWellMaprモデルが依存するまさにその種類の構造化情報が含まれています。井戸の場所、掘削深度、水位、および流量です。この情報はドキュメント全体に分散していることが多く、座標は一方のセクションに、深度測定は別のセクションに、流量データは数ページ後の要約テーブルに表示されます。このデータの抽出とリンクは、パートナーシップの中心的な目標でした。
水関連ドキュメントごとに、パイプラインは分類に使用されたサンプリングされたサブセットだけでなく、すべてのページを処理します。OCRは、英語、アラビア語、および手書きのフィールドノート、表形式データ、混合形式のページを含む複雑なレイアウトを処理するFoundation Model APIを介して提供されるマルチモーダルモデルを使用して、ページごとに実行されます。OCR中、システムはエンティティ認識アプローチも適用し、複数ページにわたるレコードを単一サイトにリンクできるように、井戸および掘削孔識別子をアンカーエンティティとして識別します。
すべてのページから抽出されたテキストは、統合されたドキュメント表現にマージされ、その後、2回目のパスで処理され、サイト名、GPS座標、掘削深度、静流水位、およびポンプテスト流量をキャプチャするJSON形式の構造化レコードが抽出されます。Databricks AI Functionsはスキーマ制約付きの応答を強制し、ドキュメント全体で異なる形式またはセクションに表示されても、これらの属性が一貫してキャプチャされることを保証します。結果は、MapAidのWellMapr予測モデルに直接統合できる構造化された井戸および掘削孔レコードのセットです。
数百の専門的な水理地質学的な分類を手動で検証するには、かなりのリソースと深いドメインの専門知識が必要です。評価を事後に行われる別のステップとして扱うのではなく、チームは自動品質評価を最初のクラスのステージとしてパイプラインに直接組み込みました。AI Functionsを介して呼び出される別のAIモデルが、精度、完全性、および一貫性をカバーする構造化されたルーブリックで各分類をスコアリングする審査員として機能します。各ドキュメントについて、評価者は割り当てられたデューイ十進分類コードと地理的タグをサンプリングされたページコンテンツと比較し、分類がモデルが実際に観察したものによってサポートされているかどうかを確認します。
各評価は、カテゴリ評価(優、良、可、不可)とスコアを説明する書面による正当化の両方を生成し、パイプラインが行うすべての決定の監査可能なトレイルを作成します。信頼性の閾値を下回ったスコアのドキュメントは、手動レビューのためにフラグが立てられ、限られた人的労力を最も重要なケースに誘導します。最初の完全な実行では、分類のごく一部のみが人間の注意を必要としました。
このようなプロジェクトは、データとAIスタックのすべてのレイヤーに触れます。ファイルストレージ、データエンジニアリング、AI推論、構造化出力解析、品質評価、ガバナンスです。Databricksはこれらすべてを単一のワークスペース内で提供しました。生のアーカイブファイルはUnity Catalog Volumesに保存され、すべてのパイプライン出力は、ACID信頼性、スキーマ進化、および完全なデータリネージを備えたDelta Lakeテーブルに書き込まれます。パイプラインは、serverless compute上のLakeflow Jobとしてオーケストレーションされるため、MapAidは実行ごとに消費されたものに対してのみ支払います。
システム全体はDatabricks Asset Bundleとしてパッケージ化されており、単一コマンドでデプロイ、更新、および実行できます。MapAidは、複数のクラウドサービスにまたがる専門知識なしで保守できる自己完結型ソリューションを受け取りました。パイプラインロジックは処理対象の特定のアーカイブから分離されているため、同じシステムを、スキャンされたドキュメントの大規模なコレクションを分類および検索可能にする必要がある他の水アーカイブ、他の地域、または他のドメインに適合させることができます。
最初の 完全な実行で、パイプラインは以下を提供しました。
このパイプラインにより、ドメインエキスパートが数週間または数ヶ月かけていた作業が数時間で完了するプロセスに短縮されました。アーカイブは、分類、地理、または水のデータの有無で検索できるようになりました。座標と深度データを持つ抽出された各レコードは、MapAid の地下水予測に直接フィードされ、掘削成功率の向上と、必要としているコミュニティへの水の迅速な供給をサポートします。
SUDAAK が新しいドキュメントのデジタル化を続けるにつれて、パイプラインは新しいバッチを単一のコマンドで処理できるため、アーカイブが成長してもカタログは最新の状態に保たれます。MapAid の活動は、エチオピアやマラウイを含む東アフリカに及び、同様の未分類アーカイブが大陸中に存在します。方法論とインフラストラクチャはスケールアップの準備ができています。
MapAid の最高経営責任者 (CEO) である Rupert Douglas-Bate は、このパートナーシップについて次のように述べています。「私たちの進化する AI システム WellMapr は、持続可能な地下水源の低コスト検索と位置特定に革命を起こすことを目的としていますが、それには井戸水データが必要です。その目標を達成するための私たちの使命は、ロータリーインターナショナルを通じて私たちとつながった Databricks for Good との協力により、大きく加速されました。Databricks for Good プロジェクトは、Sudan Association for Archiving Knowledge (SUDAAK) の支援を受けて、当社の Online Water Library (OWL) を開発する上で不可欠でした。Databricks チームは、スーダンの歴史的な水と土壌の大量の整理されていないアーカイブを、デューイ十進分類を使用して構造化されたシステムに変換するのを支援しました。これにより、低コストで持続可能な地下水井戸データを迅速に特定できるようになり、これを WellMapr アルゴリズムの開発に役立てることができます。MapAid は、OWL を干ばつを軽減するための重要な開発ツールとして使用できることを嬉しく思っており、適切なパートナーが連携すれば、最も必要としている人々のために『不可能』を達成できることを証明しています。」
以下に、その他のプロボノプロジェクトについて詳しくご覧ください。
(このブログ記事はAI翻訳ツールを使用して翻訳されています) 原文記事
ブログを購読して、最新の投稿を受信トレイにお届けします。