Direkt zum Hauptinhalt
Unternehmen

Entschlüsselung der Archive: Umwandlung unstrukturierter Dokumente in eine durchsuchbare Datenbank für die Grundwasserentdeckung

Wie Databricks for Good MapAid dabei half, KI zu nutzen, um statische Archive in eine umsetzbare Suchmaschine für die Wasserkrise im Sudan zu verwandeln

von Andres David Blandon Restrepo und Mofeed Nagib

  • MapAid arbeitete mit Databricks for Good zusammen, um fast 700 gescannte hydrogeologische Dokumente zu klassifizieren und zu katalogisieren und so eine unstrukturierte Sammlung in eine durchsuchbare Datenbank zu verwandeln.
  • Mithilfe von multimodaler KI baute das Team eine serverlose Pipeline auf, die Dokumente klassifiziert und wasserbezogene Informationen direkt aus gescannten Seitenbildern extrahiert.
  • Forscher können nun relevante historische Studien in Sekundenschnelle finden und auf Bohrlochdaten zugreifen, die direkt in die Grundwasservorhersagemodelle von MapAid einfließen und so zu verbesserten Bohrergebnissen beitragen.

Einleitung

Im gesamten Sudan sind die Gemeinden für Trinkwasser, Bewässerung und ihr Überleben auf Grundwasser angewiesen, aber die Bohrung eines produktiven Brunnens ist alles andere als garantiert. Die Geologie ist komplex, die Grundwasserleiter variieren stark und ein fehlgeschlagener Bohrbrunnen kann Tausende von Dollar kosten. Jahrzehntelange geologische Vermessungen und Feldberichte enthalten die Daten, die zur Verbesserung der Ergebnisse benötigt werden, aber diese Informationen waren über Archive verstreut und nie systematisch organisiert, wodurch sie für die Menschen, die sie am dringendsten benötigen, unsichtbar blieben.

MapAid ist eine gemeinnützige Organisation, die an der Stanford University gegründet wurde und sich zum Ziel gesetzt hat, humanitäre und Entwicklungsakteure, hauptsächlich in Afrika, durch KI-gestützte Kartierung zu befähigen, datengesteuerte Entscheidungen zu treffen. Ihr Flaggschiff-Tool, die WellMapr App (kostenlos nutzbar), verwendet KI und Geodaten, um flache Grundwasserzonen zu identifizieren und kostengünstige Bohrungen für Trinkwasser und Bewässerung für Kleinbauern zu ermöglichen. Eine kritische Eingabe für diese Modelle sind historische Daten über Brunnen, Bohrbrunnen und die Geologie der Grundwasserleiter.

Die Sudan Association for Archiving Knowledge (SUDAAK) pflegt eine der reichhaltigsten Sammlungen dieser Daten: fast 700 gescannte PDFs, TIFFs und JPGs mit insgesamt über 5.000 Seiten geologischer Vermessungen, Bohrberichte und Feldstudien, die öffentlich unter wossac.com verfügbar sind. Verfügbarkeit ist jedoch nicht gleichbedeutend mit Zugänglichkeit. Ein Forscher, der Bohrlochdaten aus einem bestimmten Teil des Sudan sucht, müsste manuell Hunderte von Dokumenten durchsuchen. Die Daten wurden digitalisiert, aber ohne ein Abrufsystem blieben sie ungenutzt.

Klassifizierung gescannter Dokumente mit multimodaler KI

Databricks hat sich mit MapAid zusammengetan, um eine KI-gestützte Pipeline zu entwickeln, die jedes Dokument im Archiv klassifiziert, es mit geografischen und thematischen Metadaten versieht und strukturierte Brunnen- und Bohrlochdatensätze aus wasserbezogenen Dokumenten extrahiert. Das System läuft vollständig auf Databricks und ist für die Bereitstellung mit einem einzigen Befehl verpackt. Dieser Artikel beschreibt den technischen Ansatz und wie er sich auf jede Organisation verallgemeinern lässt, die strukturierte Kenntnisse aus großen Sammlungen unstrukturierter gescannter Dokumente extrahieren möchte.

Das Archiv stellte Herausforderungen dar, die traditionelle Textextraktion ausschlossen. Die Dokumente sind Scans von physischen Berichten, viele Jahrzehnte alt, ohne eingebettete Textschicht. Einige Seiten sind schief, andere kombinieren Englisch und Arabisch, und viele enthalten handschriftliche Notizen. Anstatt OCR als ersten Schritt zu versuchen, hat das Team das Problem als visuelles Verständnisproblem neu formuliert: gescannte Seitenbilder werden direkt an multimodale KI-Modelle gesendet, die den Inhalt visuell interpretieren können.

Die Seiten jedes Dokuments werden als Bilder gerendert und in Unity Catalog Volumes gespeichert, wodurch ein sauberes, versioniertes grundlegendes Datenset entsteht. Von dort aus reduziert eine intelligente Stichprobenstrategie die Verarbeitungskosten: kürzere Dokumente werden vollständig analysiert, während längere Dokumente aus ihren informativsten Abschnitten (Titelseiten, Einleitungen und Schlussfolgerungen) entnommen werden. Dies reduzierte das KI-Verarbeitungsvolumen um mehr als 70 %, während die Klassifizierungsqualität erhalten blieb.

Jede Stichprobe wird mit Databricks AI Functions (ai_query) analysiert, die nativ multimodale Eingaben und strukturierte JSON-Ausgaben unterstützen. Das Modell untersucht jedes Seitenbild und gibt Folgendes zurück:

  • Dewey-Dezimal-Klassifizierungscodes, das universelle Bibliotheksklassifizierungssystem
  • Sudanesische Geografien, auf die im Inhalt Bezug genommen wird
  • Ein Wasserrelevanz-Flag, das angibt, ob die Seite Brunnen-, Bohrloch- oder Grundwasserleiterdaten enthält

Da AI Functions direkt in SQL ausgeführt werden, konnte das Team Prompts und Ausgabeschemata iterieren, ohne separate Modell-Serving-Infrastruktur aufzubauen. Seitenbezogene Ergebnisse werden zu dokumentenbezogenen Klassifizierungen aggregiert, wodurch ein strukturierter, durchsuchbarer Katalog entsteht, in dem jedes Dokument mit dem, was es abdeckt, und wo es gilt, gekennzeichnet ist.

Dokumentenpipeline: extrahieren
">

Extrahieren von strukturierten Brunnen- und Bohrlochdatensätzen

Viele der wasserrelevanten Dokumente enthalten genau die Art von strukturierten Informationen, von denen MapAids WellMapr-Modelle abhängen: Brunnenstandorte, Bohrtiefen, Grundwasserspiegelmessungen und Ertragsraten. Diese Informationen sind oft über ein Dokument verteilt, wobei Koordinaten in einem Abschnitt, Tiefenmessungen in einem anderen und Ertragsdaten in einer Zusammenfassungstabelle mehrere Seiten später erscheinen. Das Extrahieren und Verknüpfen dieser Daten war ein zentrales Ziel der Partnerschaft.

Für jedes wasserrelevante Dokument verarbeitet die Pipeline jede Seite, nicht nur die für die Klassifizierung verwendete Stichprobe. OCR wird Seite für Seite mit einem multimodalen Modell durchgeführt, das über die Foundation Model API bereitgestellt wird, die Englisch, Arabisch und komplexe Layouts einschließlich handschriftlicher Feldnotizen, Tabellendaten und Seiten in gemischtem Format verarbeitet. Während der OCR wendet das System auch einen Entitätserkennungsansatz an, der Brunnen- und Bohrlochidentifikatoren als Ankerentitäten identifiziert, damit Datensätze, die sich über mehrere Seiten erstrecken, mit einer einzelnen Stelle verknüpft werden können.

Der extrahierte Text aller Seiten wird zu einer einheitlichen Dokumentendarstellung zusammengeführt, die dann in einem zweiten Durchgang verarbeitet wird, um strukturierte Datensätze im JSON-Format zu extrahieren, die Standorte, GPS-Koordinaten, Bohrtiefen, statische Grundwasserstände und Pumpentesterträge erfassen. Databricks AI Functions erzwingen schemabeschränkte Antworten und stellen sicher, dass diese Attribute konsistent erfasst werden, auch wenn sie in verschiedenen Formaten oder Abschnitten des Dokuments erscheinen. Das Ergebnis ist eine Reihe von strukturierten Brunnen- und Bohrlochdatensätzen, die für die direkte Integration in MapAids WellMapr-Vorhersagemodelle bereit sind.

Automatisierte Qualitätsbewertung im großen Maßstab

Die manuelle Validierung von Hunderten von spezialisierten hydrogeologischen Klassifizierungen würde erhebliche Ressourcen und tiefes Fachwissen erfordern. Anstatt die Bewertung als separaten Schritt zu behandeln, der nachträglich durchgeführt wird, hat das Team die automatisierte Qualitätsbewertung direkt in die Pipeline als erstklassige Stufe integriert. Ein separates KI-Modell, das ebenfalls über AI Functions aufgerufen wird, fungiert als Richter: Es bewertet jede Klassifizierung anhand einer strukturierten Bewertungsmatrix, die Genauigkeit, Vollständigkeit und Konsistenz abdeckt. Für jedes Dokument vergleicht der Bewerter die zugewiesenen Dewey-Dezimal-Codes und geografischen Tags mit dem Inhalt der Stichprobenseiten und prüft, ob die Klassifizierungen durch das, was das Modell tatsächlich beobachtet hat, gestützt werden.

Jede Bewertung liefert sowohl eine kategorische Bewertung (ausgezeichnet, gut, zufriedenstellend oder schlecht) als auch eine schriftliche Begründung, die die Punktzahl erklärt, wodurch eine prüfbare Spur für jede Entscheidung erstellt wird, die die Pipeline trifft. Dokumente, die unter einem Konfidenzschwellenwert liegen, werden für die manuelle Überprüfung markiert, wodurch begrenzte menschliche Anstrengungen auf die Fälle gelenkt werden, in denen sie am wichtigsten sind. Im ersten vollständigen Durchlauf erforderte nur ein kleiner Bruchteil der Klassifizierungen menschliche Aufmerksamkeit.

Bereitstellung einer in sich geschlossenen Lösung auf Databricks

Ein Projekt wie dieses berührt jede Ebene des Daten- und KI-Stacks: Dateispeicherung, Daten-Engineering, KI-Inferenz, strukturierte Ausgabe-Parsing, Qualitätsbewertung und Governance. Databricks stellte all dies innerhalb eines einzigen Arbeitsbereichs zur Verfügung. Rohe Archivdateien werden in Unity Catalog Volumes gespeichert, und alle Pipeline-Ausgaben werden in Delta Lake Tabellen mit ACID-Zuverlässigkeit, Schemaentwicklung und vollständiger Datenherkunft geschrieben. Die Pipeline wird als Lakeflow Job auf Serverless Compute orchestriert, sodass MapAid nur für das bezahlt, was jeder Lauf verbraucht.

Das gesamte System ist als Databricks Asset Bundle verpackt, was bedeutet, dass es mit einem einzigen Befehl bereitgestellt, aktualisiert und ausgeführt werden kann. MapAid erhielt eine in sich geschlossene Lösung, die ohne Expertise über mehrere Cloud-Dienste hinweg gewartet werden kann. Da die Pipeline-Logik von dem spezifischen Archiv, das sie verarbeitet, entkoppelt ist, könnte dasselbe System für andere Wasserarchive, andere Regionen oder andere Domänen angepasst werden, in denen große Sammlungen gescannter Dokumente klassifiziert und durchsuchbar gemacht werden müssen.

Was das für die Praxis bedeutet

In seinem ersten vollständigen Durchlauf lieferte die Pipeline:

  • 654 Dokumente und 5.570 Seiten klassifiziert
  • Abgeschlossen in weniger als drei Stunden
  • 95% der Klassifizierungen vom automatischen Evaluator als „ausgezeichnet“ oder „gut“ bewertet
  • ~50% des Archivs als wasserbezogene Daten identifiziert
  • 299 strukturierte Brunnen- und Bohrlochdatensätze extrahiert mit Ortsnamen, Tiefen und Ergiebigkeitsmessungen

Die Pipeline reduzierte den Aufwand, der Domänenexperten Wochen oder Monate gekostet hätte, auf einen Prozess, der in Stunden abgeschlossen ist. Das Archiv kann nun nach Klassifizierung, Geografie oder dem Vorhandensein von Wasserdaten durchsucht werden. Jeder extrahierte Datensatz mit Koordinaten und Tiefendaten fließt direkt in die Grundwasservorhersagen von MapAid ein und unterstützt so höhere Bohrerfolgsraten und eine schnellere Wasserversorgung für bedürftige Gemeinden.

Während SUDAAK weiterhin neue Dokumente digitalisiert, kann die Pipeline jede neue Charge mit einem einzigen Befehl verarbeiten, um sicherzustellen, dass der Katalog mit dem wachsenden Archiv aktuell bleibt. Die Arbeit von MapAid erstreckt sich über Ostafrika, einschließlich Äthiopien und Malawi, und ähnliche unklassifizierte Archive existieren auf dem gesamten Kontinent. Die Methodik und Infrastruktur sind bereit für die Skalierung.

Rupert Douglas-Bate, Chief Executive Officer (CEO) von MapAid, teilte die folgende Perspektive zur Partnerschaft mit: „Unser sich entwickelndes KI-System, WellMapr, soll die kostengünstige Suche und Lokalisierung nachhaltiger Grundwasserquellen revolutionieren, aber es benötigt Brunnenwasserdaten. Unsere Mission, dieses Ziel zu erreichen, wurde durch unsere Zusammenarbeit mit Databricks for Good, die über Rotary International mit uns in Kontakt traten, erheblich beschleunigt. Das Databricks for Good-Projekt war grundlegend für die Entwicklung unserer Online Water Library (OWL) mit Unterstützung der Sudan Association for Archiving Knowledge (SUDAAK). Das Databricks-Team half dabei, ein großes, unorganisiertes Archiv historischer sudanesischer Wasser- und Bodendaten mithilfe der Dewey-Dezimalklassifikation in ein strukturiertes System umzuwandeln. Dies ermöglicht es uns, schnell und kostengünstig nachhaltige Grundwasserbrunnen-Daten zu identifizieren, die nun zur Entwicklung unseres WellMapr-Algorithmus verwendet werden können. MapAid freut sich, OWL als wichtiges Entwicklungswerkzeug zur Minderung von Dürren einzusetzen und zu beweisen, dass wir, wenn die richtigen Partner zusammenarbeiten, das „Unmögliche“ für diejenigen erreichen können, die es am dringendsten benötigen.“

Lesen Sie mehr über einige unserer anderen Pro-bono-Projekte unten:

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.