Come Databricks for Good ha aiutato MapAid a sfruttare l'IA per trasformare archivi statici in un motore di ricerca attuabile per la crisi idrica del Sudan
In tutto il Sudan, le comunità dipendono dalle acque sotterranee per bere, irrigare e sopravvivere, ma trivellare un pozzo produttivo è tutt'altro che garantito. La geologia è complessa, le falde acquifere variano ampiamente e un pozzo fallito può costare migliaia di dollari. Decenni di indagini geologiche e rapporti sul campo contengono i dati necessari per migliorare i risultati, ma queste informazioni sono state sparse negli archivi e mai organizzate sistematicamente, rendendole invisibili alle persone che ne hanno più bisogno.
MapAid è un'organizzazione non profit fondata alla Stanford University la cui missione è fornire agli attori umanitari e di sviluppo, principalmente in Africa, la possibilità di prendere decisioni basate sui dati attraverso la mappatura potenziata dall'IA. Il loro strumento di punta, l'app WellMapr (gratuita), utilizza l'IA e dati geospaziali per identificare zone di acque sotterranee poco profonde, guidando trivellazioni a basso costo per l'acqua potabile e l'irrigazione dei piccoli agricoltori. Un input critico per questi modelli sono i dati storici su pozzi, trivellazioni e geologia delle falde acquifere.
La Sudan Association for Archiving Knowledge (SUDAAK) mantiene una delle collezioni più ricche di questi dati: quasi 700 PDF, TIFF e JPG scansionati per un totale di oltre 5.000 pagine di indagini geologiche, rapporti di trivellazione e studi sul campo, pubblicamente disponibili su wossac.com. Tuttavia, la disponibilità non è la stessa cosa dell'accessibilità. Un ricercatore alla ricerca di dati di trivellazione in una specifica parte del Sudan dovrebbe esaminare manualmente centinaia di documenti. I dati sono stati digitalizzati, ma senza un sistema di recupero, sono rimasti inutilizzati.
Databricks ha collaborato con MapAid per costruire una pipeline basata sull'IA che classifica ogni documento nell'archivio, lo etichetta con metadati geografici e tematici ed estrae record strutturati di pozzi e trivellazioni dai documenti relativi all'acqua. Il sistema viene eseguito interamente su Databricks ed è impacchettato per l'implementazione con un singolo comando. Questo articolo illustra l'approccio tecnico e come si generalizza a qualsiasi organizzazione che desideri estrarre conoscenza strutturata da grandi raccolte di documenti scansionati non strutturati.
L'archivio presentava sfide che escludevano l'estrazione di testo tradizionale. I documenti sono scansioni di rapporti cartacei, molti dei quali risalgono a decenni fa, senza uno strato di testo incorporato. Alcune pagine sono inclinate, altre combinano inglese e arabo, e molte includono note di campo scritte a mano. Invece di tentare l'OCR come primo passo, il team ha riformulato il problema come uno di comprensione visiva: inviando immagini di pagine scansionate direttamente a modelli di IA multimodale che potessero interpretare il contenuto visivamente.
Le pagine di ogni documento vengono renderizzate come immagini e archiviate in Unity Catalog Volumes, creando un set di dati fondamentale pulito e versionato. Da lì, una strategia di campionamento intelligente riduce i costi di elaborazione: i documenti più brevi vengono analizzati per intero, mentre i documenti più lunghi vengono campionati dalle loro sezioni più informative (pagine del titolo, introduzioni e conclusioni). Ciò ha ridotto il volume di elaborazione dell'IA di oltre il 70% preservando la qualità della classificazione.
Ogni pagina campionata viene analizzata utilizzando Databricks AI Functions (ai_query), che supportano nativamente input multimodali e output JSON strutturato. Il modello esamina ogni immagine di pagina e restituisce:
Poiché le AI Functions vengono eseguite direttamente all'interno di SQL, il team ha potuto iterare su prompt e schemi di output senza creare un'infrastruttura di model serving separata. I risultati a livello di pagina vengono aggregati in classificazioni a livello di documento, producendo un catalogo strutturato e ricercabile in cui ogni documento è etichettato con ciò che copre e dove si applica.

Molti dei documenti con indicatore idrico contengono esattamente il tipo di informazioni strutturate da cui dipendono i modelli WellMapr di MapAid: posizioni dei pozzi, profondità di trivellazione, misurazioni della falda acquifera e tassi di resa. Queste informazioni sono spesso distribuite in un documento, con coordinate che appaiono in una sezione, misurazioni di profondità in un'altra e dati di resa in una tabella riassuntiva diverse pagine dopo. Estrarre e collegare questi dati è stato un obiettivo centrale della partnership.
Per ogni documento rilevante per l'acqua, la pipeline elabora ogni pagina invece di utilizzare solo il sottoinsieme campionato utilizzato per la classificazione. L'OCR viene eseguito pagina per pagina utilizzando un modello multimodale servito tramite l'API Foundation Model, che gestisce inglese, arabo e layout complessi, incluse note di campo scritte a mano, dati tabulari e pagine in formato misto. Durante l'OCR, il sistema applica anche un approccio di riconoscimento delle entità, identificando gli identificatori di pozzi e trivellazioni come entità di ancoraggio in modo che i record che si estendono su più pagine possano essere collegati a un singolo sito.
Il testo estratto da tutte le pagine viene unito in una rappresentazione unificata del documento, che viene quindi elaborato in un secondo passaggio per estrarre record strutturati in formato JSON che catturano nomi di siti, coordinate GPS, profondità di trivellazione, livelli statici dell'acqua e rese delle prove di pompaggio. Databricks AI Functions impone risposte con schema vincolato, garantendo che questi attributi vengano acquisiti in modo coerente anche quando appaiono in formati o sezioni diverse nel documento. Il risultato è un set di record strutturati di pozzi e trivellazioni pronti per l'integrazione diretta nei modelli predittivi WellMapr di MapAid.
La convalida manuale di centinaia di classificazioni idrogeologiche specializzate richiederebbe risorse significative e una profonda competenza nel settore. Invece di trattare la valutazione come un passaggio separato da eseguire dopo i fatti, il team ha integrato la valutazione automatizzata della qualità direttamente nella pipeline come fase di prima classe. Un modello di IA separato, anch'esso chiamato tramite AI Functions, agisce come giudice: valuta ogni classificazione secondo una rubrica strutturata che copre accuratezza, completezza e coerenza. Per ogni documento, il valutatore confronta i codici Dewey Decimal e i tag geografici assegnati con il contenuto della pagina campionata, verificando se le classificazioni sono supportate da ciò che il modello ha effettivamente osservato.
Ogni valutazione produce sia una valutazione categorica (eccellente, buona, discreta o scarsa) sia una giustificazione scritta che spiega il punteggio, creando una traccia verificabile per ogni decisione presa dalla pipeline. I documenti che ottengono un punteggio inferiore a una soglia di confidenza vengono contrassegnati per la revisione manuale, dirigendo lo sforzo umano limitato verso i casi in cui è più importante. Nella prima esecuzione completa, solo una piccola frazione delle classificazioni ha richiesto l'attenzione umana.
Un progetto come questo tocca ogni livello dello stack di dati e IA: archiviazione di file, ingegneria dei dati, inferenza IA, analisi di output strutturati, valutazione della qualità e governance. Databricks ha fornito tutto ciò all'interno di un unico workspace. I file di archivio grezzi sono archiviati in Unity Catalog Volumes e tutti gli output della pipeline vengono scritti su tabelle Delta Lake con affidabilità ACID, evoluzione dello schema e lineage completo dei dati. La pipeline è orchestrata come un Lakeflow Job su compute serverless, quindi MapAid paga solo per ciò che ogni esecuzione consuma.
L'intero sistema è impacchettato come un Databricks Asset Bundle, il che significa che può essere distribuito, aggiornato ed eseguito con un singolo comando. MapAid ha ricevuto una soluzione autonoma che può essere mantenuta senza competenze su più servizi cloud. Poiché la logica della pipeline è disaccoppiata dall'archivio specifico che elabora, lo stesso sistema potrebbe essere adattato ad altri archivi idrici, altre regioni o altri domini in cui grandi raccolte di documenti scansionati devono essere classificate e rese ricercabili.
Nella sua prima esecuzione completa, la pipeline ha fornito:
La pipeline ha ridotto ciò che avrebbe richiesto settimane o mesi agli esperti del settore in un processo che si completa in poche ore. L'archivio può ora essere cercato per classificazione, geografia o presenza di dati sull'acqua. Ogni record estratto con coordinate e dati di profondità alimenta direttamente le previsioni sulle acque sotterranee di MapAid, supportando tassi di successo di perforazione più elevati e una consegna più rapida di acqua alle comunità bisognose.
Poiché SUDAAK continua a digitalizzare nuovi documenti, la pipeline può elaborare ogni nuovo batch con un singolo comando, garantendo che il catalogo rimanga aggiornato man mano che l'archivio cresce. Il lavoro di MapAid si estende all'Africa orientale, inclusi Etiopia e Malawi, e archivi simili non classificati esistono in tutto il continente. La metodologia e l'infrastruttura sono pronte per essere scalate.
Rupert Douglas-Bate, Chief Executive Officer (CEO) di MapAid, ha condiviso la seguente prospettiva sulla partnership: "Il nostro sistema AI in evoluzione, WellMapr, è destinato a rivoluzionare la ricerca e la localizzazione a basso costo di fonti di acque sotterranee sostenibili, ma necessita di dati sui pozzi d'acqua. La nostra missione per raggiungere tale obiettivo è stata notevolmente accelerata dalla nostra collaborazione con Databricks for Good, che ci ha contattato tramite Rotary International. Il progetto Databricks for Good è stato fondamentale nello sviluppo della nostra Online Water Library (OWL) con il supporto della Sudan Association for Archiving Knowledge (SUDAAK). Il team Databricks ha aiutato a trasformare un grande archivio disorganizzato di dati storici su acqua e suolo sudanesi in un sistema strutturato utilizzando la classificazione Dewey Decimal. Ciò ci consente di identificare rapidamente dati sui pozzi d'acqua sotterranea sostenibili a basso costo, che ora possono essere utilizzati per sviluppare il nostro algoritmo WellMapr. MapAid è lieta di utilizzare OWL come strumento di sviluppo vitale per mitigare la siccità, dimostrando che quando i partner giusti si allineano, possiamo realizzare l''impossibile' per coloro che ne hanno più bisogno."
Leggi di più su alcuni dei nostri altri progetti pro bono qui sotto:
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.