Comment Databricks for Good a aidé MapAid à exploiter l'IA pour transformer des archives statiques en un moteur de recherche exploitable pour la crise de l'eau au Soudan
Au Soudan, les communautés dépendent des eaux souterraines pour boire, irriguer et survivre, mais forer un puits productif est loin d'être garanti. La géologie est complexe, les aquifères varient considérablement et un forage raté peut coûter des milliers de dollars. Des décennies d'études géologiques et de rapports de terrain contiennent les données nécessaires pour améliorer les résultats, mais ces informations ont été dispersées dans des archives et jamais systématiquement organisées, les rendant invisibles pour ceux qui en ont le plus besoin.
MapAid est une organisation à but non lucratif fondée à l'Université de Stanford dont la mission est de permettre aux acteurs humanitaires et de développement, principalement en Afrique, de prendre des décisions basées sur les données grâce à la cartographie améliorée par l'IA. Leur outil phare, l'application WellMapr (gratuite), utilise l'IA et les données géospatiales pour identifier les zones d'eaux souterraines peu profondes, guidant le forage à faible coût pour l'eau potable et l'irrigation des petits exploitants agricoles. Une donnée d'entrée critique pour ces modèles est l'historique des données sur les puits, les forages et la géologie des aquifères.
La Sudan Association for Archiving Knowledge (SUDAAK) conserve l'une des collections les plus riches de ces données : près de 700 PDF, TIFF et JPG numérisés totalisant plus de 5 000 pages d'études géologiques, de rapports de forage et d'études de terrain, disponibles publiquement sur wossac.com. Cependant, la disponibilité n'est pas synonyme d'accessibilité. Un chercheur cherchant des données de forage dans une partie spécifique du Soudan devrait parcourir manuellement des centaines de documents. Les données ont été numérisées, mais sans système de récupération, elles sont restées inexploitées.
Databricks s'est associé à MapAid pour construire un pipeline alimenté par l'IA qui classe chaque document de l'archive, le marque avec des métadonnées géographiques et thématiques, et extrait des enregistrements structurés de puits et de forages à partir des documents liés à l'eau. Le système fonctionne entièrement sur Databricks et est empaqueté pour un déploiement en une seule commande. Cet article détaille l'approche technique et comment elle se généralise à toute organisation cherchant à extraire des connaissances structurées de grandes collections de documents numérisés non structurés.
L'archive présentait des défis qui excluaient l'extraction de texte traditionnelle. Les documents sont des scans de rapports physiques, datant de plusieurs décennies, sans couche de texte intégrée. Certaines pages sont inclinées, d'autres combinent l'anglais et l'arabe, et beaucoup incluent des notes de terrain manuscrites. Plutôt que de tenter l'OCR comme première étape, l'équipe a reformulé le problème comme une question de compréhension visuelle : envoyer directement les images des pages numérisées à des modèles d'IA multimodaux capables d'interpréter le contenu visuellement.
Les pages de chaque document sont rendues sous forme d'images et stockées dans les Volumes Unity Catalog, créant un jeu de données de base propre et versionné. À partir de là, une stratégie d'échantillonnage intelligente réduit les coûts de traitement : les documents plus courts sont analysés en totalité, tandis que les documents plus longs sont échantillonnés à partir de leurs sections les plus informatives (pages de titre, introductions et conclusions). Cela a réduit le volume de traitement de l'IA de plus de 70 % tout en préservant la qualité de la classification.
Chaque page échantillonnée est analysée à l'aide des Databricks AI Functions (ai_query), qui prennent en charge nativement les entrées multimodales et la sortie JSON structurée. Le modèle examine chaque image de page et renvoie :
Étant donné que les AI Functions s'exécutent directement dans SQL, l'équipe a pu itérer sur les invites et les schémas de sortie sans construire d'infrastructure de service de modèle distincte. Les résultats au niveau de la page sont agrégés en classifications au niveau du document, produisant un catalogue structuré et consultable où chaque document est marqué avec ce qu'il couvre et où il s'applique.

Beaucoup de documents marqués comme pertinents pour l'eau contiennent exactement le type d'informations structurées dont dépendent les modèles WellMapr de MapAid : emplacements des puits, profondeurs de forage, mesures de la nappe phréatique et débits. Ces informations sont souvent réparties dans un document, avec les coordonnées apparaissant dans une section, les mesures de profondeur dans une autre, et les données de débit dans un tableau récapitulatif plusieurs pages plus loin. L'extraction et la liaison de ces données étaient un objectif central du partenariat.
Pour chaque document pertinent pour l'eau, le pipeline traite chaque page plutôt que le sous-ensemble échantillonné utilisé pour la classification. L'OCR est effectué page par page à l'aide d'un modèle multimodal servi via l'API Foundation Model, qui gère l'anglais, l'arabe et les mises en page complexes, y compris les notes de terrain manuscrites, les données tabulaires et les pages à format mixte. Pendant l'OCR, le système applique également une approche de reconnaissance d'entités, identifiant les identifiants de puits et de forages comme entités d'ancrage afin que les enregistrements couvrant plusieurs pages puissent être liés à un seul site.
Le texte extrait de toutes les pages est fusionné en une représentation unifiée du document, qui est ensuite traitée dans une seconde passe pour extraire des enregistrements structurés au format JSON capturant les noms de sites, les coordonnées GPS, les profondeurs de forage, les niveaux statiques de l'eau et les débits de pompage. Les Databricks AI Functions appliquent des réponses contraintes par un schéma, garantissant que ces attributs sont capturés de manière cohérente, même lorsqu'ils apparaissent dans différents formats ou sections du document. Le résultat est un ensemble d'enregistrements structurés de puits et de forages prêts pour une intégration directe dans les modèles de prédiction WellMapr de MapAid.
La validation manuelle de centaines de classifications hydrogéologiques spécialisées nécessiterait des ressources importantes et une expertise approfondie du domaine. Plutôt que de traiter l'évaluation comme une étape distincte à effectuer après coup, l'équipe a intégré l'évaluation automatisée de la qualité directement dans le pipeline comme une étape de premier plan. Un modèle d'IA distinct, également appelé via les AI Functions, agit comme un juge : il note chaque classification selon une grille structurée couvrant la précision, l'exhaustivité et la cohérence. Pour chaque document, l'évaluateur compare les codes décimaux Dewey attribués et les étiquettes géographiques au contenu des pages échantillonnées, vérifiant si les classifications sont étayées par ce que le modèle a réellement observé.
Chaque évaluation produit à la fois une note catégorique (excellent, bon, moyen ou médiocre) et une justification écrite expliquant la note, créant une piste auditable pour chaque décision prise par le pipeline. Les documents dont le score est inférieur à un seuil de confiance sont signalés pour examen manuel, dirigeant les efforts humains limités vers les cas où cela est le plus important. Lors de la première exécution complète, seule une petite fraction des classifications a nécessité une attention humaine.
Un projet comme celui-ci touche toutes les couches de la pile de données et d'IA : stockage de fichiers, ingénierie des données, inférence d'IA, analyse de sortie structurée, évaluation de la qualité et gouvernance. Databricks a fourni tout cela dans un seul espace de travail. Les fichiers d'archive bruts sont stockés dans les Volumes Unity Catalog, et toutes les sorties du pipeline sont écrites dans des tables Delta Lake avec fiabilité ACID, évolution des schémas et lignage complet des données. Le pipeline est orchestré en tant que Lakeflow Job sur une infrastructure informatique serverless, de sorte que MapAid ne paie que pour ce que chaque exécution consomme.
L'ensemble du système est empaqueté sous forme de Databricks Asset Bundle, ce qui signifie qu'il peut être déployé, mis à jour et exécuté avec une seule commande. MapAid a reçu une solution autonome qui peut être maintenue sans expertise sur plusieurs services cloud. Étant donné que la logique du pipeline est découplée de l'archive spécifique qu'elle traite, le même système pourrait être adapté à d'autres archives d'eau, à d'autres régions ou à d'autres domaines où de grandes collections de documents numérisés doivent être classifiées et rendues consultables.
Lors de sa première exécution complète, le pipeline a livré :
Le pipeline a réduit ce qui aurait pris des semaines ou des mois aux experts du domaine en un processus qui s'achève en quelques heures. L'archive peut désormais être recherchée par classification, géographie ou présence de données sur l'eau. Chaque enregistrement extrait avec des coordonnées et des données de profondeur alimente directement les prévisions de groundwater de MapAid, soutenant des taux de réussite de forage plus élevés et une livraison d'eau plus rapide aux communautés dans le besoin.
Alors que SUDAAK continue de numériser de nouveaux documents, le pipeline peut traiter chaque nouveau lot avec une seule commande, garantissant que le catalogue reste à jour à mesure que l'archive grandit. Le travail de MapAid s'étend à travers l'Afrique de l'Est, y compris l'Éthiopie et le Malawi, et des archives non classifiées similaires existent à travers le continent. La méthodologie et l'infrastructure sont prêtes à passer à l'échelle.
Rupert Douglas-Bate, PDG de MapAid, a partagé la perspective suivante sur le partenariat : « Notre système d'IA évolutif, WellMapr, est destiné à révolutionner la recherche et la localisation à faible coût de sources d'eau souterraine durables, mais il a besoin de données sur l'eau des puits. Notre mission pour atteindre cet objectif a été grandement accélérée par notre collaboration avec Databricks for Good, qui nous a contactés par l'intermédiaire de Rotary International. Le projet Databricks for Good a été fondamental dans le développement de notre Online Water Library (OWL) avec le soutien de la Sudan Association for Archiving Knowledge (SUDAAK). L'équipe Databricks a aidé à transformer une grande archive désorganisée de données historiques sur l'eau et le sol soudanais en un système structuré utilisant la classification décimale Dewey. Cela nous permet d'identifier rapidement des données sur les puits d'eau souterraine durables à faible coût, qui peuvent maintenant être utilisées pour développer notre algorithme WellMapr. MapAid est ravi d'utiliser OWL comme un outil de développement vital pour atténuer la sécheresse, prouvant que lorsque les bons partenaires s'alignent, nous pouvons réaliser l'« impossible » pour ceux qui en ont le plus besoin. »
Veuillez en savoir plus sur certains de nos autres projets pro bono ci-dessous :
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.