Ir al contenido principal
Empresa

Desbloqueo de los Archivos: Convirtiendo Documentos No Estructurados en una Base de Datos Buscable para el Descubrimiento de Aguas Subterráneas

Cómo Databricks for Good ayudó a MapAid a aprovechar la IA para transformar archivos estáticos en un motor de búsqueda procesable para la crisis del agua en Sudán

por Andres David Blandon Restrepo y Mofeed Nagib

  • MapAid se asoció con Databricks for Good para clasificar y catalogar casi 700 documentos hidrogeológicos escaneados, transformando una colección no estructurada en una base de datos consultable.
  • Utilizando IA multimodal, el equipo construyó un pipeline sin servidor que clasifica documentos y extrae información relacionada con el agua directamente de las imágenes escaneadas de las páginas.
  • Los investigadores ahora pueden localizar estudios históricos relevantes en segundos y acceder a registros de pozos que se alimentan directamente en los modelos de predicción de aguas subterráneas de MapAid, lo que permite mejorar los resultados de perforación.

Introducción

En todo Sudán, las comunidades dependen del agua subterránea para beber, regar y sobrevivir, pero perforar un pozo productivo está lejos de ser una garantía. La geología es compleja, los acuíferos varían mucho y un pozo fallido puede costar miles de dólares. Décadas de estudios geológicos e informes de campo contienen los datos necesarios para mejorar los resultados, pero esta información ha estado dispersa en archivos y nunca se ha organizado sistemáticamente, lo que la hace invisible para las personas que más la necesitan.

MapAid es una organización sin fines de lucro fundada en la Universidad de Stanford cuya misión es empoderar a los actores humanitarios y de desarrollo, principalmente en África, para tomar decisiones basadas en datos a través de mapeo mejorado por IA. Su herramienta principal, la aplicación WellMapr (de uso gratuito), utiliza IA y datos geoespaciales para identificar zonas de agua subterránea somera, guiando la perforación de bajo costo para el agua potable y el riego de pequeños agricultores. Una entrada crítica para estos modelos son los datos históricos sobre pozos, sondeos y geología de acuíferos.

La Asociación Sudanesa para el Archivo del Conocimiento (SUDAAK) mantiene una de las colecciones más ricas de estos datos: casi 700 PDF, TIFF y JPG escaneados que suman más de 5.000 páginas de estudios geológicos, informes de perforación de pozos y estudios de campo, disponibles públicamente en wossac.com. Sin embargo, la disponibilidad no es lo mismo que la accesibilidad. Un investigador que busca datos de pozos en una parte específica de Sudán necesitaría examinar manualmente cientos de documentos. Los datos se digitalizaron, pero sin un sistema de recuperación, permanecieron sin explotar.

Clasificación de Documentos Escaneados con IA Multimodal

Databricks se asoció con MapAid para construir un pipeline impulsado por IA que clasifica cada documento del archivo, lo etiqueta con metadatos geográficos y temáticos, y extrae registros estructurados de pozos y sondeos de documentos relacionados con el agua. El sistema se ejecuta completamente en Databricks y está empaquetado para su implementación con un solo comando. Este artículo detalla el enfoque técnico y cómo se generaliza a cualquier organización que busque extraer conocimiento estructurado de grandes colecciones de documentos escaneados no estructurados.

El archivo presentaba desafíos que descartaron la extracción de texto tradicional. Los documentos son escaneos de informes físicos, de muchas décadas de antigüedad, sin capa de texto incrustada. Algunas páginas están torcidas, otras combinan inglés y árabe, y muchas incluyen notas de campo escritas a mano. En lugar de intentar el OCR como primer paso, el equipo reformuló el problema como uno de comprensión visual: enviando imágenes de páginas escaneadas directamente a modelos de IA multimodales que pudieran interpretar el contenido visualmente.

Las páginas de cada documento se renderizan como imágenes y se almacenan en Unity Catalog Volumes, creando un conjunto de datos fundamental limpio y versionado. A partir de ahí, una estrategia de muestreo inteligente reduce los costos de procesamiento: los documentos más cortos se analizan en su totalidad, mientras que los documentos más largos se muestrean de sus secciones más informativas (páginas de título, introducciones y conclusiones). Esto redujo el volumen de procesamiento de IA en más del 70% y al mismo tiempo preservó la calidad de la clasificación.

Cada página muestreada se analiza utilizando Databricks AI Functions (ai_query), que admiten de forma nativa entradas multimodales y salida JSON estructurada. El modelo examina cada imagen de página y devuelve:

  • Códigos de clasificación decimal Dewey, el sistema universal de clasificación de bibliotecas
  • Geografías sudanesas referenciadas en el contenido
  • Una bandera de relevancia de agua que indica si la página contiene datos de pozos, sondeos o acuíferos

Debido a que las AI Functions se ejecutan directamente dentro de SQL, el equipo pudo iterar sobre los prompts y los esquemas de salida sin construir una infraestructura separada de servicio de modelos. Los resultados a nivel de página se agregan en clasificaciones a nivel de documento, produciendo un catálogo estructurado y consultable donde cada documento está etiquetado con lo que cubre y dónde se aplica.

Pipeline de documentos: extraer
">

Extracción de Registros Estructurados de Pozos y Sondeos

Muchos de los documentos marcados como relevantes para el agua contienen exactamente el tipo de información estructurada de la que dependen los modelos WellMapr de MapAid: ubicaciones de pozos, profundidades de perforación, mediciones del nivel freático y caudales de producción. Esta información a menudo se distribuye a lo largo de un documento, con coordenadas que aparecen en una sección, mediciones de profundidad en otra y datos de caudal en una tabla resumen varias páginas más adelante. Extraer y vincular estos datos fue un objetivo central de la asociación.

Para cada documento relevante para el agua, el pipeline procesa cada página en lugar de solo el subconjunto muestreado utilizado para la clasificación. El OCR se realiza página por página utilizando un modelo multimodal servido a través de la Foundation Model API, que maneja inglés, árabe y diseños complejos que incluyen notas de campo escritas a mano, datos tabulares y páginas de formato mixto. Durante el OCR, el sistema también aplica un enfoque de reconocimiento de entidades, identificando identificadores de pozos y sondeos como entidades ancla para que los registros que abarcan varias páginas puedan vincularse a un solo sitio.

El texto extraído de todas las páginas se fusiona en una representación unificada del documento, que luego se procesa en una segunda pasada para extraer registros estructurados en formato JSON que capturan nombres de sitios, coordenadas GPS, profundidades de perforación, niveles estáticos de agua y rendimientos de pruebas de bombeo. Databricks AI Functions impone respuestas con esquema restringido, asegurando que estos atributos se capturen de manera consistente incluso cuando aparecen en diferentes formatos o secciones a lo largo del documento. El resultado es un conjunto de registros estructurados de pozos y sondeos listos para su integración directa en los modelos de predicción WellMapr de MapAid.

Evaluación Automatizada de Calidad a Escala

Validar manualmente cientos de clasificaciones hidrogeológicas especializadas requeriría recursos significativos y una profunda experiencia en el dominio. En lugar de tratar la evaluación como un paso separado que se realizaría después del hecho, el equipo integró la evaluación automatizada de calidad directamente en el pipeline como una etapa de primera clase. Un modelo de IA separado, también llamado a través de AI Functions, actúa como un juez: calificando cada clasificación en una rúbrica estructurada que cubre precisión, completitud y consistencia. Para cada documento, el evaluador compara los códigos decimales Dewey asignados y las etiquetas geográficas con el contenido de la página muestreada, verificando si las clasificaciones están respaldadas por lo que el modelo observó realmente.

Cada evaluación produce tanto una calificación categórica (excelente, bueno, regular o deficiente) como una justificación escrita que explica la puntuación, creando un rastro auditable para cada decisión que toma el pipeline. Los documentos que obtienen una puntuación inferior a un umbral de confianza se marcan para revisión manual, dirigiendo el esfuerzo humano limitado a los casos donde más importa. En la primera ejecución completa, solo una pequeña fracción de las clasificaciones requirió atención humana.

Implementación de una Solución Autónoma en Databricks

Un proyecto como este toca todas las capas de la pila de datos e IA: almacenamiento de archivos, ingeniería de datos, inferencia de IA, análisis de salida estructurada, evaluación de calidad y gobernanza. Databricks proporcionó todo esto dentro de un solo espacio de trabajo. Los archivos de archivo sin procesar se almacenan en Unity Catalog Volumes, y todas las salidas del pipeline se escriben en tablas de Delta Lake con confiabilidad ACID, evolución de esquemas y linaje de datos completo. El pipeline se orquesta como un Lakeflow Job en cómputo serverless, por lo que MapAid solo paga por lo que consume cada ejecución.

Todo el sistema está empaquetado como un Databricks Asset Bundle, lo que significa que se puede implementar, actualizar y ejecutar con un solo comando. MapAid recibió una solución autónoma que puede mantenerse sin experiencia en múltiples servicios en la nube. Dado que la lógica del pipeline está desacoplada del archivo específico que procesa, el mismo sistema podría adaptarse a otros archivos de agua, otras regiones u otros dominios donde se necesiten clasificar y hacer consultables grandes colecciones de documentos escaneados.

Lo que esto significa en la práctica

En su primera ejecución completa, el pipeline entregó:

  • 654 documentos y 5.570 páginas clasificados
    • Completado en menos de tres horas
    • 95% de las clasificaciones calificadas como "excelentes" o "buenas" por el evaluador automatizado
    • ~50% del archivo identificado como que contiene datos relacionados con el agua
    • 299 registros estructurados de pozos y sondeos extraídos con nombres de ubicación, profundidades y mediciones de rendimiento

    El pipeline redujo lo que habría llevado semanas o meses a los expertos del dominio a un proceso que se completa en horas. El archivo ahora se puede buscar por clasificación, geografía o la presencia de datos de agua. Cada registro extraído con coordenadas y datos de profundidad se introduce directamente en las predicciones de aguas subterráneas de MapAid, lo que permite tasas de éxito de perforación más altas y una entrega más rápida de agua a las comunidades necesitadas.

    A medida que SUDAAK continúa digitalizando nuevos documentos, el pipeline puede procesar cada nuevo lote con un solo comando, asegurando que el catálogo se mantenga actualizado a medida que el archivo crece. El trabajo de MapAid abarca África Oriental, incluidos Etiopía y Malaui, y existen archivos no clasificados similares en todo el continente. La metodología y la infraestructura están listas para escalar.

    Rupert Douglas-Bate, Director Ejecutivo (CEO) de MapAid, compartió la siguiente perspectiva sobre la asociación: "Nuestro sistema de IA en evolución, WellMapr, tiene como objetivo revolucionar la búsqueda y ubicación de fuentes de agua subterránea sostenibles de bajo costo, pero necesita datos de pozos de agua. Nuestra misión para lograr ese objetivo se aceleró enormemente gracias a nuestra colaboración con Databricks for Good, quienes se conectaron con nosotros a través de Rotary International. El proyecto Databricks for Good fue fundamental en el desarrollo de nuestra Biblioteca de Agua en Línea (OWL) con el apoyo de la Sudan Association for Archiving Knowledge (SUDAAK). El equipo de Databricks ayudó a transformar un gran archivo desorganizado de datos históricos de agua y suelo sudaneses en un sistema estructurado utilizando la clasificación Dewey Decimal. Esto nos permite identificar rápidamente datos de pozos de agua subterránea sostenibles a bajo costo, que ahora se pueden utilizar para desarrollar nuestro algoritmo WellMapr. MapAid está encantado de utilizar OWL como una herramienta de desarrollo vital para mitigar la sequía, lo que demuestra que cuando los socios adecuados se alinean, podemos lograr lo 'imposible' para quienes más lo necesitan".

    Por favor, lea más sobre algunos de nuestros otros proyectos pro bono a continuación:

    (Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.