Como a Databricks for Good ajudou a MapAid a alavancar a IA para transformar arquivos estáticos em um mecanismo de busca acionável para a crise hídrica do Sudão
Em todo o Sudão, as comunidades dependem de águas subterrâneas para beber, irrigação e sobrevivência, mas perfurar um poço produtivo está longe de ser garantido. A geologia é complexa, os aquíferos variam amplamente e um poço furado pode custar milhares de dólares. Décadas de levantamentos geológicos e relatórios de campo contêm os dados necessários para melhorar os resultados, mas essas informações foram espalhadas por arquivos e nunca organizadas sistematicamente, tornando-as invisíveis para as pessoas que mais precisam.
MapAid é uma organização sem fins lucrativos fundada na Universidade de Stanford, cuja missão é capacitar atores humanitários e de desenvolvimento, principalmente na África, a tomar decisões baseadas em dados por meio de mapeamento aprimorado por IA. Sua principal ferramenta, o aplicativo WellMapr (gratuito), usa IA e dados geoespaciais para identificar zonas de águas subterrâneas rasas, orientando a perfuração de baixo custo para água potável e irrigação de pequenos agricultores. Uma entrada crítica para esses modelos são os dados históricos sobre poços, furos e geologia de aquíferos.
A Sudan Association for Archiving Knowledge (SUDAAK) mantém uma das coleções mais ricas desses dados: quase 700 PDFs, TIFFs e JPGs digitalizados totalizando mais de 5.000 páginas de levantamentos geológicos, relatórios de perfuração de poços e estudos de campo, publicamente disponíveis em wossac.com. No entanto, disponibilidade não é o mesmo que acessibilidade. Um pesquisador procurando dados de furos em uma parte específica do Sudão precisaria vasculhar manualmente centenas de documentos. Os dados foram digitalizados, mas sem um sistema de recuperação, permaneceram inexplorados.
A Databricks fez parceria com a MapAid para construir um pipeline com tecnologia de IA que classifica cada documento no arquivo, o marca com metadados geográficos e de assunto, e extrai registros estruturados de poços e furos de documentos relacionados à água. O sistema é executado inteiramente na Databricks e é empacotado para implantação com um único comando. Este artigo detalha a abordagem técnica e como ela se generaliza para qualquer organização que busca extrair conhecimento estruturado de grandes coleções de documentos digitalizados não estruturados.
O arquivo apresentou desafios que descartaram a extração de texto tradicional. Os documentos são digitalizações de relatórios físicos, muitos com décadas de idade, sem camada de texto incorporada. Algumas páginas estão inclinadas, outras combinam inglês e árabe, e muitas incluem anotações de campo manuscritas. Em vez de tentar OCR como primeiro passo, a equipe reformulou o problema como um de compreensão visual: enviando imagens de páginas digitalizadas diretamente para modelos de IA multimodais que poderiam interpretar o conteúdo visualmente.
As páginas de cada documento são renderizadas como imagens e armazenadas em Volumes do Unity Catalog, criando um conjunto de dados fundamental limpo e versionado. A partir daí, uma estratégia de amostragem inteligente reduz os custos de processamento: documentos mais curtos são analisados integralmente, enquanto documentos mais longos são amostrados de suas seções mais informativas (páginas de título, introduções e conclusões). Isso reduziu o volume de processamento de IA em mais de 70%, preservando a qualidade da classificação.
Cada página amostrada é analisada usando Funções de IA da Databricks (ai_query), que suportam nativamente entradas multimodais e saída JSON estruturada. O modelo examina cada imagem de página e retorna:
Como as Funções de IA são executadas diretamente no SQL, a equipe pôde iterar em prompts e esquemas de saída sem construir infraestrutura separada de modelagem. Os resultados em nível de página são agregados em classificações em nível de documento, produzindo um catálogo estruturado e pesquisável onde cada documento é marcado com o que cobre e onde se aplica.

Muitos dos documentos com sinalizador hídrico contêm exatamente o tipo de informação estruturada em que os modelos WellMapr da MapAid dependem: locais de poços, profundidades de perfuração, níveis de água e taxas de vazão. Essas informações geralmente são distribuídas por um documento, com coordenadas aparecendo em uma seção, medições de profundidade em outra e dados de vazão em uma tabela de resumo várias páginas adiante. Extrair e vincular esses dados foi um objetivo central da parceria.
Para cada documento relevante para água, o pipeline processa todas as páginas, em vez de apenas o subconjunto amostrado usado para classificação. O OCR é realizado página por página usando um modelo multimodal servido através da API de Modelo Fundamental, que lida com inglês, árabe e layouts complexos, incluindo anotações de campo manuscritas, dados tabulares e páginas de formato misto. Durante o OCR, o sistema também aplica uma abordagem de reconhecimento de entidade, identificando identificadores de poços e furos como entidades âncora para que registros que abrangem várias páginas possam ser vinculados a um único local.
O texto extraído de todas as páginas é mesclado em uma representação unificada do documento, que é então processada em uma segunda passagem para extrair registros estruturados em formato JSON capturando nomes de locais, coordenadas GPS, profundidades de perfuração, níveis estáticos de água e vazões de teste de bomba. Funções de IA da Databricks impõem respostas com esquema restrito, garantindo que esses atributos sejam capturados de forma consistente, mesmo quando aparecem em formatos ou seções diferentes no documento. O resultado é um conjunto de registros estruturados de poços e furos prontos para integração direta nos modelos de previsão WellMapr da MapAid.
Validar manualmente centenas de classificações hidrogeológicas especializadas exigiria recursos significativos e profundo conhecimento do domínio. Em vez de tratar a avaliação como uma etapa separada a ser feita após o fato, a equipe integrou a avaliação de qualidade automatizada diretamente no pipeline como uma fase de primeira classe. Um modelo de IA separado, também chamado via Funções de IA, atua como um juiz: pontuando cada classificação em uma rubrica estruturada cobrindo precisão, completude e consistência. Para cada documento, o avaliador compara os códigos Dewey Decimal atribuídos e as tags geográficas com o conteúdo da página amostrada, verificando se as classificações são suportadas pelo que o modelo realmente observou.
Cada avaliação produz uma classificação categórica (excelente, bom, razoável ou ruim) e uma justificativa escrita explicando a pontuação, criando um rastro auditável para cada decisão que o pipeline toma. Documentos com pontuação abaixo de um limite de confiança são sinalizados para revisão manual, direcionando o esforço humano limitado para os casos em que ele mais importa. Na primeira execução completa, apenas uma pequena fração das classificações exigiu atenção humana.
Um projeto como este toca em todas as camadas da pilha de dados e IA: armazenamento de arquivos, engenharia de dados, inferência de IA, análise de saída estruturada, avaliação de qualidade e governança. A Databricks forneceu tudo isso dentro de um único workspace. Arquivos brutos do acervo são armazenados em Volumes do Unity Catalog, e todos os resultados do pipeline são gravados em tabelas Delta Lake com confiabilidade ACID, evolução de esquema e linhagem completa de dados. O pipeline é orquestrado como um Lakeflow Job em computação serverless, para que a MapAid pague apenas pelo que cada execução consome.
Todo o sistema é empacotado como um Databricks Asset Bundle, o que significa que ele pode ser implantado, atualizado e executado com um único comando. A MapAid recebeu uma solução autocontida que pode ser mantida sem a necessidade de expertise em múltiplos serviços de nuvem. Como a lógica do pipeline está desacoplada do arquivo específico que processa, o mesmo sistema poderia ser adaptado para outros arquivos de água, outras regiões ou outros domínios onde grandes coleções de documentos digitalizados precisam ser classificadas e tornadas pesquisáveis.
Em sua primeira execução completa, o pipeline entregou:
O pipeline reduziu o que levaria semanas ou meses para especialistas do domínio em um processo que é concluído em horas. O acervo agora pode ser pesquisado por classificação, geografia ou pela presença de dados de água. Cada registro extraído com coordenadas e dados de profundidade alimenta diretamente as previsões de águas subterrâneas do MapAid, apoiando maiores taxas de sucesso de perfuração e entrega mais rápida de água para comunidades necessitadas.
À medida que a SUDAAK continua a digitalizar novos documentos, o pipeline pode processar cada novo lote com um único comando, garantindo que o catálogo permaneça atualizado à medida que o acervo cresce. O trabalho do MapAid abrange a África Oriental, incluindo Etiópia e Malauí, e acervos não classificados semelhantes existem em todo o continente. A metodologia e a infraestrutura estão prontas para escalar.
Rupert Douglas-Bate, Chief Executive Officer (CEO) da MapAid, compartilhou a seguinte perspectiva sobre a parceria: "Nosso sistema de IA em evolução, WellMapr, tem como objetivo revolucionar a busca e localização de baixo custo de fontes sustentáveis de águas subterrâneas, mas ele precisa de dados de poços de água. Nossa missão para atingir esse objetivo foi grandemente acelerada por nossa colaboração com a Databricks for Good, que nos contatou através da Rotary International. O projeto Databricks for Good foi fundamental no desenvolvimento de nossa Biblioteca Online de Água (OWL) com o apoio da Sudan Association for Archiving Knowledge (SUDAAK). A equipe da Databricks ajudou a transformar um grande acervo desorganizado de dados históricos de água e solo do Sudão em um sistema estruturado usando a classificação Dewey Decimal. Isso nos permite identificar rapidamente dados de poços de águas subterrâneas sustentáveis a baixo custo, que agora podem ser usados para ajudar a desenvolver nosso algoritmo WellMapr. A MapAid tem o prazer de usar a OWL como uma ferramenta de desenvolvimento vital para mitigar a seca, provando que, quando os parceiros certos se alinham, podemos alcançar o 'impossível' para aqueles que mais precisam."
Leia mais sobre alguns de nossos outros projetos pro bono abaixo:
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.