Databricks for Good가 MapAid가 AI를 활용하여 정적 아카이브를 수단의 물 위기에 대한 실행 가능한 검색 엔진으로 변환하도록 도운 방법
수단 전역에서 지역 사회는 식수, 관개 및 생존을 위해 지하수에 의존하지만, 생산적인 우물을 파는 것은 보장되지 않습니다. 지질학은 복잡하고, 대수층은 매우 다양하며, 실패한 시추공은 수천 달러의 비용이 들 수 있습니다. 수십 년간의 지질 조사 및 현장 보고서에는 결과 개선에 필요한 데이터가 포함되어 있지만, 이 정보는 아카이브에 흩어져 있고 체계적으로 구성된 적이 없어 가장 필요한 사람들에게는 보이지 않았습니다.
MapAid는 AI 기반 매핑을 통해 인도주의 및 개발 활동가들이 데이터 기반 의사 결정을 내릴 수 있도록 지원하는 것을 사명으로 하는 스탠포드 대학에서 설립된 비영리 단체입니다. 그들의 주요 도구인 WellMapr 앱(무료 사용)은 AI와 지리 공간 데이터를 사용하여 얕은 지하수 지역을 식별하여 소규모 농부들의 식수 및 관개를 위한 저비용 시추를 안내합니다. 이러한 모델의 중요한 입력은 우물, 시추공 및 대수층 지질에 대한 과거 데이터입니다.
수단 지식 아카이빙 협회(SUDAAK)는 이러한 데이터의 가장 풍부한 컬렉션 중 하나를 유지 관리합니다. 거의 700개의 스캔된 PDF, TIFF 및 JPG 파일로 총 5,000페이지 이상의 지질 조사, 우물 시추 보고서 및 현장 연구가 있으며, wossac.com에서 공개적으로 이용 가능합니다. 그러나 가용성이 접근성과 같은 것은 아닙니다. 수단의 특정 지역에서 시추공 데이터를 찾는 연구원은 수백 개의 문서를 수동으로 검토해야 합니다. 데이 터는 디지털화되었지만 검색 시스템이 없으면 활용되지 못했습니다.
Databricks는 MapAid와 협력하여 아카이브의 모든 문서를 분류하고, 지리 및 주제 메타데이터로 태그를 지정하며, 물 관련 문서에서 구조화된 우물 및 시추공 기록을 추출하는 AI 기반 파이프라인을 구축했습니다. 이 시스템은 Databricks에서 완전히 실행되며 단일 명령 배포를 위해 패키징됩니다. 이 문서는 기술적 접근 방식과 대규모의 구조화되지 않은 스캔된 문서 컬렉션에서 구조화된 지식을 추출하려는 모든 조직에 어떻게 일반화되는지를 설명합니다.
아카이브는 기존 텍스트 추출을 배제하는 문제를 제시했습니다. 문서는 수십 년 된 물리적 보고서의 스캔본으로, 임베디드 텍스트 계층이 없습니다. 일부 페이지는 기울어져 있고, 일부는 영어와 아랍어를 결합하고, 많은 페이지에는 손으로 쓴 현장 메모가 포함되어 있습니다. 첫 단계로 OCR을 시도하는 대신, 팀은 문제를 시각적 이해의 문제로 재구성했습니다. 스캔된 페이지 이미지를 직접 다중 모달 AI 모델로 보내 시각적으로 콘텐츠를 해석하도록 했습니다.
각 문서의 페이지는 이미지로 렌더링되어 Unity Catalog Volumes에 저장되어 깨끗하고 버전이 관리되는 기본 데이터 세트를 생성합니다. 거기에서 지능형 샘플링 전략이 처리 비용을 줄입니다. 더 짧은 문서는 전체적으로 분석되고, 더 긴 문서는 가장 유익한 섹션(제목 페이지, 서론, 결론)에서 샘플링됩니다. 이를 통해 분류 품질을 유지하면서 AI 처리량이 70% 이상 감소했습니다.
각 샘플링된 페이지는 Databricks AI Functions(ai_query)를 사용하여 분석되며, 이는 다중 모달 입력과 구조화된 JSON 출력을 기본적으로 지원합니다. 이 모델은 각 페이지 이미지를 검사하고 다음을 반환합니다.
AI Functions는 SQL 내에서 직접 실행되므로, 팀은 별도의 모델 제공 인프라를 구축하지 않고 프롬프트와 출력 스키마를 반복할 수 있었습니다. 페이지 수준 결과는 문서 수준 분류로 집계되어, 모든 문서가 다루는 내용과 적용되는 위치로 태그가 지정된 구조화되고 검색 가능한 카탈로그를 생성합니다.

물 관련 플래그가 지정된 문서 중 다수에는 MapAid의 WellMapr 모델이 의존하는 정확한 유형의 구조화된 정보, 즉 우물 위치, 시추 깊이, 수위 측정값 및 유량률이 포함되어 있습니다. 이 정보는 종종 문서 전체에 분산되어 있으며, 좌표 는 한 섹션에, 깊이 측정값은 다른 섹션에, 유량 데이터는 몇 페이지 뒤의 요약 테이블에 나타납니다. 이 데이터를 추출하고 연결하는 것이 파트너십의 주요 목표였습니다.
물 관련 각 문서에 대해 파이프라인은 분류에 사용된 샘플링된 하위 집합뿐만 아니라 모든 페이지를 처리합니다. OCR은 Foundation Model API를 통해 제공되는 다중 모달 모델을 사용하여 페이지별로 수행되며, 이 모델은 영어, 아랍어 및 손으로 쓴 현장 메모, 테이블 형식 데이터 및 혼합 형식 페이지를 포함한 복잡한 레이아웃을 처리합니다. OCR 중에 시스템은 엔티티 인식 접근 방식을 적용하여 우물 및 시추공 식별자를 앵커 엔티티로 식별하므로 여러 페이지에 걸친 레코드를 단일 사이트에 연결할 수 있습니다.
모든 페이지에서 추출된 텍스트는 통합 문서 표현으로 병합된 다음, 두 번째 패스에서 처리되어 사이트 이름, GPS 좌표, 시추 깊이, 정수위 및 펌프 테스트 유량을 캡처하는 JSON 형식으로 구조화된 레코드를 추출합니다. Databricks AI Functions는 스키마 제약 조건이 있는 응답을 적용하여 문서 전체에서 다른 형식이나 섹션에 나타나더라도 이러한 속성이 일관되게 캡처되도록 합니다. 결과는 MapAid의 WellMapr 예측 모델에 직접 통합할 준비가 된 구조화된 우물 및 시추공 레코드 세트입니다.
수백 개의 전문 수문 지질학적 분류를 수동으로 검증하려면 상당한 리소스와 깊은 도메인 전문 지식이 필 요합니다. 평가를 사후에 수행해야 하는 별도의 단계로 취급하는 대신, 팀은 파이프라인에 자동 품질 평가를 최우선 단계로 직접 구축했습니다. AI Functions를 통해 호출되는 별도의 AI 모델이 심사관 역할을 수행하여 정확성, 완전성 및 일관성을 다루는 구조화된 루브릭에서 모든 분류를 채점합니다. 각 문서에 대해 평가자는 할당된 듀이 십진 코드와 지리 태그를 샘플링된 페이지 콘텐츠와 비교하여 분류가 모델이 실제로 관찰한 내용을 기반으로 하는지 확인합니다.
각 평가는 범주 등급(우수, 좋음, 보통, 나쁨)과 점수를 설명하는 서면 근거를 모두 생성하여 파이프라인이 내리는 모든 결정에 대한 감사 추적을 만듭니다. 신뢰도 임계값 미만의 점수를 받은 문서는 수동 검토를 위해 플래그가 지정되어, 가장 중요한 사례에 제한된 인적 노력을 지시합니다. 첫 번째 전체 실행에서 분류의 작은 부분만이 수동 검토가 필요했습니다.
이러한 프로젝트는 파일 스토리지, 데이터 엔지니어링, AI 추론, 구조화된 출력 구문 분석, 품질 평가 및 거버넌스 등 데이터 및 AI 스택의 모든 계층에 영향을 미칩니다. Databricks는 단일 워크스페이스 내에서 이 모든 것을 제공했습니다. 원시 아카이브 파일은 Unity Catalog Volumes에 저장되며, 모든 파이프라인 출력은 ACID 안정성, 스키마 진화 및 전체 데이터 계보를 갖춘 Delta Lake 테이블에 기록됩니다. 파이프라인은 serverless compute의 Lakeflow Job으로 오케스트레이션되므로 MapAid는 실행 시 소비하는 만큼만 지불합니다.
전체 시스템은 Databricks Asset Bundle로 패키징되어 단일 명령으로 배포, 업데이트 및 실행할 수 있습니다. MapAid는 여러 클라우드 서비스에 대한 전문 지식 없이 유지 관리할 수 있는 자체 포함 솔루션을 받았습니다. 파이프라인 논리가 특정 처리 아카이브와 분리되어 있으므로, 동일한 시스템을 다른 물 아카이브, 다른 지역 또는 스캔된 문서의 대규모 컬렉션을 분류하고 검색 가능하게 만들어야 하는 다른 도메인에 적용할 수 있습니다.
첫 번째 전체 실행에서 파이프라인은 다음을 제공했습니다.
이 파이프라인은 도메인 전문가가 몇 주 또는 몇 달이 걸릴 작업을 몇 시간 안에 완료되는 프로세스로 줄였습니다. 이제 아카이브는 분류, 지리 또는 물 데이터의 존재 여부에 따라 검색할 수 있습니다. 좌표와 깊이 데이터가 포함된 추출된 모든 기록은 MapAid의 지하수 예측으로 직접 피드되어 시추 성공률을 높이고 도움이 필요한 지역 사회에 더 빠른 물 공급을 지원합니다.
SUDAAK가 계속해서 새 문서를 디지털화함에 따라, 이 파이프라인은 단일 명령으로 각 새 배치를 처리하여 아카이브가 성장함에 따라 카탈로그를 최신 상태로 유지할 수 있습니다. MapAid의 작업은 에티오피아와 말라위를 포함한 동아프리카 전역에 걸쳐 있으며, 대륙 전역에 유사한 분류되지 않은 아카이브가 존재합니다. 방법론과 인프라는 확장할 준비가 되었습니다.
MapAid의 최고 경영자(CEO)인 Rupert Douglas-Bate는 파트너십에 대해 다음과 같은 관점을 공유했습니다. "우리의 진화하는 AI 시스템인 WellMapr는 저렴한 비용으로 지속 가능한 지하수원을 검색하고 찾는 방식을 혁신하기 위한 것이지만, 이를 위해서는 지하수 데이터가 필요합니다. 그 목표를 달성하기 위한 우리의 임무는 로타리 인터내셔널을 통해 우리와 연결된 Databricks for Good와의 협력을 통해 크게 가속화되었습니다. Databricks for Good 프로젝트는 수단 아카이빙 지식 협회(SUDAAK)의 지원을 받아 온라인 수자원 라이브러리(OWL)를 개발하는 데 기본적이었습니다. Databricks 팀은 수단 수자원 및 토양 데이터의 대규모 비정형 아카이브를 듀이 십진 분류를 사용하여 구조화된 시스템으로 변환하는 데 도움을 주었습니다. 이를 통해 저렴한 비용으로 지속 가능한 지하수 우물 데이터를 신속하게 식별할 수 있으며, 이는 WellMapr 알고리즘 개발에 사용될 수 있습니다. MapAid는 가뭄을 완화하는 데 중요한 개발 도구로 OWL을 사용하게 된 것을 기쁘게 생각하며, 올바른 파트너가 협력하면 가장 도움이 필요한 사람들을 위해 '불가능'을 달성할 수 있음을 증명합니다."
아래에서 저희의 다른 프로 보노 프로젝트에 대해 자세히 알아보세요:
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.