2026년 5월 11일

아카이브 잠금 해제: 비정형 문서를 지하수 탐사용 검색 가능 데이터베이스로 변환하기

Databricks for Good이 MapAid를 도와 AI를 활용해 정적 아카이브를 수단의 물 위기를 해결하기 위한 실행 가능한 검색 엔진으로 변환한 방법

작성자: Andres David Blandon Restrepo , Mofeed Nagib

MapAid는 Databricks for Good과 협력하여 약 700개의 스캔된 수문지질학 문서를 분류 및 카탈로그화함으로써, 비정형 컬렉션을 검색 가능한 데이터베이스로 변환했습니다.
멀티모달 AI를 사용하여, 팀은 문서를 분류하고 스캔된 페이지 이미지에서 직접 물 관련 정보를 추출하는 서버리스 파이프라인을 구축했습니다.
이제 연구원들은 수초 만에 관련 과거 연구 자료를 찾고 MapAid의 지하수 예측 모델에 직접 입력되는 우물 기록에 액세스하여, 시추 결과 개선을 지원할 수 있습니다.

소개

수단 전역의 지역 사회는 식수, 농업용수 및 생존을 위해 지하수에 의존하고 있지만, 생산성이 높은 우물을 시추하는 것은 결코 보장되지 않습니다. 지질 구조가 복잡하고 대수층이 매우 다양하며, 시추에 실패할 경우 수천 달러의 비용이 발생할 수 있습니다. 수십 년간의 지질 조사 및 현장 보고서에는 결과를 개선하는 데 필요한 데이터가 포함되어 있지만, 이 정보는 아카이브 곳곳에 흩어져 있고 체계적으로 정리된 적이 없어 가장 필요한 사람들에게 보이지 않는 상태로 남아 있었습니다.

MapAid는 스탠퍼드 대학교에서 설립된 비영리 단체로, 주로 아프리카의 인도주의 및 개발 행위자들이 AI 기반 매핑을 통해 데이터 기반 의사결정을 내릴 수 있도록 지원하는 것을 미션으로 하고 있습니다. 이들의 대표적인 도구인 WellMapr 앱(무료 사용 가능)은 AI와 공간정보 데이터를 사용하여 천층 지하수 구역을 식별하고, 소농들의 식수 및 농업용수를 위한 저비용 시추를 안내합니다. 이러한 모델의 중요한 입력 데이터는 우물, 시추공 및 대수층 지질에 대한 과거 데이터입니다.

수단 지식 아카이브 협회(SUDAAK)는 이 데이터의 가장 풍부한 컬렉션 중 하나를 유지 관리하고 있습니다. wossac.com에서 공개적으로 제공되는 지질 조사, 우물 시추 보고서 및 현장 연구를 포함하여 총 5,000페이지가 넘는 약 700개의 스캔된 PDF, TIFF, JPG 파일이 이에 해당합니다. 하지만 데이터를 이용할 수 있다는 것과 데이터에 쉽게 접근할 수 있다는 것은 다릅니다. 수단의 특정 지역에서 시추공 데이터를 찾는 연구자는 수백 개의 문서를 수동으로 일일이 찾아보아야 합니다. 데이터는 디지털화되었지만, 검색 시스템이 없어 활용되지 못한 채 남아 있었습니다.

멀티모달 AI를 활용한 스캔 문서 분류

Databricks는 MapAid와 협력하여 아카이브의 모든 문서를 분류하고, 지리 및 주제 메타데이터 태그를 지정하며, 물 관련 문서에서 정형화된 우물 및 시추공 레코드를 추출하는 AI 기반 파이프라인을 구축했습니다. 이 시스템은 전적으로 Databricks에서 실행되며 단일 명령어로 배포할 수 있도록 패키징되어 있습니다. 이 글에서는 기술적 접근 방식과 대규모 비정형 스캔 문서 컬렉션에서 정형화된 지식을 추출하려는 모든 조직에 이 방식을 어떻게 일반화하여 적용할 수 있는지 살펴봅니다.

이 아카이브는 기존의 텍스트 추출 방식을 적용하기 어려운 과제들을 안고 있었습니다. 문서들은 수십 년 된 실제 보고서의 스캔본으로, 내장된 텍스트 레이어가 없습니다. 일부 페이지는 기울어져 있고, 영어와 아랍어가 혼용되어 있으며, 손으로 쓴 현장 메모가 포함된 경우도 많습니다. 팀은 첫 단계로 OCR을 시도하는 대신, 문제를 시각적 이해의 영역으로 재정의했습니다. 즉, 스캔된 페이지 이미지를 멀티모달 AI 모델로 직접 보내 콘텐츠를 시각적으로 해석하도록 한 것입니다.

각 문서의 페이지는 이미지로 렌더링되어 Unity Catalog Volumes에 저장되며, 이를 통해 깨끗하고 버전 관리가 가능한 기본 데이터 세트가 생성됩니다. 여기서 지능형 샘플링 전략을 통해 처리 비용을 절감합니다. 짧은 문서는 전체를 분석하고, 긴 문서는 가장 정보가 많은 섹션(표지, 서론, 결론)에서 샘플을 추출합니다. 이를 통해 분류 품질을 유지하면서 AI 처리량을 70% 이상 줄일 수 있었습니다.

샘플링된 각 페이지는 멀티모달 입력과 정형화된 JSON 출력을 기본적으로 지원하는 Databricks AI Functions(ai_query)를 사용하여 분석됩니다. 모델은 각 페이지 이미지를 검토하고 다음을 반환합니다.

세계적인 도서관 분류 체계인 듀이십진분류법(Dewey Decimal) 분류 코드
콘텐츠에서 참조된 수단의 지리 정보
페이지에 우물, 시추공 또는 대수층 데이터가 포함되어 있는지 여부를 나타내는 물 관련성 플래그

AI Functions는 SQL 내에서 직접 실행되므로, 팀은 별도의 모델 서빙 인프라를 구축하지 않고도 프롬프트와 출력 스키마를 반복해서 개선할 수 있었습니다. 페이지 수준의 결과는 문서 수준의 분류로 집계되어, 모든 문서에 다루는 내용과 적용되는 위치에 대한 태그가 지정된 정형화되고 검색 가능한 카탈로그를 생성합니다.

그림 1: 문서 파이프라인: 추출, 분류, 평가 및 선택적으로 OCR을 통한 수자원 데이터 추출

정형화된 우물 및 시추공 레코드 추출

물 관련 플래그가 지정된 많은 문서에는 MapAid의 WellMapr 모델이 의존하는 정형 정보, 즉 우물 위치, 시추 깊이, 지하수위 측정값, 취수량 등이 정확히 포함되어 있습니다. 이러한 정보는 문서 전체에 분산되어 있는 경우가 많아서, 좌표는 한 섹션에 나타나고 깊이 측정값은 다른 섹션에 나타나며 취수량 데이터는 몇 페이지 뒤의 요약 표에 나타나기도 합니다. 이 데이터를 추출하고 연결하는 것이 이번 파트너십의 핵심 목표였습니다.

물 관련성이 있는 각 문서에 대해 파이프라인은 분류에 사용된 샘플링된 하위 세트뿐만 아니라 모든 페이지를 처리합니다. OCR은 Foundation Model API를 통해 제공되는 멀티모달 모델을 사용하여 페이지별로 수행되며, 이 모델은 영어, 아랍어는 물론 손으로 쓴 현장 메모, 표 형식 데이터, 혼합 형식 페이지를 포함한 복잡한 레이아웃을 처리합니다. OCR을 수행하는 동안 시스템은 개체명 인식(entity recognition) 접근 방식도 적용하여 우물 및 시추공 식별자를 앵커 개체로 식별함으로써 여러 페이지에 걸쳐 있는 레코드를 단일 사이트에 다시 연결할 수 있도록 합니다.

모든 페이지에서 추출된 텍스트는 통합된 문서 표현으로 병합된 다음, 두 번째 패스에서 처리되어 사이트 이름, GPS 좌표, 시추 깊이, 정적 수위 및 펌프 테스트 취수량을 캡처하는 JSON 형식의 정형 레코드로 추출됩니다. Databricks AI Functions는 스키마 제약 조건이 있는 응답을 강제하여, 이러한 속성이 문서의 서로 다른 형식이나 섹션에 나타나더라도 일관되게 캡처되도록 보장합니다. 그 결과 MapAid의 WellMapr 예측 모델에 직접 통합할 수 있는 정형화된 우물 및 시추공 레코드 세트가 생성됩니다.

대규모 자동 품질 평가

수백 개의 전문적인 수리지질학적 분류를 수동으로 검증하려면 상당한 리소스와 깊은 도메인 전문 지식이 필요합니다. 평가를 사후에 수행해야 하는 별도의 단계로 취급하는 대신, 팀은 자동화된 품질 평가를 파이프라인에 최우선 단계로 직접 구축했습니다. AI Functions를 통해 호출되는 별도의 AI 모델이 평가자 역할을 하여 정확성, 완전성, 일관성을 다루는 정형화된 루브릭에 따라 모든 분류의 점수를 매깁니다. 각 문서에 대해 평가자는 할당된 듀이십진분류법 코드 및 지리 태그를 샘플링된 페이지 콘텐츠와 비교하여, 모델이 실제로 관찰한 내용에 의해 분류가 뒷받침되는지 확인합니다.

각 평가는 범주형 등급(최우수, 우수, 보통, 미흡)과 점수를 설명하는 서면 근거를 모두 생성하여, 파이프라인이 내리는 모든 결정에 대해 감사 가능한 추적 경로를 만듭니다. 신뢰도 임계값 미만의 점수를 받은 문서는 수동 검토 대상으로 플래그가 지정되어, 한정된 인적 노력을 가장 중요한 케이스에 집중시킵니다. 첫 번째 전체 실행에서는 아주 적은 비율의 분류만 사람의 개입이 필요했습니다.

Databricks에 독립형 솔루션 배포

이와 같은 프로젝트는 파일 스토리지, 데이터 엔지니어링, AI 추론, 정형 출력 파싱, 품질 평가, 거버넌스 등 데이터 및 AI 스택의 모든 레이어에 걸쳐 있습니다. Databricks는 이 모든 것을 단일 작업 공간 내에서 제공했습니다. 원시 아카이브 파일은 Unity Catalog Volumes에 저장되며, 모든 파이프라인 출력은 ACID 안정성, 스키마 진화 및 전체 데이터 계보(lineage)를 갖춘 Delta Lake 테이블에 기록됩니다. 파이프라인은 서버리스 컴퓨팅 상에서 Lakeflow Job으로 오케스트레이션되므로, MapAid는 각 실행이 소비하는 만큼만 비용을 지불합니다.

전체 시스템은 Databricks Asset Bundle로 패키징되어 단일 명령어로 배포, 업데이트 및 실행할 수 있습니다. MapAid는 여러 클라우드 서비스에 대한 전문 지식 없이도 유지 관리할 수 있는 독립형 솔루션을 제공받았습니다. 파이프라인 로직이 처리 대상인 특정 아카이브와 분리되어 있으므로, 대규모 스캔 문서 컬렉션을 분류하고 검색 가능하게 만들어야 하는 다른 수자원 아카이브, 다른 지역 또는 다른 도메인에도 동일한 시스템을 적용할 수 있습니다.

현장에서의 의미

첫 번째 전체 실행에서 파이프라인은 다음과 같은 성과를 거두었습니다.

654개의 문서 및 5,570페이지 분류 완료
3시간 미만에 완료
자동 평가기에서 "우수" 또는 "좋음"으로 평가한 분류의 95%
물 관련 데이터를 포함하는 것으로 확인된 아카이브의 약 50%
위치 이름, 깊이 및 수량 측정값과 함께 추출된 299개의 정형화된 우물 및 시추공 기록

이 파이프라인은 도메인 전문가가 몇 주 또는 몇 달이 걸렸을 작업을 단 몇 시간 만에 완료되는 프로세스로 단축했습니다. 이제 아카이브는 분류, 지리 또는 물 데이터의 존재 여부로 검색할 수 있습니다. 좌표 및 깊이 데이터가 포함된 모든 추출된 기록은 MapAid의 지하수 예측에 직접 입력되어 시추 성공률을 높이고 도움이 필요한 지역 사회에 물을 더 빠르게 공급할 수 있도록 지원합니다.

SUDAAK가 새로운 문서를 계속 디지털화함에 따라, 파이프라인은 단 하나의 명령으로 각 새로운 배치를 처리할 수 있어 아카이브가 성장하더라도 카탈로그를 최신 상태로 유지할 수 있습니다. MapAid의 작업은 에티오피아와 말라위를 포함한 동아프리카 전역에 걸쳐 있으며, 아프리카 대륙 전역에 이와 유사한 미분류 아카이브가 존재합니다. 이 방법론과 인프라는 확장할 준비가 되어 있습니다.

MapAid의 최고경영자(CEO)인 Rupert Douglas-Bate는 이번 파트너십에 대해 다음과 같은 견해를 공유했습니다. "우리가 지속적으로 발전시키고 있는 AI 시스템인 WellMapr는 지속 가능한 지하수 자원을 저렴한 비용으로 탐색하고 위치를 파악하는 데 혁신을 일으키고자 하지만, 이를 위해서는 우물물 데이터가 필요합니다. 이 목표를 달성하기 위한 우리의 사명은 국제로타리를 통해 우리와 연결된 Databricks for Good과의 협력 덕분에 크게 가속화되었습니다. Databricks for Good 프로젝트는 수단 지식 아카이브 협회(SUDAAK)의 지원을 받아 온라인 물 도서관(OWL)을 개발하는 데 핵심적인 역할을 했습니다. Databricks 팀은 역사적인 수단 물 및 토양 데이터의 대규모 비정리 아카이브를 듀이 십진분류법을 사용하여 정형화된 시스템으로 변환하도록 도왔습니다. 이를 통해 지속 가능한 지하수 우물 데이터를 저렴한 비용으로 신속하게 식별할 수 있게 되었으며, 이제 이 데이터를 WellMapr 알고리즘 개발에 활용할 수 있습니다. MapAid는 가뭄을 완화하기 위한 필수적인 개발 도구로 OWL을 사용하게 되어 기쁘게 생각하며, 올바른 파트너가 힘을 합치면 가장 도움이 필요한 사람들을 위해 '불가능'을 실현할 수 있음을 증명했습니다."

아래에서 다른 프로보노 프로젝트에 대해 자세히 알아보세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)