Databricks 플랫폼이 어떻게 더 빠르고, 확장 가능하며, 효율적인 지진 데이터 처리를 가능하게 했는지 보여주기.
석유 및 가스 산업은 탄소화합물을 안전하고 효율적으로 탐사하고 추출하기 위해 석유 지진 데이터에 크게 의존합니다. 그러나, 대량의 석유 지진 데이터를 처리하고 분석하는 것은 상당한 계산 자원과 전문 지식을 필요로 하는 어려운 작업일 수 있습니다.
선두 에너지 회사인 Equinor는 Databricks 데이터 인텔리전스 플랫폼을 사용하여 탐사용 지진 데이터 변환 워크플로우 중 하나를 최적화하였으며, 이를 통해 데이터 관찰성을 향상시키면서도 상당한 시간 및 비용 절감을 이루었습니다.
Equinor의 목표는 4D 세이스믹 해석 워크플로 중 하나를 향상시키는 것이었으며, 이는 시간이 지남에 따른 저류층 변화의 탐지 및 분류를 자동화하고 최적화하는 데 초점을 맞추었습니다. 이 과정은 드릴링 대상을 식별하고, 비용이 많이 드는 건조한 우물의 위험을 줄이며, 환경 친화적인 드릴링 방법을 촉진하는 데 도움이 됩니다. 주요 사업 기대치는 다음과 같습니다:
최적의 드릴링 대상: 다가오는 수십 년 동안 새로운 우물을 많이 드릴링하기 위해 대상 식별을 개선합니다.
더 빠르고, 비용 효율적인 분석: 자동화를 통해 4D 지진 분석의 시간과 비용을 줄입니다.
더 깊은 저장층 통찰력: 더 많은 지하 데이터를 통합하여 해석력을 향상시키고 의사결정을 개선하세요.
지진 데이터 이해하기
지진 큐브: 지하 표면의 3D 모델
지진 데이터 취득은 공기 총을 배치하여 소리 파동을 생성하고, 이 파동이 지하 구조물에서 반사되어 수중 전화기에 의해 캡처되는 과정을 포함합니다. 이 센서들은 지진선박에 의해 견인되는 스트리머에 위치하거나 해저에 배치되어, 나중에 지하 지질학의 상세한 3D 이미지를 생성하기 위해 원시 데이터를 수집합니다.
파일 형식: SEG-Y (탐사 지질학자 협회) - 1970년대에 개발된 석유 지진 데이터를 저장하기 위한 독점 파일 형식, 테이프 저장에 최적화되어 있습니다.
데이터 표현: 처리된 데이터는 3D 큐브로 저장되어 지하 구조에 대한 종합적인 시각을 제공합니다.
그림 1: 지진 조사 - 지진 데이터 획득. 원시 데이터는 그 후 3D 큐브로 처리됩니다. 2015년 6월 15일에 검색됨. "폴란드 해상 작업의 지질 기술 측정 및 실천의 특이성"에서 가져온 것입니다, Krzysztof Wróbel, Bogumił Łączyński, 해상 항해 및 해상 안전에 관한 국제 저널, 9권, 4호, 2015년 12월
지진 지평선: 지질 경계 매핑
석유 지진 지평선은 지하 연속 표면을 나타내는 석유 지진 데이터의 해석입니다. 이러한 지평선은 암석 특성이나 심지어 유체 함량의 변화에 연결된 지질 경계를 나타냅니다. 이러한 경계에서 석유 지진 파의 반사를 분석함으로써, 지질학자들은 주요 지하 특징을 식별할 수 있습니다.
4D 지진 차이 큐브: 같은 물리적 영역의 두 지진 큐브를 비교하여 시간에 따른 변화를 추적합니다. 이 큐브는 일반적으로 몇 달 또는 몇 년 간격으로 획득됩니다.
4D 지진 차이 맵: 이 맵은 4D 지진 큐브의 속성 또는 특징을 포함하여 지진 데이터의 특정 변화를 강조하고, 저류 분석을 돕습니다.
그러나, 몇 가지 문제점들이 기존 파이프라인의 효율성과 확장성을 제한합니다:
서브 최적 분산 처리: 단일 노드 클러스터에서 병렬로 실행되는 여러 독립적인 Python 작업에 의존하고 있어 비효율적입니다.
제한된 복원력: 실패에 취약하며 오류 허용 또는 자동 복구 메커니즘이 부족합니다.
수평 확장성 부족: 상당한 메모리 (예: 112 GB)를 가진 고구성 노드가 필요하며, 비용을 높입니다.
높은 개발 및 유지 보수 노력: 파이프라인을 관리하고 문제를 해결하는 데 상당한 엔지니어링 자원이 필요합니다.
제안된 솔루션 아키텍처
이러한 문제점들을 해결하기 위해, 우리는 파이프라인을 Ray 와 Apache Spark™ 를 사용한 분산 솔루션으로 재구성하였고, 이는 Databricks 플랫폼에서 Unity 카탈로그에 의해 관리되었습니다. 이 접근법은 확장성, 복원력, 비용 효율성을 크게 향상시켰습니다.
Fig. 3: Proposed Architecture Diagram
우리는 Databricks 플랫폼에서 다음의 기술들을 사용하여 솔루션을 구현하였습니다:
Apache Spark™: 대규모 데이터 처리 및 분석을 위한 오픈 소스 프레임워크로, 효율적이고 확장 가능한 계산을 보장합니다.
Databricks 워크플로우: 데이터 엔지니어링, 데이터 과학, 분석 작업을 조정하기 위해 사용됩니다.
Delta Lake: ACID 트랜잭션을 통한 신뢰성, 확장 가능한 메타데이터 처리, 통합 배치 및 스트리밍 데이터 처리를 보장하는 오픈 소스 저장 계층입니다. 이는 Databricks에서 기본 저장 형식으로 사용됩니다.
Ray: 고성능 분산 컴퓨팅 프레임워크로, Python 애플리케이션을 확장하고 SegyIO 및 기존 처리 로직을 활용하여 SEG-Y 파일의 분산 처리를 가능하게 합니다.
SegyIO: SEG-Y 파일을 처리하기 위한 Python 라이브러리로, 석유 지진 데이터의 원활한 처리를 가능하게 합니다.
주요 이점:
이 재구성된 지진 데이터 파이프라인은 기존 파이프라인의 비효율성을 해결하면서 확장성, 복원력, 비용 최적화를 도입하였습니다. 다음은 실현된 주요 이점들입니다:
상당한 시간 절약: 중간 결과(예: 3D 및 4D 큐브)를 유지함으로써 중복 데이터 처리를 제거하고, 필요한 데이터셋만 재처리할 수 있게 하였습니다.
비용 효율성: 맵 생성과 같은 특정 계산 단계에서 비용을 최대 96%까지 줄였습니다.
실패에 대한 복원력 있는 설계: Apache Spark의 분산 처리 프레임워크를 활용하여 장애 허용성과 자동 작업 복구를 도입하였습니다.
수평 확장성: 기존 솔루션의 제한을 극복하여 데이터 볼륨이 증가함에 따라 효율적으로 확장할 수 있게 하였습니다.
표준화된 데이터 형식: 오픈, 표준화된 데이터 형식을 채택하여 하류 처리를 간소화하고, 분석을 단순화하며, 데이터 공유를 개선하고, 거버넌스와 품질을 향상시켰습니다.
결론
이 프로젝트는 Databricks와 같은 현대 데이터 플랫폼이 전통적인 세이스믹 데이터 처리 워크플로를 변형시키는 데 큰 잠재력을 보여줍니다. Ray, Apache Spark 및 Delta와 같은 도구를 통합하고 Databricks' 플랫폼을 활용함으로써, 우리는 측정 가능한 이점을 제공하는 솔루션을 달성했습니다:
효율성 향상: 더 빠른 데이터 처리와 장애 허용성.
비용 절감: 지진 데이터 분석에 대한 더 경제적인 접근 방식.
유지 관리성 향상: 간소화된 파이프라인 아키텍처와 표준화된 기술 스택으로 코드 복잡성과 개발 오버헤드를 줄였습니다.
재설계된 파이프라인은 지진 워크플로우를 최적화하는 데 그치지 않고, 확장 가능하고 견고한 기반을 마련하여 미래의 개선을 위한 기반을 마련하였습니다. 이는 비슷한 비즈니스 결과를 추구하는 다른 조직들에게 유용한 모델로 작용합니다.
감사의 말
이번 프로젝트에 기여한 Equinor 데이터 엔지니어링, 데이터 과학 및 분석 커뮤니티, 그리고 Equinor 연구 및 개발 팀에게 특별한 감사를 드립니다.
“전문 서비스와 함께 일하는 데 있어 훌륭 한 경험 – 매우 높은 기술적 역량과 의사소통 능력. "상당히 짧은 시간 안에 중요한 성과를 이루었습니다" - 안톤 에스코프