완벽한 지리 공간 지원을 통해 Databricks에서 최고의 데이터 '웨어'하우스(Data Where-house)를 만나보세요
작성자: 켄트 마튼
플로리다만에서 허리케인이 형성되고 있습니다. 보험사로서 귀사는 비즈니스를 위한 핵심 질문에 즉시 답해야 합니다. 예상 폭풍 경로 내에 있는 보험 계약, 위험에 처한 총 보험 가치, 가장 큰 피해를 입은 카운티, 그리고 통지해야 하는 재보험 파트너를 식별해야 합니다.
얼마 전까지만 해도 이러한 공간적 질문에 답하려면 여러 시스템을 결합해야 했습니다. 교차 영역을 위한 공간 데이터베이스, 보험 데이터를 위한 웨어하우스, 분석가 및 언더라이터와 공유할 결과를 매핑하는 시각화 도구가 필요했습니다. 외부 시스템 내에 보험 데이터를 복제해야 했을 수도 있습니다. 시스템이 추가될 때마다 위험이 늘어나고, 데이터 복사본이 생길 때마다 거버넌스가 파편화됩니다.
이제는 하나의 플랫폼에서 공간 작업을 수행할 수 있습니다. Spatial SQL이 정식 출시(GA)되었습니다. Databricks는 지리 공간 레이크하우스입니다. 웨어하우스에 공간 데이터베이스를 연결하고, 거기에 다시 매핑 도구 를 연결하던 시대는 끝났습니다. 데이터를 Iceberg 또는 Delta에 Geometry로 저장하고, 대규모로 공간 쿼리를 실행하고, 90개 이상의 공간 함수를 호출하고, Delta Sharing을 통해 공유하고, Genie에서 탐색하는 동시에 Unity Catalog로 거버넌스를 관리하세요.
Databricks 고객들은 플랫폼이 제공하는 가치에 매우 만족하고 있습니다.
Spatial SQL 덕분에 ETL 워크로드를 간소화하고, 성능이 뛰어난 쿼리를 보장하며, Delta Lake와 함께 완전히 개방된 데이터 유형을 사용하여 복잡한 지리 공간 아키텍처를 축소할 수 있었습니다. 우리는 이전에는 불가능했던 분석 기능을 활용하는 동시에 쿼리 속도가 70% 빨라졌습니다. S&P Global Energy는 고객에게 글로벌 에너지 및 원자재 시장에 대한 포괄적인 뷰를 제공하여 장기적으로 지속 가능한 가치를 창출할 수 있도록 지원합니다. — Hubert Boguski, Software Engineer II, S&P Global Energy
허리케인이 다가오는 긴박한 상황에서는 매 순간이 중요합니다. 이것이 바로 우리가 Public Preview 이후 공간 조인 및 ST_ functions의 즉각적인 성능을 지속적으로 개선해 온 이유입니다. 최신 개선 사항을 측정하기 위해 SpatialBench를 사용하여 종합적인 벤치마크를 실행했습니다. SpatialBench 전반에 걸쳐 12개 쿼리 중 8개가 Public Preview 이후 개선되었으며, 성능 향상 폭은 20%에서 15배에 달했습니다.
불리언 집합 연산(ST_Intersection, ST_Difference, ST_Union)을 위해 개선된 알고리즘을 도입했습니다. 이러한 함수는 "내 토지의 어느 부분이 예상 허리케인 경로 내에 있습니까?", "이 지역에 있는 모든 기지국의 결합된 커버리지는 어떻게 됩니까?"와 같은 질문에 답하는 데 도움이 될 수 있습니다. Databricks는 이제 이 러한 연산자를 사용하여 면적 데이터 세트를 작업할 때 이전 버전에 비해 평균 2배 더 빠릅니다. 코드를 변경할 필요 없이 기존 쿼리의 속도가 빨라집니다.
이러한 공간 연산은 프리미엄 택배 및 라스트 마일 배송 서비스를 전문으로 하는 Top Chrono와 같은 Databricks 고객의 효율성을 높여줍니다.
Databricks Spatial SQL 덕분에 유지 관리가 번거롭고 기본 연산에 SQL UDF가 필요했던 서드파티 라이브러리에 대한 의존도를 없앨 수 있었습니다. 현재 당사는 정확한 거리를 측정하기 위해 경로를 Lambert 93(프랑스)으로 투영하는 데 ST_Transform을 사용하고, 고객 구역에 진입하는 배송을 감지하는 데 ST_Within을 사용하며, 겹치는 운전자의 경로를 병합하는 데 ST_Union을 사용하는 등 다양한 기능을 활용하고 있습니다. Databricks는 당사의 배송 운영 규모에 맞춰 확장할 수 있는 완전하고 고성능의 공간 툴킷을 제공합니다. — Maxime Delobelle, Lead Data Architect, Top Chrono
공간 관련 질문의 경우, 결과를 공유하는 가장 좋은 방법은 지도를 통하는 것입니다. Spatial SQL GA의 일환으로, 이제 AI/BI는 Geometry 또는 Geography 열을 사용하여 지도를 렌더링합니다. 지리 데이터를 시각화하기 위해 더 이상 맞춤형 애플리케이션이나 서드파티 매핑 도구를 사용할 필요가 없습니다.
언더라이터가 허리케인 노 출 대시보드를 열면 위험에 처한 보험 계약, 허리케인 경로, 과거 궤적이 모두 시각 자료의 일부로 표시될 수 있습니다. 카운티별로 필터링하거나, 서로 다른 예상 경로를 비교하거나, 원하는 대로 데이터를 슬라이싱할 수 있습니다.
또한 언더라이터가 이를 위해 SQL을 작성할 필요도 없습니다. Genie Code는 단 한 번의 프롬프트로 적절한 대시보드를 생성할 수 있습니다.
Genie는 다른 열을 추론하는 것과 동일한 방식으로 지리 공간 열을 추론합니다. "허리케인 예보가 있는 플로리다 카운티 중 총 보험 가치가 100만 달러 이상인 보험 계약을 보여줘"라고 입력하면 Genie가 공간 쿼리를 생성하고, Unity Catalog 행 필터를 준수하며, 필요에 따라 지도가 포함된 대시보드를 생성할 수 있습니다.
위험 및 노출 데이터는 공유할 수 있어야 합니다. 재보험 파트너에게는 보험 수준의 출재(cession) 파일이 필요합니다. 비상 관리 기관은 내부 및 외부적으로 데이터를 공유해야 합니다. 이러한 각 교환 작업은 맞춤형 데이터 추출 파이프라인이 될 수 있습니다.
이제 Spatial SQL GA를 통해 지리 열이 있는 테이블이 Delta Sharing에서 지원됩니다. 보험사가 보험 경계가 포함된 단일 Delta Share를 게시하면, 언더라이터의 재보험 파트너가 데이터 추출이나 스키마 변환 없이 직접 이를 읽 을 수 있습니다. 액세스는 Unity Catalog 정책에 의해 제어되며 계보(lineage)가 추적됩니다.
지리 공간에 대한 Databricks의 개방성은 이제 기본 테이블 형식으로 확장됩니다. Spatial SQL을 사용하면 이제 관리형 Iceberg 테이블을 읽고 쓸 수 있으며, 외부에서 작성된 Iceberg 테이블을 읽을 수 있습니다. Databricks의 Iceberg v3 지원은 이미 GA되었으며, 이제 지리 공간 데이터 유형을 지원하도록 확장되었습니다. 오픈 레이크하우스는 사일로 대신 표준을 의미합니다.
현재 GA된 기능
Databricks의 Spatial SQL에는 다음이 포함됩니다.
참고: Geography는 일반적인 공간 함수에서 완전히 지원될 때까지 Public Preview 상태로 유지됩니다.
이제 Databricks 플랫폼은 다음에서 지리 공간 데이터 유형 작업을 지원합니다.
이 블로그에서는 보험 회사의 시나리오를 설명하지만, 지리 공간적 맥락은 모든 도메인에서 중요합니다.
오픈 레이크하우스의 여정은 Databricks 플랫폼에서 멈추지 않습니다. Databricks는 GEOMETRY 및 GEOGRAPHY 유형을 Apache Spark 4.2(2026년 여름 예정)에 기여하고 있습니다. 현재 Databricks에서 쿼리하고 있는 것과 동일한 geometry 및 geography가 모든 Spark 커뮤니티 사용자가 사용할 수 있는 동일한 일급(first-class) 유형으로 제공될 예정입니다.
제품 팀에 피드백 제공하기
추가적인 지도 시각화 요구 사항, ST 표현식 또는 기타 공간 정보 기능에 대한 요청 사항을 공유하고 싶으시다면, 이 간단한 피드백 설문조사를 작성해 주세요.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게 시물을 이메일로 받아보세요.