주요 컨텐츠로 이동

2025년 리뷰: 모든 워크로드에서 더 빨라진 Databricks SQL

데이터, 거버넌스, 사용 규모가 확장되어도 더 빨라진 분석 및 AI 워크로드

2025-performance-OG

Summary

  • 2025년 Databricks SQL은 프로덕션 워크로드 전반에서 최대 40% 더 빠른 성능을 제공했으며, 개선 사항은 자동으로 적용되었습니다.
  • 거버넌스가 적용된 공유 데이터가 있고 동시성이 더 높은 경우에도 BI, ETL, 공간 분석, AI 전반에서 쿼리가 개선되었습니다.
  • 오늘부터 Databricks SQL Serverless에서 모든 이점을 이용할 수 있어, 튜닝이나 재작성 없이 기존 워크로드의 성능과 비용 효율성이 개선됩니다.

이제 대부분의 데이터 팀에게 성능은 일회성 튜닝만을 의미하지 않습니다. 데이터, 사용자, 거버넌스 규모가 커져도 비용은 늘리지 않으면서 분석 속도는 더 빨라져야 한다는 의미입니다.

 Databricks SQL(DBSQL) 을 사용하면 플랫폼에 그러한 기대가 내장되어 있습니다. 2025년에는  튜닝, 쿼리 재작성 또는 수동 개입 없이 평균프로덕션 워크로드 전반의 성능이 최대 40% 향상되었습니다.

더 큰 이야기는 단일 벤치마크를 넘어섭니다. 더 빠른 대시보드 로드와 더 효율적인 파이프라인부터 거버넌스 및 공유 데이터가 있는 경우에도 응답성을 유지하는 query에 이르기까지 플랫폼 전반의 성능이 향상되었으며, 지리 공간 분석 및 AI 기능은 추가적인 복잡성 없이 계속해서 확장됩니다.

목표는 간단합니다. 기본적으로 워크로드의 속도를 높이고 총비용을 절감하는 것입니다. DBSQL Serverless, Unity Catalog 관리형 테이블, 예측 최적화를 통해 환경 전반에 개선 사항이 자동으로 적용되므로 엔진이 발전함에 따라 기존 워크로드도 혜택을 누릴 수 있습니다.

이 게시물에서는 쿼리 엔진, Unity CatalogDelta Sharing, 스토리지, Spatial SQL 및 AI 함수 전반에 걸쳐 2025년에 달성된 성능 향상에 대해 자세히 설명합니다.

모든 워크로드에서 빠른 쿼리 성능

Databricks SQL은 프로덕션 환경에서 반복적으로 실행되는 수백만 개의 실제 고객 쿼리를 사용하여 성능을 측정합니다. 시간이 지남에 따라 이러한 워크로드가 어떻게 변하는지 추적하여, 개별 벤치마크 대신 플랫폼 개선 및 최적화가 미치는 실제 영향을 측정합니다.

2025년에 Databricks SQL은 모든 주요 워크로드 유형에서 일관된 성능 향상을 제공했습니다. 이러한 개선 사항은 구성 변경 없이 Predictive Query Execution 및 Photon Vectorized Shuffle과 같은 엔진 수준 최적화를 통해 기본적으로 적용됩니다.

  • 탐색적 워크로드 는 가장 큰 향상을 보였으며, 평균 40% 더 빠르게 실행되어 애널리스트와 데이터 사이언티스트가 대규모 데이터세트에서 더 빠르게 반복 작업을 수행할 수 있습니다.
  • 비즈니스 인텔리전스 워크로드가 약 20% 개선되어 동시 실행 환경에서 대시보드 응답성이 향상되고 대화형 분석이 더 원활해졌습니다.
  • ETL 워크로드도 혜택을 받아 약 10% 더 빠르게 실행 되고 재작업 없이 파이프라인 런타임이 단축되었습니다.
dbsql 성능 개선
These measurements come from the Databricks Performance Index, which is derived statistically from repeating workloads and computed against billions of production queries.

1년 전에 마지막으로 Databricks SQL을 평가했다면 기존 워크로드는 현재 이미 더 빠르게 실행되고 있습니다.

Unity Catalog로 거버넌스가 확장되어도 변함없이 빠른 분석

데이터 자산이 증가함에 따라 거버넌스는 종종 숨겨진 지연 시간의 원인이 됩니다. 권한 확인, 메타데이터 액세스, 리니지 조회는 특히 대화형 및 동시성이 높은 환경에서 쿼리 속도를 저하시킬 수 있습니다.

2025년에 Unity Catalog는 이러한 오버헤드를 크게 줄였습니다. 엔드투엔드 카탈로그 지연 시간이 최대 10배 향상되었으며, 이는 카탈로그 서비스, 네트워킹 스택, Databricks Runtime 클라이언트 및 종속 서비스 전반의 최적화에 힘입은 결과입니다. 

결과는 가장 중요한 부분에서 나타납니다.

  • 대시보드 는 세분화된 액세스 제어를 사용하더라도 응답성을 유지합니다.
  • 높은 동시성 워크로드 는 메타데이터 액세스로 인한 병목 현상 없이 확장됩니다.
  • 사용자가 대규모로 관리되는 데이터를 탐색할 때 인터랙티브 분석 이 더 빠르게 느껴집니다.

이제 팀은 강력한 거버넌스와 성능 중 하나를 선택할 필요가 없습니다. Unity Catalog를 사용하면 더 많은 데이터와 더 많은 사용자로 거버넌스가 확장되어도 분석이 빠른 속도를 유지합니다.

Delta Sharing, 네이티브 데이터처럼 성능을 발휘하는 공유 데이터

팀 또는 조직 간에 데이터를 공유하는 데는 전통적으로 대가가 따랐습니다. 공유 테이블에 대한 쿼리는 종종 더 느리게 실행되었고 네이티브 데이터에 비해 최적화가 고르지 않게 적용되었습니다.

2025년에 Databricks SQL은 이러한 격차를 해소했습니다. 쿼리 실행 및 통계 전파가 개선되면서 Delta Sharing을 통해 공유된 테이블에 대한 쿼리는 최대 30% 더 빠르게 실행되었고, 이에 따라 공유 데이터 성능이 네이티브 테이블 수준으로 향상되었습니다.

Delta Sharing 및 UC 성능 개선
From 2024 to 2025, end-to-end Unity Catalog latency became 10x faster and Delta Sharing improved by 30%.

이 변경 사항은 외부 데이터가 내부 데이터처럼 작동해야 하는 시나리오에서 가장 중요합니다. 데이터 마켓플레이스, 조직 간 분석 및 파트너 중심 보고는 이제 상호 작용성이나 예측 가능성을 희생하지 않으면서 공유 데이터 세트에서 실행할 수 있습니다.

Delta Sharing을 사용하면 팀은 최신 분석에 대한 성능 기대치를 유지하면서 거버넌스가 적용된 데이터를 광범위하게 공유할 수 있습니다.

낮은 스토리지 비용, 기본 내장된 자동 최적화

데이터 볼륨이 증가함에 따라 스토리지 효율성은 총비용에서 더 큰 부분을 차지하게 됩니다. 압축은 중요한 역할을 수행하지만, 형식을 선택하고 마이그레이션을 관리하는 데에는 전통적으로 운영 오버헤드가 따랐습니다.

2025년에 Databricks는 모든 새로운 Unity Catalog 관리형 테이블의 default으로 Zstandard 압축을 설정했습니다. Zstandard는 이전 형식에 비해 쿼리 성능을 저하시키지 않으면서 최대 40%의 스토리지 비용 절감 효과 를 제공하는 오픈 소스 압축 형식입니다.

zstd 성능 개선
With Zstd, we’ve delivered up to 40% cost savings compared to older storage formats.

이러한 혜택은 새 테이블에 자동으로 적용되며, 곧 제공될 간단한 마이그레이션 도구를 통해 기존 테이블도 Zstandard로 마이그레이션할 수 있습니다. 대규모 팩트 테이블, 장기 보존 데이터세트, 빠르게 성장하는 도메인의 경우 query 작성 또는 실행 방식을 변경하지 않고도 즉시 비용이 절감됩니다.

그 결과 성능 저하 없이 새로운 튜닝 단계를 추가하지 않고도 기본적으로 스토리지 비용을 절감할 수 있습니다.

특수 시스템 없는 지리 공간적 분석

지리 공간 분석은 쿼리 실행에 큰 부담을 줍니다. 공간 조인, 범위 쿼리, 기하학적 계산은 컴퓨팅 집약적이며 대규모 환경에서는 종종 특화된 시스템이나 세심한 튜닝이 필요합니다.

2025년에 Databricks SQL은 이러한 워크로드의 성능을 크게 향상시켰습니다. 공간 SQL 쿼리는 최대 17배 더 빠르게 실행되었습니다. 이는 R-트리 인덱싱, Photon의 최적화된 공간 조인, 지능형 범위 조인 최적화와 같은 엔진 수준 최적화에 힘입은 결과입니다.

공간 성능 개선
From 2024 to 2025, spatial joins for large scale data became up to 17x faster.

이러한 개선 덕분에 팀은 표준 SQL을 사용하여 위치 데이터로 작업할 수 있으며, 엔진이 실행 복잡성을 자동으로 처리합니다. 실시간 위치 분석, 대규모 지오펜싱, 지리적 보강과 같은 사용 사례는 데이터 볼륨이 증가함에 따라 더 빠르고 일관되게 실행됩니다.

공간 분석에는 더 이상 별도의 도구나 수동 최적화가 필요하지 않습니다. 복잡한 지리 공간 워크로드는 Databricks SQL 내에서 직접 확장됩니다.

AI 함수, SQL에서 직접 사용하는 확장 가능한 AI

전통적으로 데이터에 AI를 적용하려면 웨어하우스 외부에서 작업해야 했습니다. 텍스트 분류, 문서 파싱, 번역은 종종 별도의 파이프라인을 구축하고, 모델 인프라를 관리하며, 그 결과를 분석 워크플로에 다시 결합해야 함을 의미했습니다.

AI 함수는 AI를 SQL에 직접 통합하여 해당 모델을 간소화합니다. 2025년에 Databricks SQL은 이러한 기능의 규모와 성능을 크게 확장했습니다. 새로운 배치 최적화 인프라는 ai_classify, ai_summarize,ai_translate 와 같은 함수에 대해 최대 85배 더 빠른 성능 을 제공하여, 이전에는 몇 시간이 걸리던 대규모 배치 작업을 몇 분 만에 완료할 수 있게 되었습니다.

Databricks는 또한 ai_parse_document 를 도입하고 확장성을 위해 신속하게 최적화했습니다. Databricks Model Serving에서 호스팅되는 문서 이해를 위한 특수 목적 모델은 범용 대안에 비해 최대 30배 더 빠른 성능 을 제공하여 분석 워크플로 내에서 직접 대량의 비정형 콘텐츠를 실용적으로 처리할 수 있게 해줍니다.

AI 함수 성능 개선
For large batch workloads, AI functions became up to 85x faster in 2025.

이러한 개선 사항을 통해 익숙한 SQL 인터페이스를 사용하여 지능형 문서 처리, 비정형 데이터에서 인사이트 추출, 예측 분석이 가능해집니다. AI 워크로드는 별도의 시스템이나 맞춤형 파이프라인 없이 분석 워크로드와 함께 확장됩니다.

AI Functions를 통해 Databricks SQL은 warehouse의 단순성과 성능 기대치를 유지하면서 분석을 넘어 AI 기반 워크로드로 확장됩니다.

시작하기

이러한 모든 개선 사항은 Databricks SQL Serverless에 이미 적용되었으며, 활성화하거나 구성할 필요가 없습니다.

DBSQL Serverless를 아직 사용해 보지 않으셨다면 서버리스 웨어하우스를 생성하고 쿼리를 시작해 보세요. 플랫폼이 계속 발전함에 따라 성능 및 비용 개선 사항이 자동으로 적용되어 기존 워크로드가 즉시 이점을 얻습니다.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?

ETL and BI Migration Strategies

솔루션

January 27, 2025/1분 이내 소요

Databricks로의 마이그레이션 탐색: 아키텍처와 전략적 접근법

DeepSeek R1 on Databricks

공지사항

January 31, 2025/1분 이내 소요

DeepSeek R1 on Databricks