주요 컨텐츠로 이동

Databricks SQL은 고객의 작업 부하를 단 3년 만에 5배 가속화합니다

오늘 발표된 새로운 기능들은 자동으로 25%의 향상을 제공합니다

DBSQL Serverless OG

Published: June 12, 2025

공지사항1분 이내 소요

Summary

  • 2022년 이후 실제 고객 작업 부하에 대한 5배의 성능 향상
  • 새로운 릴리스는 성능을 추가로 25% 향상시킵니다—자동으로, 가격 변동 없이
  • 예측 쿼리 실행은 쿼리 엔진 내부의 지속적인 피드백 루프를 통해 더 빠른 쿼리를 제공합니다
  • Photon Vectorized Shuffle은 1.5배 높은 셔플 처리량을 제공합니다

2022년부터 Databricks SQL (DBSQL) Serverless는 실제 고객 작업 부하에 걸쳐 5배의 성능 향상을 이루었습니다—100초 대시보드를 20초로 줄였습니다. 이 가속화는 지속적인 엔진 개선을 통해 이루어졌으며, 모두 자동으로 제공되며 성능 튜닝 없이 이루어졌습니다.

5배 성능 향상 DBSQL 서버리스

오늘, 우리는 더 많은 것을 추가하고 있습니다. Predictive Query Execution과 Photon Vectorized Shuffle의 출시로 쿼리는 기존 5배의 향상 위에 최대 25% 더 빨라집니다, 이로 인해 20초 대시보드가 대략 15초로 줄어듭니다. 이 새로운 엔진 개선 사항은 모든 DBSQL Serverless 창고에 자동으로 적용되며, 추가 비용 없이제공됩니다

성능 향상 25 퍼센트

예측 쿼리 실행: 반응형 복구에서 실시간 제어로

Apache Spark에서 출시될 때, 적응형 쿼리 실행 (AQE) 큰 진전이었습니다. 이를 통해 쿼리가 실행되는 동안 실제 데이터 크기에 따라 쿼리를 재계획할 수 있었습니다. 그러나 한 가지 주요한 제한이 있었습니다: 쿼리 실행 단계가 완료된 후에만 작동할 수 있었습니다. 그 지연은 데이터 왜곡이나 과도한 스파일링 같은 문제가 너무 늦게 발견되는 경우가 많았습니다.

예측 쿼리 실행(PQE) 이 바뀌었습니다. 이것은 쿼리 엔진 내부에 지속적인 피드백 루프를 도입합니다:

  • 실시간으로 실행 중인 작업을 모니터링하며, 스플릴 크기와 CPU 사용량과 같은 메트릭을 수집합니다..
  • 이것은 개입할지 결정하는 가벼운, 지능형 시스템을 사용합니다.
  • 필요한 경우, PQE는 즉시 단계를 취소하고 재계획하여불필요한 작업을 피하고 안정성을 향상시킵니다.

성능 향상 그래픽

그 결과 더 빠른 쿼리, 더 적은 놀람, 그리고 복잡한 파이프라인과 혼합 작업 부하에 대한 더 예측 가능한 성능

포톤 벡터화 셔플: 더 빠른 쿼리, 더 스마트한 디자인

Photon 은 기본적으로 C++ 엔진으로, 데이터를 컬럼 기반 배치로 처리하고, 현대 CPU를 최대한 활용하여 SQL 쿼리를 몇 배 더 빠르게 실행합니다. 셔플 작업은 대규모 데이터셋을 단계별로 재구성하는 것으로, 쿼리 처리에서 가장 무거운 작업 중 하나입니다. 

셔플 작업은 역사적으로 최적화하기 가장 어려운 유형입니다. 왜냐하면 많은 무작위 메모리 접근을 포함하기 때문입니다. 또한 데이터를 다시 작성하지 않고 무작위 접근 횟수를 줄이는 것은 거의 불가능합니다. 우리가 가진 핵심 직관은 무작위 접근의 수를 줄이는 대신, 메모리에서 각 무작위 접근 사이의 거리를 줄일 수 있다는 것이었습니다. 

이로 인해 우리는 더 높은 캐시 및 메모리 효율을 위해 Photon의 셔플을 열 기반 셔플로 완전히 다시 작성하였습니다. 

결과적으로, 셔플 컴포넌트는 데이터를 효율적으로 이동시키고, 더 적은 명령어를 실행하며, 캐시를 고려합니다. 새롭게 최적화된 셔플로 인해, 우리는 CPU 바운드 작업 부하에서 1.5배 높은 처리량 을 볼 수 있습니다.

 주요 핵심 사항들

  • 쿼리 속도를 최대 25%까지 자동으로 빠르게 할 수 있습니다.
    내부 TPC-DS 벤치마크와 실제 고객 작업 부하는 일관된 대기 시간 개선을 보여주며, 튜닝이 필요하지 않습니다.
  • 설정이 필요 없고, 재배포가 필요 없습니다—그냥 결과만 있습니다.
    업그레이드는 현재 DBSQL 서버리스 창고 전체에 롤아웃 중입니다. 설정을 변경할 필요가 없습니다.
  • CPU 바운드 작업 부하에서 가장 큰 이득.
    중요한 조인이나 퍼널 로직이 있는 파이프라인은 종종 총 실행 시간을 분 단위로 줄이는 가장 극적인 개선을 보입니다.

start하기

이 업그레이드는 현재 진행 중입니다 모든 DBSQL 서버리스 창고에 대해—행동이 필요 없습니다.

아직 DBSQL Serverless를 사용해 보지 않았나요? 지금이 딱 좋은 시기입니다. Serverless는 Lakehouse에서 분석을 실행하는 가장 쉬운 방법입니다:

  • 관리할 인프라가 없습니다
  • 즉시 탄력적
  • 성능 최적화가 기본적으로 제공됩니다

DBSQL Serverless 창고를 만들기만 하면 쿼리를 시작할 수 있습니다—튜닝 필요 없습니다. Databricks SQL을 아직 사용하지 않으신다면, serverless SQL 창고 활성화에 대해 더 알아보세요. 

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요