주요 컨텐츠로 이동
Platform blog

Databricks SQL의 2023년 리뷰(1부): AI로 최적화된 성능과 서버리스 컴퓨팅

AI를 활용한 데이터 웨어하우징의 재창조
이 포스트 공유하기

이 글은 2023년 Databricks SQ의 주요 발전 영역을 되돌아보는 블로그 시리즈의 1부이며, 첫 번째 글에서는 성능에 초점을 맞추고 있습니다. 컴퓨팅 시간이 비용을 좌우하는 현대의 SaaS 환경에서, 데이터 웨어하우스의 성능은 더 빠른 사용자 경험과 더 나은 가격 대비 성능을 제공하기 때문에 특히 중요합니다. 저희는 AI를 사용하여 수동 튜닝의 필요성을 줄이면서 Databricks SQL의 다음 단계의 성능 향상을 제공하기 위해 열심히 노력해 왔습니다.

AI로 최적화된 성능

최신 데이터 웨어하우스는 새로운 데이터, 더 많은 사용자 또는 새로운 사용 사례가 들어올 때마다 경험있는 관리자가 지속적으로 수동 튜닝해야 하는 워크로드별 설정으로 가득 차 있습니다. 이러한 '손잡이'는 데이터를 물리적으로 저장하는 방법부터 컴퓨팅을 활용하고 확장하는 방법까지 다양합니다. 지난 1년 동안 데이터브릭스는 데이터 인텔리전스 플랫폼이라는 비전에 맞춰 이러한 성능 및 관리상의 어려움을 해소하기 위해 AI를 적용해 왔습니다:

  1. 서버리스 컴퓨팅은 데이터브릭스 SQL의 기반이며, 즉각적이고 탄력적인 컴퓨팅으로 최고의 성능을 제공하여 비용을 절감하고, 인프라 관리 대신 비즈니스 가치에 더 집중할 수 있도록 지원합니다.
  2. 예측 I/O(Predictive I/O)는 신경망을 사용해 지능적으로 데이터를 미리 가져와 인덱싱과 같은 성능 튜닝이 필요하지 않습니다. 또한 성능 저하 없이 merge-on-read 기술을 사용해 더 빠른 쓰기를 달성합니다. 초기 고객들은 포인트 조회 효율성이 35배 향상되고, MEREG 작업의 경우 2~6배, DELETE 작업의 경우 2~10배의 놀라운 성능 향상의 혜택을 누리고 있습니다.
  3. 자동 데이터 레이아웃은 쿼리 패턴에 따라 파일 크기를 지능적으로 최적화하여 자동으로 최상의 성능을 제공합니다. 이를 통해 비용과 성능을 자체적으로 관리합니다.
  4. 결과 캐싱은 워크스페이스의 모든 서버리스 웨어하우스에서 로컬 캐시와 영구 원격 캐시가 있는 2계층 시스템을 사용해 쿼리 결과 캐싱을 개선합니다. 이러한 캐싱 메커니즘은 쿼리 요구사항과 사용 가능한 리소스에 따라 자동으로 관리됩니다.
  5. 예측 최적화 (public preview, blog): 데이터브릭스는 OPTIMIZE, VACUUM, ANALYZE, CLUSTERING 명령을 실행하여 파일 크기와 클러스터링을 원활하게 최적화합니다. 이 기능을 통해 Anker Innovations는 쿼리 성능을 2.2배 향상하는 동시에 스토리지 비용을 50% 절감하는 효과를 얻었습니다.
  6. Liquid Clustering (public preview, blog): 클러스터링 키를 기반으로 새로운 데이터가 들어올 때 데이터 레이아웃을 자동으로 지능적으로 조정합니다. 따라서 과잉 또는 불충분 파티셔닝 문제를 방지하고 Z-order에 비해 클러스터링 속도가 최대 2.5배 빨라집니다.

이러한 혁신을 통해 사용자의 복잡성이나 비용을 증가시키지 않으면서도 성능을 크게 향상시킬 수 있었습니다.

ETL 워크로드를 위한 동급 최고 성능과 비용 효율성을 지속적으로 제공

Databricks SQL은 오랫동안 ETL 워크로드의 성능과 비용 효율성 측면에서 선두주자로 자리매김해 왔습니다. 데이터 볼륨이 계속 증가함에 따라 예측 IO(Predictive IO)와 같은 AI 기반 기능에 대한 투자를 통해 이러한 선두 자리를 유지하고 비용 이점을 강화할 수 있습니다. 이는 ETL 워크로드 처리에서 분명하게 드러나는데, Databricks SQL은 업계 경쟁사 대비 최대 9배의 비용 우위를 점하고 있습니다(아래 벤치마크 참조).

Total cost for completing ETL benchmark

BI를 위한 동급 최고의 동시성으로 저지연 성능(low-latency performance) 제공

Databricks SQL은 이제 적은 수의 동시 사용자(100명 미만)를 위한 저지연 쿼리 성능에서 업계 최고의 경쟁 제품을 능가하며, 동시 사용자 수가 1,000명 이상으로 증가함에 따라 9배 더 나은 성능을 제공합니다(아래 벤치마크 참조). 또한 서버리스 컴퓨팅은 필요할 때 몇 초 만에 웨어하우스를 시작하므로 항상 클러스터를 실행하거나 수동으로 종료할 필요가 없어 상당한 비용을 절감할 수 있습니다. 워크로드 수요가 줄어들면 SQL Serverless는 자동으로 클러스터를 축소하거나 웨어하우스를 종료하여 비용을 낮게 유지합니다.

Median latency for queries from BI workloads

AI로 최적화된 데이터 웨어하우징이 나아가는 길

통합 거버넌스, 선호하는 도구로 구성된 풍부한 에코시스템, 종속을 방지하는 개방형 형식과 API를 갖춘 Databricks SQL은 레이크하우스가 최고의 데이터 웨어하우스로 불리는 이유 중 하나입니다. SQL 워크로드를 비용 최적화, 고성능, 서버리스, 그리고 매끄럽게 통합된 최신 아키텍처로 마이그레이션하려는 경우, Databricks SQL이 솔루션이 될 수 있습니다. 지금 바로 PoC(proof-of-concept)을 시작하고 그 이점을 직접 경험해 보려면 데이터브릭스 담당자와 상담하세요. 데이터브릭스 팀은 데이터로 더 빠르게 혁신하는 데 Databricks SQL이 적합한 선택인지 평가할 수 있도록 도와드릴 준비가 되어 있습니다.

AI 기반 최적화를 사용하여 데이터브릭스 SQL에서 동급 최고의 성능을 달성하는 방법에 대해 자세히 알아보려면, 데이터+AI 서밋 행사에서 레이놀드 신(Reynold Xin)의 기조연설데이터브릭스 SQL 서버리스: ML을 사용하여 최고의 가격/성능을 달성하는 방법을 시청하세요.

Databricks 무료로 시작하기

관련 포스트

Platform blog

Announcing the General Availability of Databricks SQL Serverless !

Today, we are thrilled to announce that serverless compute for Databricks SQL is Generally Available on AWS and Azure! Databricks SQL (DB SQL)...
Engineering blog

Understanding Caching in Databricks SQL: UI, Result, and Disk Caches

Caching is an essential technique for improving the performance of data warehouse systems by avoiding the need to recompute or fetch the same...
Platform blog

Announcing the Public Preview of Predictive I/O for Updates

Previously, we’ve shown you how a new technology called Predictive I/O could improve selective reads by up to 35x for CDW customers without...
Platform blog

Announcing the General Availability of Predictive I/O for Reads

Today, we are excited to announce the general availability of Predictive I/O for Databricks SQL (DB SQL) : a machine learning powered feature...
모든 플랫폼 블로그 포스트 보기