2024년 9월 10일

Databricks SQL의 새로운 기능

더 쉽고 빠르며 비용 효율적인 데이터 웨어하우징

Databricks SQL을 그 어느 때보다 더 간편하고 빠며 저렴하게 만들어 주는 최신 신기능과 성능 개선 사항을 공유하게 되어 기쁩니다. 현재 7,000개 이상의 고객사가 Databricks SQL을 데이터 웨어하우스로 사용하고 있으며, 이는 저희 역사상 가장 빠르게 성장하는 제품이 되었습니다!

가장 뛰어난 데이터 웨어하우스는 레이크하우스입니다

Databricks SQL은 레이크하우스 아키텍처를 기반으로 구축되었습니다. 저희는 2020년 초에 이 접근 방식을 개척했으며, Databricks Data Intelligence Platform의 일부로 Databricks SQL (DBSQL)을 출시했습니다. 저희는 독립형의 개별 데이터 웨어하우스가 높은 비용과 독점적인 특성 때문에 레거시 시스템이 될 것이라고 예측했으며, 오늘날 이것이 사실임을 보여주는 강력한 증거를 보고 있습니다. MIT Technology Insights 보고서에 따르면 기업의 74%가 이미 레이크하우스 아키텍처를 도입했습니다. 이 기업들이 사용할 수 있는 다양한 레이크하우스 기반 데이터 플랫폼이 최근 Forrester Wave for Data Lakehouses에서 평가되었으며, 여기서 Databricks는 다른 모든 플랫폼과 비교하여 현재 제공 서비스 및 전략 카테고리 모두에서 가장 높은 점수를 받으며 리더(Leader)로 선정되었습니다!

고객과의 대화에서 확인한 레이크하우스의 장점은 두 가지입니다. 바로 더 낮은 총 비용과 AI 및 BI를 위한 하나의 통합 플랫폼입니다. 레이크하우스를 사용하면 오픈 형식의 단일 데이터 사본을 모든 AI 및 BI 워크로드에 사용할 수 있습니다. 이로 인해 여러 플랫폼 간에 데이터를 동기화하는 데 필요한 데이터 중복 및 복제가 사라져 비용이 크게 절감되고 아키텍처가 단순해집니다.

AI 기반 성능: 4배 향상

지난해 저희는 휴리스틱과 비용 최적화 도구에 기반한 시스템 성능에 대한 기존의 접근 방식이 대부분의 경우 틀렸다고 선언했습니다! 당시에는 그러한 기술이 최선이었지만, 현재의 AI 시대는 완전히 새로운 접근 방식을 가능하게 했습니다. 오늘날 저희는 플랫폼의 모든 레이어에서 차세대 AI 시스템을 사용하여 시스템 성능 향상을 새로운 수준으로 끌어올렸습니다. 이러한 AI 시스템은 워크로드를 분석하고 효율성과 성능을 자동으로 향상시킵니다.

Liquid Clustering(현재 GA)은 데이터 레이아웃을 관리하여 클러스터링 키를 자동으로 선택하고, 데이터 재작성 없이 클러스터링 키를 재정의할 수 있는 유연성을 제공합니다! 이를 통해 데이터 레이아웃이 시간이 지남에 따라 분석 요구 사항과 함께 발전할 수 있으며, 테이블 파티셔닝 및 ZORDER를 대체하므로 더 이상 데이터 레이아웃을 미세 조정할 필요가 없습니다.
Predictive I/O("인덱스 없는 인덱싱"으로도 알려짐)는 인덱스 생성이나 오버헤드 유지 관리 없이도 인덱스의 성능을 제공합니다. Databricks 시스템의 발전 덕분에 이제 예측 지연 시간의 눈에 띄는 증가 없이 한 자릿수 더 큰 파라미터를 가진 모델과 입력 피처 벡터를 실행할 수 있습니다. 이를 통해 Predictive I/O가 훨씬 더 광범위한 워크로드를 지원할 수 있습니다.
Intelligent Workload Management는 머신러닝 모델을 사용하여 서버리스 SQL 웨어하우스 리소스를 최적화함으로써 높은 동시성을 가장 잘 지원합니다. 이는 수많은 분석가와 쿼리가 데이터 웨어하우스에 몰리는 대규모 BI 워크로드에 적합합니다. Intelligent Workload Management는 이러한 워크로드가 적절한 양의 리소스를 신속하게 확보할 수 있도록 보장합니다.
Predictive Optimization(현재 GA)은 성능 최적화에 도움이 되는 테이블의 일반적인 유지 관리 작업을 자동으로 처리합니다. Databricks는 클러스터링, 파일 크기 조정, 파일 정리(vacuuming) 등 유지 관리 작업의 이점을 얻을 수 있는 테이블을 식별하고 수동 작업 없이 자동으로 실행해 줍니다.

이는 내장된 AI 시스템의 일부에 불과하며, 가장 좋은 점은 작동 방식의 세부 사항을 알 필요가 없다는 것입니다. 마법처럼 자동으로 실행됩니다. 저희가 이 분야에 쏟는 시간을 고려할 때, 성능에 집착하고 있다고 해도 과언이 아니며, 시간이 지나면서 성능이 얼마나 달라졌는지 확인할 수 있습니다. 고객의 반복적인 워크로드를 살펴보았을 때, 동일한 BI 쿼리의 성능이 2년 전보다 73% 향상되었습니다! 이는 4배 더 빠른 속도입니다!

SQL 분석가를 위한 AI Assistant

또한 사용자 경험에 AI를 주입하여 SQL 분석가가 Databricks SQL을 더 쉽고 생산적으로 사용할 수 있도록 했습니다. 현재 정식 출시(GA)된 Databricks AI Assistant는 SQL 분석가가 SQL을 생성, 편집 및 디버깅할 수 있도록 돕는 내장형 컨텍스트 인식 AI 어시스턴트입니다. 이 어시스턴트는 저희 플랫폼의 동일한 데이터 인텔리전스 엔진을 기반으로 구축되었으므로 비즈니스의 고유한 맥락을 이해합니다. 이 어시스턴트는 SQL 분석가를 위해 쿼리를 초안 작성하거나 오류를 수정하는 능력이 뛰어나 수많은 시간을 절약하고 생산성을 높여주기 때문에 Databricks에서 빠르게 도입되고 있습니다.

SQL을 통해 직접 AI 모델 활용하기

GenAI 및 ML 모델의 부상으로 SQL 분석가들이 SQL 내에서 직접 이러한 AI 모델에 액세스하려는 요구가 점점 더 커지는 것은 당연한 일입니다. 저희는 바로 그 이유 때문에 지난해 Databricks SQL에 AI functions를 처음 도입했으며, 이후 빠른 도입 속도를 보이고 있습니다. AI Functions는 현재 퍼블릭 프리뷰 상태이며, 벡터 검색과 같은 새로운 함수도 추가했습니다. AI Functions는 LLM 사용의 기술적 복잡성을 추상화하여 분석가와 데이터 과학자가 기본 인프라에 대해 걱정할 필요 없이 이러한 모델을 손쉽게 활용할 수 있도록 지원합니다.

ai_query() 함수를 사용하면 SQL에서 모든 AI 모델을 쿼리할 수 있습니다. 이는 GenAI 모델이거나 기존 ML 모델일 수 있습니다. 외부 LLM 모델도 사용할 수 있습니다.
내장 LLM 함수
또한 LLM의 강력한 기능을 사용하여 비정형 텍스트를 분석할 수 있는 9가지 새로운 GenAI 함수가 있습니다. 예를 들어:

테이블 열에 있는 텍스트에서 중요한 정보 추출:
콘텐츠를 기반으로 제품의 리뷰 댓글 분류:
9가지 함수 모두 여기에서 확인하기
AI Search: 새로운 벡터 검색 기능을 사용하면 KNN 검색을 수행하고 즉시 사용 가능한 RAG를 쉽게 활성화할 수 있습니다! 이는 Databricks의 AI Search 제품을 사용합니다. 벡터 검색 기능과 ai_query() 기능을 결합하여 이제 SQL 분석가는 복잡한 분석을 쉽게 실행할 수 있습니다. 예를 들어, 이제 모든 트윗을 검색할 수 있습니다.
AI_Forecast: 맞춤형 ML 모델을 빌드할 필요 없이 SQL을 통해 메트릭(예: 매출)을 빠르게 예측할 수 있는 새로운 시계열 예측 내장 함수입니다.

AI/BI: 새로운 유형의 비즈니스 인텔리전스(BI) 제품

데이터로부터 얻은 인사이트를 진정으로 민주화하겠다는 목표 아래, 생성형 AI를 활용하여 데이터 의미론을 깊이 이해하고 조직 내 모든 구성원이 셀프 서비스 데이터 분석을 수행할 수 있도록 지원하는 비즈니스 인텔리전스 제품인 Databricks AI/BI를 출시했습니다. 복합 AI 시스템을 기반으로 구축된 AI/BI는 Unity Catalog의 메타데이터, ETL 파이프라인, SQL 쿼리 등을 포함한 전체 데이터 자산의 인사이트를 활용합니다. 이 제품은 두 가지 주요 구성 요소로 이루어져 있습니다. 데이터 시각화와 대시보드를 빠르게 생성할 수 있는 로우코드 BI 제품인 AI/BI Dashboards와, 환각 현상(hallucination) 없이 다양한 실제 비즈니스 질문에 답변하기 위해 사용자 피드백으로부터 지속적으로 학습하는 데이터용 대화형 인터페이스인 Genie입니다. 이러한 혁신은 Databricks SQL 내에서 셀프 서비스 분석을 크게 향상시켜 비기술 분야의 더 많은 사용자가 데이터를 활용할 수 있도록 지원하는 동시에, 데이터 인텔리전스 플랫폼과의 통합을 통해 통합 거버넌스, 리니지 추적, 안전한 공유 및 고성능을 보장합니다.

Databricks SQL을 통한 완전한 엔드투엔드 데이터 웨어하우징

새로운 AI 기능 외에도 핵심 SQL Warehouse 기능들을 대거 출시했습니다. 수천 명의 고객이 기존 레거시 데이터 웨어하우스를 DBSQL로 마이그레이션했습니다. 이러한 마이그레이션을 지원하기 위해 DBSQL이 레이크하우스에서 동일한 데이터 웨어하우스 기능을 제공할 수 있도록 모든 기능을 갖추었습니다.

구체화된 뷰(Materialized Views): 대시보드에 MV를 활용하여 데이터의 최신성을 보장하세요. 구체화된 뷰는 쿼리가 실행될 때가 아니라 기반 테이블에 새로운 데이터가 들어올 때 자동으로 업데이트됩니다.
PK/FK 제약 조건을 사용하여 쿼리 성능을 최적화하세요. RELY를 사용하면 중복 조인 및 고유 집계(distinct aggregation)를 자동으로 제거하여 쿼리 속도를 높일 수 있습니다.
Variant는 반정형 데이터를 처리하기 위한 새로운 데이터 유형으로, 데이터를 JSON 문자열로 저장하는 것에 비해 성능을 크게 향상시키는 동시에 고도로 중첩되고 진화하는 스키마를 지원하는 유연성을 제공합니다.
Lateral Column Aliases를 사용하면 동일한 쿼리에서 앞서 정의한 표현식을 참조하고 재사용할 수 있어 SQL 작성이 더 쉬워집니다. 이를 통해 불필요한 CTE나 하위 쿼리를 줄여 쿼리를 단순화할 수 있습니다.
SQL Variables, Named Arguments 및 Python UDFs와 같은 기능 덕분에 Databricks SQL에서 직접 스크립트를 빌드하기도 더 쉬워졌습니다.

이 모든 기능이 강력한 AI 기반 SQL Editor 및 내장형 대시보드 도구에서 작동한다는 점도 잊지 마세요.

또한 훌륭한 파트너들 덕분에 Power BI, Tableau, dbt 등 선호하는 데이터 및 AI 도구로 구성된 풍부하고 개방적이며 통합된 생태계를 제공합니다. 현재 사용 중인 도구가 무엇이든 DBSQL과 이미 호환될 가능성이 매우 높습니다.

Databricks SQL에 대해 자세히 알아보고 시작하기

데이터 웨어하우징 및 Databricks SQL에 관한 최신 정보를 자세히 알아보려면 Data + AI Summit의 Data Warehouse 기조연설과 Data Warehousing, Analytics and BI 트랙의 다양한 세션을 확인해 보세요.

기존 웨어하우스를 뛰어난 사용자 경험과 더 낮은 총 비용을 제공하는 고성능 서버리스 데이터 웨어하우스로 마이그레이션하고 싶다면 Databricks SQL이 해답입니다. 지금 무료로 체험해 보세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)