Databricks 데이터 웨어하우스에서 생산 수준의 분석 구현
데이터가 중요한 비즈니스 결정을 주도하는 조직에서는 고동시성, 저지연 데이터 웨어하우징이 필수적입니다. 이것은 수백 명의 동시 사용자를 지원하고, 대화형 분석을 위한 빠른 쿼리 성능을 제공하며, 빠르고 정확한 의사결정을 위한 실시간 인사이트를 가능하게 하는 것을 의미합니다. 생산용 데이터 웨어하우스는 단순한 지원 시스템 이상입니다—이는 성장과 혁신을 촉진하는 촉매제입니다.
Databricks는 레이크하우스 아키텍처 를 선도하여 데이터, 분석 및 AI 작업을 통합하였습니다. 이로 인해 비용이 많이 드는 데이터 중복 및 복 잡한 시스템 통합이 제거되었습니다. 자체 최적화 성능이 내장된 레이크하우스는 경쟁력 있는 가격/성능 을 제공하면서 운영을 간소화합니다. 오픈 레이크하우스로서, Databricks SQL을 통해 중요한 데이터에 빠르고 안전하게 접근할 수 있으며, 통합 보안 및 거버넌스를 통해 BI, 분석 및 AI 도구를 전체 생태계에 걸쳐 제공합니다. 대부분의 사용자들이 이러한 외부 도구를 통해 웨어하우스와 상호 작용하기 때문에 오픈 인터피러러빌리티는 필수적입니다. 이 플랫폼은 데이터와 사용자뿐만 아니라 팀이 의존하는 도구의 다양성이 증가함에 따라 쉽게 확장되며, Databricks AI/BI, Mosaic AI 등의 강력한 내장 기능을 제공하면서 기존 생태계와의 유연성과 상호 운용성을 유지합니다.
이 블로그는 Databricks 데이터 인텔리전스 플랫폼을 이용하여 고동시성, 저지연 성능을 극대화하는 방법에 대한 조직의 레이크하우스 아키텍처 여정을 위한 종합적인 가이드를 제공합니다—초기 설계부터 중간 구현, 그리고 지속적인 최적화까지. 우리가 탐구할 것:
- 데이터 웨어하우스의 핵심 구조 요소와 그들이 플랫폼 성능에 미치는 종합적인 영향.
- 이러한 구조 요소의 최적화를 안내하는 구조화된 성능 튜닝 프레임워크.
- 규모에 따른 지속적인 성능을 보장하기 위한 모니터링 전략과 튜닝 방법론에 대한 모범 사례.
- 이 원칙들이 실제로 어떻게 함께 작동하는지 보여주는 실제 사례 연구.
주요 아키텍처 고려사항
전통적인 데이터 웨어하우스의 기본 원칙들이 여전히 적용되지만 - 예를 들어, 탄탄한 데이터 모델링, 강력한 데이터 관리 및 내장된 데이터 품질 - 생산용 분석을 위한 현대적인 레이크하우스를 설계하는 것은 보다 전체적인 접근 방식을 필요로 합니다. 이에 중심이 되는 것은 통합 거버넌스 프레임워크이며, Unity Catalog (AWS | Azure | GCP)는 이를 제공하는 데 중요한 역할을 합니다. 모든 데이터 및 AI 자산에 걸쳐 접근 제어, 계보 추적 및 감사 가능성을 표준화함으로써, Unity Catalog는 규모에 따른 일관된 거버넌스를 보장합니다. 이는 데이터 볼륨, 사용자 동시성 및 플랫폼 복잡성이 증가함에 따라 점점 더 필요해지는 요소입니다.
효과적인 디자인이 필요합니다:
- 입증된 아키텍처 최고의 사례 채택
- 상호 연결된 구성 요소 간의 트레이드오프에 대한 이해
- 비즈니스 요구 사항에 기반한 동시성, 지연 및 규모에 대한 명확한 목표
호수가 있는 집에서는 설계 단계 초기에 내린 건축적 선택에 따라 성능 결과가 영향을 받습니다. 이러한 의도적인 디자인 결정들은 다음과 같은 다섯 가지 중요한 축을 통해 현대적인 레이크하우스가 기존 데이터 웨어하우스로부터 어떻게 근본적으로 벗어나는지를 강조합니다:
축 | 레거시 데이터 웨어하우스 | 현대적인 Lakehouse |
아키텍처 | 컴퓨트와 스토리지의 결합; 강건하고 하드웨어에 의존적인 확장. 일관된 성능과 관리의 단순성. | 데이터는 Delta 와 Iceberg 와 같은 오픈 포맷에 저장되어 데이터 레이크에서 분리 가능하고 독립적으로 확장 가능한 컴퓨팅 및 스토리지를 가능하게 합니다. |
작업 부하 지원 | 주로 BI와 구조화된 데이터에 대한 분석을 위해 구축되었으며, 예측 가능한 성능을 가진 단일 진실의 원천을 제공합니다. 데이터를 별도의 플랫폼으로 이동시키는 데 비용이 많이 들고 복잡한 ETL이 필요 할 수 있습니다. | 조립식 플랫폼은 BI와 분석부터 AI와 스트리밍까지 다양한 작업 부하를 지원하며, 구조화된 데이터, 반구조화된 데이터, 비구조화된 데이터 모두를 하나의 데이터 복사본에서 처리할 수 있습니다. 이는 시스템 간에 비용이 많이 드는 ETL 없이 가능합니다. |
컴퓨트 탄력성 | 특정 작업량을 처리하기 위해 설계된 고정 용량 인프라; 대체로 항상 켜져 있습니다. | SQL Serverless 웨어하우스 는 Photon Engine에 의해 구동되는 탄력적인 컴퓨트를 제공합니다. Serverless는 대부분의 사용 사례에 권장되며, 예측적인 자동 스케일링, IWM (AWS | Azure | GCP), 다중 클러스터 로드 밸런싱 및 빠른 시작과 낮은 지연 성능을 위한 예측적 I/O를 추가합니다. |
최적화 | 파일 레이아웃과 인덱싱의 수동 튜닝에 의존합니다. 이런 성숙하고 잘 이해된 튜닝 기법들은 시간이 많이 소요되고 노동 집약적일 수 있으며, 지속적인 튜닝과 소프트웨어 패치를 위해 상당한 DBA 노력이 필요합니다. | 자동화된, AI가 지원하는 최적화 예를 들어 Liquid Clustering (AWS | Azure | GCP) 및 Predictive Optimization (AWS | Azure | GCP)는 쿼리 패턴에 자동으로 적응하여 수동 튜닝과 지속적인 유지 관리의 필요성을 제거합니다. |
거버넌스 | 다양한 도구와 시스템에 걸친 접근 제어의 파편화. 별도의 거버넌스 구성 요소를 위한 볼트온 도구. | 중앙 집중식, 교차 작업 부하 관리가 Unity Catalog 를 통해 Databricks 데이터 인텔리전스 플랫폼의 모든 아티팩트에서 데이터 접근, 발견 및 계보에 대한 통합 레이어를 제공합니다. |

이러한 아키텍처 고려 사항을 염두에 두고, 고동시성과 저지연을 규모에 맞게 제공할 수 있는 생산용 데이터 웨어하우스를 구현하는 실용적인 프레임워크를 살펴봅시다.
기술 솔루션 분석
다음 프레임워크는 기업 고객과의 실제 업무를 통해 개발된 모범 사례와 구조 원칙을 요약합니다. 새로운 데이터 웨어하우스를 구축하든, 레거시 플랫폼에서 마이그레이션하든, 기존 레이크하우스를 튜닝하든, 이 가이드라인은 생산 시간을 단축하면서 확장 가능하고, 성능이 우수하고, 비용 효율적인 결과를 제공하는 데 도움이 될 것입니다.
사용 사례 중심의 평가로 시작하십시오
구현하기 전에, 가장 느린 대시보드나 가장 자원이 많이 필요한 파이프라인과 같은 중요한 작업 부하에 대한 빠른 평가를 권장합니다. 이 접근법은 성능 차이를 식별하고 최적화를 위한 영역을 우선 순위로 지정하는 데 도움이 됩니다.
다음 질문들로 분석을 구성하십시오:
- 가장 중요한 성능 지표는 무엇이며 (예: 쿼리 지연, 처리량, 동시성), 이들은 비즈니스 기대치와 어떻게 비교되나요?
- 이 작업 부하를 누가, 언제, 얼마나 자주 사용하나요?
- 컴퓨팅 비용은 업무 가치에 비례하나요?
이 평가는 목표 개선을 위한 기반을 만들고, 최적화 노력을 비즈니스 영향과 일치시키는 데 도움이 됩니다.
구현 프레임워크
아래 프레임워크는 Databricks에서 웨어하우스를 구현하거나 현대화하는 단계별 접근법을 개요화합니다:
- 현재 상태 평가 및 목표 우선 순위 설정
- 성능, 비용, 확장성 목표와 비교하여 기존 아키텍처를 평가하고 비교합니다.
- 동시성, 지연, 규모, 비용, SLA 등의 비즈니스(및 기술) 요구 사항을 정의하여 목표가 계속 바뀌지 않도록 하십시오.
- 비즈니스에 가장 큰 영향을 미치는 차이점을 식별하고 가치와 복잡성에 기반하여 개선을 우선 순위로 지정합니다 (신규 설계, 이전 중 또는 생산 중인 경우).
- 웨어하우스 아키텍처와 거버넌스 정의
- 논리적 세분화 설계: 어떤 팀이나 사용 사례가 SQL 웨어하우스를 공유하거나 전용으로 필요한지 결정합니다.
- 웨어하우스를 적절한 크기로 조정하고, 태깅을 적용하고 기본값을 정의합니다(예: 캐시 설정, 시간 초과 등).
- 기본 캐싱, 웨어하우스 타임아웃, BI 도구에서의 JDBC 타임아웃 및 SQL 구성 매개변수와 같은 세부적인 구성을 이해하고 계획하십시오(AWS | Azure | GPC).