데이터 웨어하우스는 오랫동안 그 구조와 엄격함으로 높은 평가를 받아왔지만, 많은 사람들은 lakehouse가 그러한 원칙을 포기한다고 가정합니다. 여기서는 Databricks가 관계형 모델링을 포기했다는 것과 키 또는 제약 조건을 지원하지 않는다는 두 가지 관련된 오해를 풀어보겠습니다. 키, 제약 조건, 스키마 적용과 같은 핵심 원칙이 Databricks SQL에서 여전히 핵심적인 요소임을 확인하실 수 있습니다. DAIS 2025 전체 세션 보기 →
최신 데이터 웨어하우스는 진화해 왔으며, Databricks Lakehouse는 이러한 진화의 훌륭한 예입니다. 지난 4년 동안 수천 개의 조직이 레거시 데이터 웨어하우스를 Databricks 레이크하우스로 마이그레이션하여 데이터 웨어하우징, 스트리밍 분석, AI 기능을 원활하게 결합하는 통합 플랫폼을 이용할 수 있게 되었습니다. 하지만 기존 데이터 웨어하우스의 일부 기능과 역량은 데이터 레이크의 주요 기능이 아닙니다. 이 블로그에서는 데이터 모델링에 대한 오래된 오해를 풀고 최신 클라우드 Lakehouse를 운영하기 위한 추가적인 모범 사례를 제공합니다.
이 종합 가이드는 Databricks 데이터 웨어하우징 기능을 둘러싼 가장 널리 퍼진 오해에 대해 설명하는 동시에 Data + AI Summit 2025에서 발표된 강력한 새 기능을 소개합니다. 플랫폼 옵션을 평가하는 데이터 설계자든 lakehouse 솔루션을 구현하는 데이터 엔지니어든 이 포스팅을 통해 Databricks의 엔터프라이즈급 데이터 모델링 기능에 대해 확실히 이해할 수 있을 것입니다.
신화에 대해 자세히 알아보기 전에 lakehouse 아키텍처가 기존의 데이터 웨어하우징 접근 방식과 차별화되는 점이 무엇인지 이해하는 것이 중요합니다. lakehouse는 데이터 웨어하우스의 안정성과 성능을 데이터 레이크의 유연성 및 확장성과 결합하여, 정형 및 비정형 데이터 처리 간의 기존 상충 관계를 해소하는 통합 플랫폼을 만듭니다.
Databricks SQL 기능:
이 아키텍처는 기존 도구 및 관행과의 호환성을 유지하면서 기존 접근 방식의 근본적인 한계를 해결합니다.
진실: 관계형 원칙은 Lakehouse의 기본입니다
가장 널리 퍼진 오해는 Databricks가 관계형 모델링 원칙을 버린다는 것입니다. 전혀 사실이 아닙니다. "lakehouse"라는 용어는 "하우스" 구성 요소 – 즉 수십 년간 입증된 관계형 데이터베이스 이론을 기반으로 하는 구조화되고 신뢰할 수 있는 데이터 관리를 명시적으로 강조합니다.
모든 Databricks 테이블의 기반이 되는 스토리지 레이어인 Delta Lake는 다음에 대한 완전한 지원을 제공합니다.
현재 공개 프리뷰 버전으로 제공되는 Unity Catalog 메트릭 뷰와같은 최신 기능은 전적으로 잘 구조화된 관계형 모델에 의존하여 효과적으로 작동합니다. 이러한 시맨틱 레이어는 조직 전체에 일관된 비즈니스 지표를 제공하기 위해 적절한 차원과 팩트 테이블이 필요합니다.
가장 중요한 것은, "스키마 온 리드" 접근법이라고도 하는 AI 및 머신 러닝 모델은 관계형 원칙을 따르는 깔끔하고 구조화된 표 형식의 데이터에서 가장 잘 작동한다는 점입니다. Lakehouse는 구조를 포기하지 않고 구조를 더욱 유연하고 확장 가능하게 만듭니다.
**진실: Databricks는 최적화 이점을 갖춘 강력한 제약 조건 지원을 제공합니다**
Databricks는 Databricks Runtime 11.3 LTS부터 기본 키 및 외래 키 제약 조건을 지원해 왔으며, Runtime 15.2부터 정식 버전(GA)으로 제공됩니다. 이러한 제약 조건은 다음과 같은 몇 가지 중요한 목적을 수행합니다.
사실: 데이터브릭스는 포괄적인 데이터 품질 시행을 제공합니다.
엔터프라이즈 데이터 플랫폼에서는 데이터 품질이 가장 중요하며, Databricks는 기존 데이터 웨어하우스가 제공하는 수준을 뛰어넘는 다계층의 제약 조건 적용을 제공합니다.
가장 일반적인 것은 간단한 네이티브 SQL 제약 조건이며, 다음을 포함합니다.
또한, Databricks는 기본적인 제약 조건을 뛰어넘어 엔터프라이즈급 데이터 품질 모니터링을 제공하는 고급 데이터 품 질 솔루션을 제공합니다.
Lakehouse Monitoring 은(는) 다음을 통해 자동화된 데이터 품질 추적을 제공합니다.
Databricks Labs DQX 라이브러리 는 다음을 제공합니다.
이 도구들을 함께 사용하면 전체 데이터 파이프라인에 걸쳐 예방 및 탐지 제어를 모두 제공하므로 기존 데이터 웨어하우스 제약 시스템을 뛰어넘는 데이터 품질 기능을 활용할 수 있습니다.
진실: Unity Catalog 메트릭 뷰는 시맨틱 레이어 관리에 혁신을 가져왔습니다.
Data + AI Summit 2025의 가장 중요한 발표 중 하나는 Unity Catalog Metric Views 의 퍼블릭 프리뷰(Public Preview) 발표였습니다. 이는 공급업체 종속성(vendor lock-in)에서 벗어나는 시맨틱 모델링에 대한 획기적인 접근 방식입니다.
Unity 카탈로그 메트릭 뷰를 사용하면 비즈니스 로직을 중앙 집중화할 수 있습니다:
독점적인 BI 시맨틱 레이어와 달리 Unity Catalog Metrics는 개방적이고 접근성이 뛰어납니다:
이러한 접근 방식은 BI 도구별 시맨틱 레이어에서 벗어나 조직 전체의 분석을 지원하는 통합되고 거버넌스가 적용되는 개방형 시맨틱 기반으로의 근본적인 전환을 의미합니다.
진실: Lakehouse에서 차원 모델링 원칙이 활성화됩니다.
Databricks는 차원 모델링을 막기는커녕 오히려 이러한 검증된 분석 패턴을 적극적으로 수용하고 최적화합니다. 스타 스키마와 스노우플레이크 스키마는 Delta 테이블로 매우 잘 변환되며, 종종 기존 데이터 웨어하우스에 비해 우수한 성능 특성을 제공합니다. 널리 사용되는 이러한 차원 모델링 패턴은 다음을 제공합니다.
또한, Databricks Lakehouse는 유연한 스키마 변화 및 시간 이동 통합 등 차원 모델링을 위한 고유한 이점을 제공합니다. Databricks에서 차원 모델링을 활용하여 최상의 경험을 누리려면 다음 모범 사례를 따르세요:
사실: 레이크하우스는 기본적으로 세계적 수준의 BI 성능을 제공합니다.
lakehouse 아키텍처가 BI 워크로드에서 기존 데이터 웨어하우스의 성능에 미치지 못할 것이라는 오해는 점점 더 시대에 뒤떨어지고 있습니다. Databricks는 쿼리 성능 최적화에 막대한 투자를 해왔으며, 그 결과 기존 MPP 데이터 웨어하우스를 지속적으로 능가하는 성과를 내고 있습니다.
Databricks 성능 최적화의 핵심은 OLAP 워크로드와 분석 쿼리용으로 특별히 설계된 Photon Engine입니다.
또한, Databricks SQL 은 높은 동시성의 BI 워크로드를 위해 자동으로 확장되고 널리 사용되는 BI 도구와 원활하게 통합되는 완전 관리형 서버리스 warehouse 환경을 제공합니다. Databricks의 서버리스 warehouse는 동급 최고의 TCO와 성능을 결합하여 분석 query에 대한 최적의 응답 시간을 제공합니다. 파일 최적화, 고급 통계 수집, 개방적이고 효율적인 parquet 데이터 형식 기반의 데이터 클러스터링과 같은 Delta Lake의 근본적인 이점은 최근 몇 년 동안 종종 간과되었습니다. 그 결과 기존 데이터 웨어하우스에서 Databricks로 마이그레이션하는 조직이 지속적으로 보고하는 성능상의 이점은 다음과 같습니다.
Data + AI Summit 2025 에서는 향상된 예측 최적화 및 자동 리퀴드 클러스터링을 비롯하여 더욱 흥미로운 발표와 최적화가 있었습니다.
진실: 메달리온은 엄격한 요구사항이 아닌 가이드라인입니다

그렇다면 메달리온 아키텍처란 무엇일까요? 메달리온 아키텍처는 데이터가 아키텍처의 각 계층(Bronze ⇒ Silver ⇒ 골드 계층 테이블)을 통과하면서 데이터의 구조와 품질을 점진적으로 개선하는 것을 목표로 레이크하우스의 데이터를 논리적으로 구성하는 데 사용되는 데이터 디자인 패턴입니다. 'multi-hop' 아키텍처라고도 불리는 메달리온 아키텍처는 레이크하우스에서 데이터를 구성하기 위한 훌륭한 프레임워크를 제공하지만, 이것이 필수 구조가 아닌 참조 아키텍처라는 점을 이해하는 것이 중요합니다. Databricks에서 모델링의 핵심은 실제 세계의 복잡성을 모델링하면서 유연성을 유지하는 것이며, 필요에 따라 메달리온 아키텍처의 계층을 추가하거나 제거할 수도 있습니다.
많은 성공적인 Databricks 구현 사례는 모델링 접근 방식을 결합하기도 합니다. Databricks는 Data Vault, 스타 스키마, 스노우플레이크 또는 산업별 데이터 모델을 처리하기 위한 도메인별 레이어에 맞춰 수많은 하이브리드 모델링 접근 방식을 지원합니다(예: 헬스케어, 금융 서비스, 소매).
핵심은 메달리온 아키텍처를 출발점으로 삼아 점진적인 데이터 정제 및 품질 개선이라는 핵심 원칙을 유지하면서 조직의 특정 요구 사항에 맞게 조정하는 것입니다. 레이크하우스 아키텍처에 영향을 미치는 조직적 요소는 여러 가지가 있으며, 이를 신중하게 고려한 후에 구현해야 합니다:
진실: 이제 고급 트랜잭션 기능을 사용할 수 있습니다.
기존 데이터 웨어하우스와 레이크하우스 플랫폼 간의 기능 격차 중 하나는 다중 테이블, 다중 명령문 트랜잭션 지원이었습니다. Data + AI Summit 2025에서 Multi-Statement Transactions 가 발표되면서 이러한 상황이 바뀌었습니다. 현재 Private Preview로 제공되는 MST가 추가되어 Databricks는 다음을 제공합니다.

Databricks의 접근 방식은 기존 데이터 웨어하우스에 비해 상당한 이점을 제공합니다:

공급망 관리와 같이 수백 개의 관련 테이블에 대한 업데이트가 완벽한 일관성을 유지해야 하는 복잡한 비즈니스 프로세스에서 다중 명령문 트랜잭션은 매우 유용합니다. 다중 명령문 트랜잭션은 강력한 패턴을 지원합니다:
일관된 다중 테이블 업데이트
복잡한 데이터 파이프라인 오케스트레이션
기술 발전과 실제 구현을 통해 Databricks의 데이터 웨어하우징 기능에 대한 오해는 완전히 풀렸습니다. 이 플랫폼은 기존의 데이터 웨어하우징 개념을 지원할 뿐만 아니라 레거시 시스템의 한계를 해결하는 최신 기능으로 이를 개선합니다.
데이터 웨어하우징을 위해 Databricks를 평가하거나 구현하는 조직을 위해:
Databricks Lakehouse는 기존 접근 방식의 안정성과 성능을 최신 분석 및 AI에 필요한 유연성 및 확장성과 결합하여 데이터 웨어하우징의 차세대 진화를 나타냅니다. 한때 그 기능에 의문을 제기했던 억측들은 입증된 결과와 지속적인 혁신으로 대체되었습니다.
점점 더 AI가 주도하는 미래로 나아감에 따라, Lakehouse 아키텍처를 도입하는 조직은 데이터에서 가치를 추출하고, 변화하는 비즈니스 요구사항에 대응하며, 경쟁 우위를 확보할 수 있는 혁신적인 분석 솔루션을 제공하는 데 있어 더 유리한 위치를 차지하게 될 것입니다.
Lakehouse가 기존 데이터 웨어하우스를 대체할 수 있는지는 더 이상 문제가 아닙니다. 중요한 것은 엔터프라이즈 데이터 관리에서 Lakehouse의 이점을 얼마나 빨리 실현할 수 있느냐입니다.
Lakehouse 아키텍처는 개방성, 유연성, 완전한 트랜잭션 안정성을 결합하며, 이는 레거시 데이터 웨어하우스가 달성하기 어려운 조합입니다. 메달리온 아키텍처에서 도메인별 모델에 이르기까지, 단일 테이블 업데이트에서 다중 명령문 트랜잭션에 이르기까지 Databricks는 비즈니스와 함께 성장하는 기반을 제공합니다.
데이터 웨어하우스를 혁신할 준비가 되셨나요? 최고의 데이터 웨어하우스는 lakehouse입니다! Databricks SQL에 대해 자세히 알아보려면 제품 둘러보기를 확인하세요. 또한 databricks.com/sql 을 방문하여 Databricks SQL을 살펴보고 전 세계 조직이 데이터 플랫폼을 어떻게 혁신하고 있는지 확인해 보세요.
전체 DAIS 세션을 시청하세요: 데이터 모델링에 대한 오해 바로잡기: 레이크하우스의 데이터 모델링에 대한 진실과 모범 사 례
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
