2025년 12월 15일

Databricks Lakehouse 데이터 모델링: 오해, 진실, 모범 사례

데이터 모델링 성숙도는 새로운 기능과 결합하여 기존 엔터프라이즈 데이터 웨어하우스의 대부분의 누락된 기능에 대한 격차를 해소했습니다

관계형 및 차원 모델은 ACID, Photon 및 메트릭 뷰를 통해 Delta Lake에서 잘 작동합니다.
키, 제약 조건 및 시맨틱 레이어가 지원됩니다.
다중 명세서 트랜잭션 및 리퀴드 클러스터링과 같은 새로운 기능은 성능을 간소화합니다.

데이터 웨어하우스는 오랫동안 그 구조와 엄격함으로 높은 평가를 받아왔지만, 많은 사람들은 lakehouse가 그러한 원칙을 포기한다고 가정합니다. 여기서는 Databricks가 관계형 모델링을 포기했다는 것과 키 또는 제약 조건을 지원하지 않는다는 두 가지 관련된 오해를 풀어보겠습니다. 키, 제약 조건, 스키마 적용과 같은 핵심 원칙이 Databricks SQL에서 여전히 핵심적인 요소임을 확인하실 수 있습니다. DAIS 2025 전체 세션 보기 →

최신 데이터 웨어하우스는 진화해 왔으며, Databricks Lakehouse는 이러한 진화의 훌륭한 예입니다. 지난 4년 동안 수천 개의 조직이 레거시 데이터 웨어하우스를 Databricks 레이크하우스로 마이그레이션하여 데이터 웨어하우징, 스트리밍 분석, AI 기능을 원활하게 결합하는 통합 플랫폼을 이용할 수 있게 되었습니다. 하지만 기존 데이터 웨어하우스의 일부 기능과 역량은 데이터 레이크의 주요 기능이 아닙니다. 이 블로그에서는 데이터 모델링에 대한 오래된 오해를 풀고 최신 클라우드 Lakehouse를 운영하기 위한 추가적인 모범 사례를 제공합니다.

이 종합 가이드는 Databricks 데이터 웨어하우징 기능을 둘러싼 가장 널리 퍼진 오해에 대해 설명하는 동시에 Data + AI Summit 2025에서 발표된 강력한 새 기능을 소개합니다. 플랫폼 옵션을 평가하는 데이터 설계자든 lakehouse 솔루션을 구현하는 데이터 엔지니어든 이 포스팅을 통해 Databricks의 엔터프라이즈급 데이터 모델링 기능에 대해 확실히 이해할 수 있을 것입니다.

오해 #1: "Databricks는 관계형 모델링을 지원하지 않는다."
오해 #2: "기본 키와 외래 키를 사용할 수 없다."
잘못된 통념 #3: "열 수준 데이터 품질 제약 조건은 불가능하다."
오해 #4: "독점적인 BI 도구 없이는 시맨틱 모델링을 할 수 없습니다."
오해 #5: "Databricks에서 차원 모델을 작성해서는 안 됩니다."
오해 #6: "BI 성능을 위해서는 별도의 엔진이 필요하다."
잘못된 통념 #7: "메달리온 아키텍처는 필수이다"
보너스 오해 #8: "Databricks는 다중 명령문 트랜잭션을 지원하지 않습니다."

데이터 웨어하우스에서 레이크하우스로의 진화

신화에 대해 자세히 알아보기 전에 lakehouse 아키텍처가 기존의 데이터 웨어하우징 접근 방식과 차별화되는 점이 무엇인지 이해하는 것이 중요합니다. lakehouse는 데이터 웨어하우스의 안정성과 성능을 데이터 레이크의 유연성 및 확장성과 결합하여, 정형 및 비정형 데이터 처리 간의 기존 상충 관계를 해소하는 통합 플랫폼을 만듭니다.

Databricks SQL 기능:

통합 데이터 스토리지 개방형 형식으로 저비용 클라우드 객체 스토리지에 저장
Delta Lake를 통한ACID 트랜잭션 보장
고급 query 최적화 (Photon 엔진 사용)
Unity Catalog를 통한 포괄적인 거버넌스
SQL 및 machine learning 워크로드 모두에대한 기본 지원

이 아키텍처는 기존 도구 및 관행과의 호환성을 유지하면서 기존 접근 방식의 근본적인 한계를 해결합니다.

오해 #1: "Databricks는 관계형 모델링을 지원하지 않는다"

진실: 관계형 원칙은 Lakehouse의 기본입니다

가장 널리 퍼진 오해는 Databricks가 관계형 모델링 원칙을 버린다는 것입니다. 전혀 사실이 아닙니다. "lakehouse"라는 용어는 "하우스" 구성 요소 – 즉 수십 년간 입증된 관계형 데이터베이스 이론을 기반으로 하는 구조화되고 신뢰할 수 있는 데이터 관리를 명시적으로 강조합니다.

모든 Databricks 테이블의 기반이 되는 스토리지 레이어인 Delta Lake는 다음에 대한 완전한 지원을 제공합니다.

ACID 트랜잭션 으로 데이터 일관성 보장
스키마 적용 및 발전, 데이터 무결성 유지
SQL 호환 운영, 복잡한 조인 및 분석 함수 포함
기본 키 및 외래 키 정의를 통한 참조 무결성 개념 (이러한 개념은 쿼리 성능을 위한 것이지만 강제되지는 않습니다)

현재 공개 프리뷰 버전으로 제공되는 Unity Catalog 메트릭 뷰와같은 최신 기능은 전적으로 잘 구조화된 관계형 모델에 의존하여 효과적으로 작동합니다. 이러한 시맨틱 레이어는 조직 전체에 일관된 비즈니스 지표를 제공하기 위해 적절한 차원과 팩트 테이블이 필요합니다.

가장 중요한 것은, "스키마 온 리드" 접근법이라고도 하는 AI 및 머신 러닝 모델은 관계형 원칙을 따르는 깔끔하고 구조화된 표 형식의 데이터에서 가장 잘 작동한다는 점입니다. Lakehouse는 구조를 포기하지 않고 구조를 더욱 유연하고 확장 가능하게 만듭니다.

오해 #2: "기본 키와 외래 키를 사용할 수 없습니다"

**진실: Databricks는 최적화 이점을 갖춘 강력한 제약 조건 지원을 제공합니다**

Databricks는 Databricks Runtime 11.3 LTS부터 기본 키 및 외래 키 제약 조건을 지원해 왔으며, Runtime 15.2부터 정식 버전(GA)으로 제공됩니다. 이러한 제약 조건은 다음과 같은 몇 가지 중요한 목적을 수행합니다.

정보 제약 조건 은 데이터 관계를 문서화하며, 강제 적용 가능한 참조 무결성 제약 조건이 로드맵에 있습니다. 레이크하우스 마이그레이션을 계획하는 조직은 이러한 기능이 제공될 때 이를 활용할 수 있도록 지금 적절한 키 관계를 사용하여 데이터 모델을 설계해야 합니다.
쿼리 최적화 힌트:ETL 파이프라인에서 참조 무결성을 관리하는 조직의 경우,`RELY`키워드는 강력한 최적화 힌트를 제공합니다 . 외래 키 ... RELY`를 선언하면, Databricks 옵티마이저가 참조 무결성을 안전하게 가정하여 조인 성능을 크게 향상시킬 수 있는 공격적인 쿼리 최적화가 가능하다는 것을 알려주는 것입니다.
이러한 관계를 자동으로 감지하고 활용하는 Tableau 및 Power BI와 같은 BI 플랫폼과의도구 호환성

오해 #3: "열 수준 데이터 품질 제약은 불가능합니다."

사실: 데이터브릭스는 포괄적인 데이터 품질 시행을 제공합니다.

엔터프라이즈 데이터 플랫폼에서는 데이터 품질이 가장 중요하며, Databricks는 기존 데이터 웨어하우스가 제공하는 수준을 뛰어넘는 다계층의 제약 조건 적용을 제공합니다.

가장 일반적인 것은 간단한 네이티브 SQL 제약 조건이며, 다음을 포함합니다.

사용자 지정 비즈니스 규칙 유효성검사를 위한제약 조건 확인
NOT NULL 제약 조건 으로 필수 필드 유효성 검사

또한, Databricks는 기본적인 제약 조건을 뛰어넘어 엔터프라이즈급 데이터 품질 모니터링을 제공하는 고급 데이터 품질 솔루션을 제공합니다.

Lakehouse Monitoring 은(는) 다음을 통해 자동화된 데이터 품질 추적을 제공합니다.

통계적 프로파일링 및 drift 감지
사용자 지정 측정항목 정의 및 알림
거버넌스를 위한 Unity Catalog와의 통합
실시간 데이터 품질 대시보드

Databricks Labs DQX 라이브러리 는 다음을 제공합니다.

Delta 테이블용 사용자 지정 데이터 품질 규칙
처리 중 DataFrame 수준 유효성 검사
복잡한 품질 검사를 위한 확장 가능한 프레임워크

이 도구들을 함께 사용하면 전체 데이터 파이프라인에 걸쳐 예방 및 탐지 제어를 모두 제공하므로 기존 데이터 웨어하우스 제약 시스템을 뛰어넘는 데이터 품질 기능을 활용할 수 있습니다.

통념 #4: "독점적인 BI 도구 없이는 시맨틱 모델링을 할 수 없습니다"

진실: Unity Catalog 메트릭 뷰는 시맨틱 레이어 관리에 혁신을 가져왔습니다.

Data + AI Summit 2025의 가장 중요한 발표 중 하나는 Unity Catalog Metric Views 의 퍼블릭 프리뷰(Public Preview) 발표였습니다. 이는 공급업체 종속성(vendor lock-in)에서 벗어나는 시맨틱 모델링에 대한 획기적인 접근 방식입니다.

Unity 카탈로그 메트릭 뷰를 사용하면 비즈니스 로직을 중앙 집중화할 수 있습니다:

카탈로그 수준에서메트릭을 한 번 정의합니다.
어디서나 액세스 - 대시보드, 노트북, SQL, AI 도구
일관성 유지: 모든 소비 지점에서
다른 데이터 자산과 마찬가지로 버전 관리 및 거버넌스

독점적인 BI 시맨틱 레이어와 달리 Unity Catalog Metrics는 개방적이고 접근성이 뛰어납니다:

SQL로 주소 지정 가능 – 테이블이나 뷰처럼 쿼리합니다
도구에 구애받지 않음 – 모든 BI 플랫폼 또는 분석 도구와 함께 작동
AI 지원 – 자연어를 통해 LLM 및 AI 에이전트가 액세스할 수 있습니다

이러한 접근 방식은 BI 도구별 시맨틱 레이어에서 벗어나 조직 전체의 분석을 지원하는 통합되고 거버넌스가 적용되는 개방형 시맨틱 기반으로의 근본적인 전환을 의미합니다.

오해 #5: "Databricks에서 차원 모델을 구축하면 안 된다"

진실: Lakehouse에서 차원 모델링 원칙이 활성화됩니다.

Databricks는 차원 모델링을 막기는커녕 오히려 이러한 검증된 분석 패턴을 적극적으로 수용하고 최적화합니다. 스타 스키마와 스노우플레이크 스키마는 Delta 테이블로 매우 잘 변환되며, 종종 기존 데이터 웨어하우스에 비해 우수한 성능 특성을 제공합니다. 널리 사용되는 이러한 차원 모델링 패턴은 다음을 제공합니다.

비즈니스 이해도 - 애널리스트 및 비즈니스 사용자에게 익숙한 패턴
query 성능 – 분석 워크로드 및 BI 도구에 최적화
완만한 차원 변화 – Delta Lake의 시간 이동 기능으로 쉽게 구현할 수 있습니다
확장 가능한 집계 – 구체화된 뷰 및 증분 처리

또한, Databricks Lakehouse는 유연한 스키마 변화 및 시간 이동 통합 등 차원 모델링을 위한 고유한 이점을 제공합니다. Databricks에서 차원 모델링을 활용하여 최상의 경험을 누리려면 다음 모범 사례를 따르세요:

Unity Catalog의 3단계 네임스페이스 (catalog.schema.table)를사용하여 차원 모델을 구성합니다.
적절한 기본 키 및 외래 키 제약 조건 구현 문서화 및 최적화를 위해
ID 열을 활용 한 대리 키 생성
자주조인되는 열에 리퀴드 clusters 적용
사전 집계된 팩트 테이블에 구체화된뷰 사용

오해 #6: "BI 성능을 위해서는 별도의 엔진이 필요하다"

사실: 레이크하우스는 기본적으로 세계적 수준의 BI 성능을 제공합니다.

lakehouse 아키텍처가 BI 워크로드에서 기존 데이터 웨어하우스의 성능에 미치지 못할 것이라는 오해는 점점 더 시대에 뒤떨어지고 있습니다. Databricks는 쿼리 성능 최적화에 막대한 투자를 해왔으며, 그 결과 기존 MPP 데이터 웨어하우스를 지속적으로 능가하는 성과를 내고 있습니다.

Databricks 성능 최적화의 핵심은 OLAP 워크로드와 분석 쿼리용으로 특별히 설계된 Photon Engine입니다.

복잡한 분석 운영을 위한 벡터화된 실행
고급 조건자 푸시다운 으로 데이터 이동 최소화
지능형 데이터 프루닝 차원 모델 구조 활용
컬럼형 처리 집계 및 조인에 최적화됨

또한, Databricks SQL 은 높은 동시성의 BI 워크로드를 위해 자동으로 확장되고 널리 사용되는 BI 도구와 원활하게 통합되는 완전 관리형 서버리스 warehouse 환경을 제공합니다. Databricks의 서버리스 warehouse는 동급 최고의 TCO와 성능을 결합하여 분석 query에 대한 최적의 응답 시간을 제공합니다. 파일 최적화, 고급 통계 수집, 개방적이고 효율적인 parquet 데이터 형식 기반의 데이터 클러스터링과 같은 Delta Lake의 근본적인 이점은 최근 몇 년 동안 종종 간과되었습니다. 그 결과 기존 데이터 웨어하우스에서 Databricks로 마이그레이션하는 조직이 지속적으로 보고하는 성능상의 이점은 다음과 같습니다.

복잡한 분석 워크로드에 대해 최대 10~50배 빠른 쿼리 성능 제공
성능 저하 없이 high concurrency 확장 가능
기존 MPP 데이터 웨어하우스대비 최대 90% 비용 절감
serverless compute로유지보수 오버헤드 제로

Data + AI Summit 2025 에서는 향상된 예측 최적화 및 자동 리퀴드 클러스터링을 비롯하여 더욱 흥미로운 발표와 최적화가 있었습니다.

잘못된 통념 #7: "메달리온 아키텍처는 필수이다"

진실: 메달리온은 엄격한 요구사항이 아닌 가이드라인입니다

그렇다면 메달리온 아키텍처란 무엇일까요? 메달리온 아키텍처는 데이터가 아키텍처의 각 계층(Bronze ⇒ Silver ⇒ 골드 계층 테이블)을 통과하면서 데이터의 구조와 품질을 점진적으로 개선하는 것을 목표로 레이크하우스의 데이터를 논리적으로 구성하는 데 사용되는 데이터 디자인 패턴입니다. 'multi-hop' 아키텍처라고도 불리는 메달리온 아키텍처는 레이크하우스에서 데이터를 구성하기 위한 훌륭한 프레임워크를 제공하지만, 이것이 필수 구조가 아닌 참조 아키텍처라는 점을 이해하는 것이 중요합니다. Databricks에서 모델링의 핵심은 실제 세계의 복잡성을 모델링하면서 유연성을 유지하는 것이며, 필요에 따라 메달리온 아키텍처의 계층을 추가하거나 제거할 수도 있습니다.

많은 성공적인 Databricks 구현 사례는 모델링 접근 방식을 결합하기도 합니다. Databricks는 Data Vault, 스타 스키마, 스노우플레이크 또는 산업별 데이터 모델을 처리하기 위한 도메인별 레이어에 맞춰 수많은 하이브리드 모델링 접근 방식을 지원합니다(예: 헬스케어, 금융 서비스, 소매).

핵심은 메달리온 아키텍처를 출발점으로 삼아 점진적인 데이터 정제 및 품질 개선이라는 핵심 원칙을 유지하면서 조직의 특정 요구 사항에 맞게 조정하는 것입니다. 레이크하우스 아키텍처에 영향을 미치는 조직적 요소는 여러 가지가 있으며, 이를 신중하게 고려한 후에 구현해야 합니다:

회사 규모 및 복잡성 – 규모가 큰 조직일수록 더 많은 레이어가 필요한 경우가 많습니다
규정 요구 사항 - 규정 준수 요구 사항에 따라 추가 제어가 필요할 수 있습니다.
사용 패턴 – 실시간 분석과 배치 분석이 레이어 디자인에 미치는 영향
팀 구조 – 데이터 엔지니어링팀과 분석팀의 경계

보너스 잘못된 통념 #8: "Databricks는 다중 구문 트랜잭션을 지원하지 않는다"

진실: 이제 고급 트랜잭션 기능을 사용할 수 있습니다.

기존 데이터 웨어하우스와 레이크하우스 플랫폼 간의 기능 격차 중 하나는 다중 테이블, 다중 명령문 트랜잭션 지원이었습니다. Data + AI Summit 2025에서 Multi-Statement Transactions 가 발표되면서 이러한 상황이 바뀌었습니다. 현재 Private Preview로 제공되는 MST가 추가되어 Databricks는 다음을 제공합니다.

Delta Lake 및 Apache Iceberg™ 테이블간의 다중 포맷 트랜잭션
다중 테이블 원자성 '전부 아니면 전무' 시맨틱 보장
다중 명령문 일관성 및 완벽한 롤백 기능
여러데이터 소스에 걸친 카탈로그 간 트랜잭션

Databricks의 접근 방식은 기존 데이터 웨어하우스에 비해 상당한 이점을 제공합니다:

공급망 관리와 같이 수백 개의 관련 테이블에 대한 업데이트가 완벽한 일관성을 유지해야 하는 복잡한 비즈니스 프로세스에서 다중 명령문 트랜잭션은 매우 유용합니다. 다중 명령문 트랜잭션은 강력한 패턴을 지원합니다:

일관된 다중 테이블 업데이트

복잡한 데이터 파이프라인 오케스트레이션

결론 결론: 최신 데이터 웨어하우스 수용

기술 발전과 실제 구현을 통해 Databricks의 데이터 웨어하우징 기능에 대한 오해는 완전히 풀렸습니다. 이 플랫폼은 기존의 데이터 웨어하우징 개념을 지원할 뿐만 아니라 레거시 시스템의 한계를 해결하는 최신 기능으로 이를 개선합니다.

데이터 웨어하우징을 위해 Databricks를 평가하거나 구현하는 조직을 위해:

검증된 패턴으로 Start: 팀이 이해하는 차원 모델과 관계형 원칙을 구현하세요
최신 최적화 활용: 뛰어난 성능을 위해 Liquid 클러스터링, Predictive Optimization, Unity Catalog Metrics를 사용하세요.
확장성을 고려한 설계: 조직과 함께 성장하고 변화하는 요구 사항에 적응할 수 있는 데이터 모델을 구축합니다
거버넌스 도입: 처음부터 포괄적인 액세스 제어 및 리니지 추적 구현
AI 통합 계획: 향후 AI 및 machine learning 이니셔티브를 지원하도록 데이터 웨어하우스를 설계하세요

Databricks Lakehouse는 기존 접근 방식의 안정성과 성능을 최신 분석 및 AI에 필요한 유연성 및 확장성과 결합하여 데이터 웨어하우징의 차세대 진화를 나타냅니다. 한때 그 기능에 의문을 제기했던 억측들은 입증된 결과와 지속적인 혁신으로 대체되었습니다.

점점 더 AI가 주도하는 미래로 나아감에 따라, Lakehouse 아키텍처를 도입하는 조직은 데이터에서 가치를 추출하고, 변화하는 비즈니스 요구사항에 대응하며, 경쟁 우위를 확보할 수 있는 혁신적인 분석 솔루션을 제공하는 데 있어 더 유리한 위치를 차지하게 될 것입니다.

Lakehouse가 기존 데이터 웨어하우스를 대체할 수 있는지는 더 이상 문제가 아닙니다. 중요한 것은 엔터프라이즈 데이터 관리에서 Lakehouse의 이점을 얼마나 빨리 실현할 수 있느냐입니다.

Lakehouse 아키텍처는 개방성, 유연성, 완전한 트랜잭션 안정성을 결합하며, 이는 레거시 데이터 웨어하우스가 달성하기 어려운 조합입니다. 메달리온 아키텍처에서 도메인별 모델에 이르기까지, 단일 테이블 업데이트에서 다중 명령문 트랜잭션에 이르기까지 Databricks는 비즈니스와 함께 성장하는 기반을 제공합니다.

데이터 웨어하우스를 혁신할 준비가 되셨나요? 최고의 데이터 웨어하우스는 lakehouse입니다! Databricks SQL에 대해 자세히 알아보려면 제품 둘러보기를 확인하세요. 또한 databricks.com/sql 을 방문하여 Databricks SQL을 살펴보고 전 세계 조직이 데이터 플랫폼을 어떻게 혁신하고 있는지 확인해 보세요.

전체 DAIS 세션을 시청하세요: 데이터 모델링에 대한 오해 바로잡기: 레이크하우스의 데이터 모델링에 대한 진실과 모범 사례

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)