차원 테이블을 여러 개의 관련 테이블로 정규화하여 스타 스키마를 확장하는 데이터 웨어하우스 설계로, 중복성을 줄이는 동시에 쿼리 복잡성을 높입니다.
작성자: Databricks 직원
스노우플레이크 스키마는 스타 스키마를 확장한 다차원적 데이터 모델로, 차원 테이블을 하위 차원으로 나눕니다. 스노우플레이크 스키마는 OLAP 웨어하우스에 대한 비즈니스 인텔리전스 및 보고, 데이터 마트, 관계형 데이터베이스에 흔히 사용됩니다.
스노우플레이크 스키마에서 엔지니어는 개별 차원 테이블을 논리적 하위 차원으로 나눕니다. 이렇게 하면 데이터 모델이 더 복잡해지만, 애널리스트가 작업하기는 더 쉬우며 특히 특정 데이터 유형의 경우 더욱 쉽습니다.
이 스키마를 스노우플레이 크 스키마라고 부르는 이유는 아래에서 볼 수 있듯이 ERD(entity-relationship diagram)가 눈송이처럼 보이기 때문입니다.

스타 스키마처럼 스노우플레이크 스키마에는 외래 키를 통해 다수의 차원 테이블로 연결되는 중앙의 팩트 테이블이 있습니다. 그러나, 주된 차이점은 스노우플레이크 스키마가 스타 스키마보다 더 정규화되어 있다는 것입니다.
스노우플레이크 스키마는 높은 정규화 표준을 더 엄격하게 준수하므로 더 높은 효율성을 제공하지만, 쿼리 성능은 더 비정규화된 데이터 모델만큼 좋지 않습니다. 스타 스키마와 같은 비정규화된 데이터 모델은 데이터 중복성(데이터의 복제)이 더 강하므로 중복된 데이터를 사용하여 쿼리 성능을 높입니다.
Q: Databricks SQL은 기존 데이터 웨어하우스와 무엇이 다른가요?
A: Databricks SQL은 AI가 기본으로 통합된 서버리스 레이크하우스 아키텍처 기반의 지능형 데이터 웨어하우스입니다. 자연어 쿼리와 자동 성능 최적화를 통해 누구나 손쉽게 데이터에 접근하고, 운영 비용을 줄일 수 있습니다.
Q: 스노우플레이크 스키마는 스타 스키마와 어떻게 다르며 어떤 특징이 있나요?
A: 스노우플레이크 스키마는 스타 스키마를 확장한 형태로, 차원 테이블을 논리적으로 하위 차원으로 분리한 정규화된 데이터 모델입니다. 스타 스키마가 단순성과 빠른 쿼리에 초점을 둔다면, 스노우플레이크 스키마는 데이터 품질, 구조적 정밀성, 유지 관리에 더 유리합니다. 자세한 내용은 Databricks 용어집에서 스타 스키마 항목을 확인해보세요.
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.