주요 컨텐츠로 이동

스노우플레이크 스키마란 무엇인가요?

차원 테이블을 여러 개의 관련 테이블로 정규화하여 스타 스키마를 확장하는 데이터 웨어하우스 설계로, 중복성을 줄이는 동시에 쿼리 복잡성을 높입니다.

작성자: Databricks 직원

  • 차원 테이블을 계층 구조(예: 제품-카테고리-부서)로 정규화하여 외래키로 연결된 여러 관련 테이블을 생성합니다. 이는 스타 스키마의 비정규화된 차원 구조와 대조적입니다.
  • 정규화를 통해 데이터 중복을 제거하여 저장 공간을 줄이고 업데이트 이상 현상을 방지합니다. 이는 계층 수준이 많고 속성이 많아 빈번한 업데이트가 필요한 대규모 차원 테이블에 특히 유용합니다.
  • 전체 차원 컨텍스트를 재구성하기 위해 더 많은 조인이 필요하므로 쿼리 복잡성이 증가하여 저장 공간 절약에도 불구하고 쿼리 성능에 영향을 미칠 수 있습니다. 따라서 스타 스키마에 비해 읽기 작업이 많은 분석 워크로드에는 적합하지 않을 수 있습니다.

스노우플레이크 스키마란 무엇인가요?

스노우플레이크 스키마스타 스키마를 확장한 다차원적 데이터 모델로, 차원 테이블을 하위 차원으로 나눕니다. 스노우플레이크 스키마는 OLAP 웨어하우스에 대한 비즈니스 인텔리전스 및 보고, 데이터 마트, 관계형 데이터베이스에 흔히 사용됩니다.

스노우플레이크 스키마에서 엔지니어는 개별 차원 테이블을 논리적 하위 차원으로 나눕니다. 이렇게 하면 데이터 모델이 더 복잡해지만, 애널리스트가 작업하기는 더 쉬우며 특히 특정 데이터 유형의 경우 더욱 쉽습니다.

이 스키마를 스노우플레이크 스키마라고 부르는 이유는 아래에서 볼 수 있듯이 ERD(entity-relationship diagram)가 눈송이처럼 보이기 때문입니다.

외래 키를 통해 다수의 차원 테이블과 하위 차원 테이블에 연결되는 중앙의 팩트 테이블이 있는 스노우플��레이크 스키마 다이어그램.

스노우플레이크 스키마와 스타 스키마

스타 스키마처럼 스노우플레이크 스키마에는 외래 키를 통해 다수의 차원 테이블로 연결되는 중앙의 팩트 테이블이 있습니다. 그러나, 주된 차이점은 스노우플레이크 스키마가 스타 스키마보다 더 정규화되어 있다는 것입니다.

스노우플레이크 스키마는 높은 정규화 표준을 더 엄격하게 준수하므로 더 높은 효율성을 제공하지만, 쿼리 성능은 더 비정규화된 데이터 모델만큼 좋지 않습니다. 스타 스키마와 같은 비정규화된 데이터 모델은 데이터 중복성(데이터의 복제)이 더 강하므로 중복된 데이터를 사용하여 쿼리 성능을 높입니다.

보고서

기업을 위한 에이전틱 AI 플레이북

스노우플레이크 스키마의 장점

  • 빠른 데이터 검색
  • 데이터 품질 유지
  • 데이터 웨어하우징을 위한 심플한 공통 데이터 모델

스노우플레이크 스키마의 단점

  • 초기 설정 시 많은 오버헤드 발생
  • 경직된 데이터 모델
  • 높은 유지 관리 비용

리소스

Q: Databricks SQL은 기존 데이터 웨어하우스와 무엇이 다른가요?
A: Databricks SQL은 AI가 기본으로 통합된 서버리스 레이크하우스 아키텍처 기반의 지능형 데이터 웨어하우스입니다. 자연어 쿼리와 자동 성능 최적화를 통해 누구나 손쉽게 데이터에 접근하고, 운영 비용을 줄일 수 있습니다.

Q: 스노우플레이크 스키마는 스타 스키마와 어떻게 다르며 어떤 특징이 있나요?
A: 스노우플레이크 스키마는 스타 스키마를 확장한 형태로, 차원 테이블을 논리적으로 하위 차원으로 분리한 정규화된 데이터 모델입니다. 스타 스키마가 단순성과 빠른 쿼리에 초점을 둔다면, 스노우플레이크 스키마는 데이터 품질, 구조적 정밀성, 유지 관리에 더 유리합니다. 자세한 내용은 Databricks 용어집에서 스타 스키마 항목을 확인해보세요.

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.