분석 시스템을 설계할 때 산업별 도메인 모델, Kimball, Inmon, 데이터 볼트(Data Vault) 방법론 등 다양한 데이터 모델을 사용할 수 있습니다. 고유한 요구사항에 따라 lakehouse를 설계할 때 이러한 다양한 모델링 기법을 사용할 수 있습니다. 이들 모두 각자의 강점이 있으며, 각각 다양한 사용 사례에 적합할 수 있습니다.
궁극적으로 데이터 모델은 일대일, 일대다, 다대다 관계가 정의된 다양한 테이블을 정의하는 구성일 뿐입니다. 데이터 플랫폼은 더 쉬운 정보 검색과 향상된 성능을 위해 데이터 모델을 물리화하는 모범 사례를 제공해야 합니다.
이전 기사에서는 Databricks와 Delta Lake로 스타 스키마를 구현하는 5가지 간단한 단계를 다루었습니다. 이 아티클에서는 Data Vault가 무엇인지, Bronze/Silver/Gold 레이어 내에서 구현하는 방법, 그리고 Databricks Lakehouse Platform으로 Data Vault의 최상의 성능을 얻는 방법을 설명합니다.
데이터 볼트 모델링의 목표는 빠르게 변화하는 비즈니스 요구사항에 적응하고 설계상 데이터 웨어하우스의 더 빠르고 민첩한 개발을 지원하는 것입니다. 데이터 볼트는 허브, 링크, 새털라이트 설계를 통해 데이터 모델이 쉽게 확장 가능하고 세분화되어 설계 및 ETL 변경을 쉽게 구현할 수 있으 므로 레이크하우스 방법론에 매우 적합합니다.
Data Vault의 몇 가지 구성 요소를 알아보겠습니다. 일반적으로 데이터 볼트 모델에는 세 가지 유형의 엔터티가 있습니다.
데이터 볼트 방법론을 사용하는 주요 이점 중 하나는 데이터 모델이 변경될 때 기존 ETL 작업의 리팩터링이 현저히 줄어든다는 것입니다. 데이터 볼트는 '쓰기 최적화된' 모델링 스타일이며 애자일 개발 방식을 지원하고 데이터 레이크 및 lakehouse 방식에 매우 적합합니다.

