lakehouse는 데이터 레이크와 데이터 웨어하우스의 장점을 결합한 새로운 데이터 플랫폼 패러다임입니다. 이는 다양한 사용 사례와 데이터 제품을 수용할 수 있는 대규모 엔터프라이즈급 데이터 플랫폼으로 설계되었습니다. 다음과 같은 모든 항목을 위한 단일 통합 엔터프라이즈 데이터 리포지토리 역할을 할 수 있습니다.
사용 사례가 다양하기 때문에 레이크하우스의 프로젝트마다 서로 다른 데이터 정리 원칙과 모델링 기법이 적용될 수 있습니다. 기술적으로 Databricks Lakehouse Platform 은 다양한 데이터 모델링 스타일을 지원할 수 있습니다. 이 문서에서는 레이크하우스의 Bronze/Silver/골드 데이터 구성 원칙의 구현과 다양한 데이터 모델링 기술이 각 계층에 어떻게 적용되는지 설명하고자 합니다.
데이터 볼트 는 킴볼 및 인몬 방법에 비해 엔터프라이즈 규모 분석을 위한 데이터 웨어하우스를 구축하는 데 사용되는 최신 데이터 모델링 디자인 패턴입니다.
데이터 볼트는 데이터를 허브, 링크, 새틀라이트의 세 가지 유형으로 구성합니다. 허브는 핵심 비즈니스 엔터티를 나타내고, Link는 허브 간의 관계를 나타내며, 새틀라이트는 허브 또는 Link에 대한 속성을 저장합니다. ```
데이터 볼트는 확장성, 데이터 통합/ETL, 개발 속도가 중요한 애자일 데이터 웨어하우스 개발에 중점을 둡니다. 대부분의 고객은 Databricks 조직 패러다임인 브론즈, 실버, 골드 레이어에 해당하는 랜딩 존, 볼트 존, 데이터 마트 존을 가지고 있습니다. 허브, 링크, 새틀라이트 테이블의 데이터 볼트 모델링 스타일은 일반적으로 Databricks Lakehouse의 실버 레이어에 잘 맞습니다.
Data Vault Alliance에서 데이터 볼트 모델링에 대해 자세히 알아보세요.

차원 모델링은 분석을 위해 데이터 웨어하우스를 최적화하도록 설계하는 상향식 접근 방식입니다. 차원 모델은 비즈니스 데이터를 차원 (예: 시간, 제품) 및 팩트 (예: 금액 및 수량의 트랜잭션)로 비정규화하는 데 사용되며, 서로 다른 주제 영역은 일치 차원을 통해 연결되어 다양한 팩트 테이블을 탐색할 수 있습니다.
차원 모델링의 가장 일반적인 형태는 스타 스키마입니다. 스타 스키마는 데이터를 쉽게 이해하고 분석하며, 매우 쉽고 직관적으로 보고서를 실행할 수 있도록 데이터를 구성하는 데 사용되는 다차원 데이터 모델입니다. 킴볼 스타일 스타 스키마 또는 차원 모델은 데이터 웨어하우스 및 데이터 마트, 그리고 시맨틱 및 보고 레이어의 프레젠테이션 레이어에 대한 골드 표준입니다. 스타 스키마는 대규모 데이터 세트에 대한 쿼리를 최적화하도록 설계되었습니다.

정규화된 Data Vault(쓰기 최적화)와 비정규화된 차원 모델(읽기 최적화) 데이터 모델링 스타일 모두 Databricks Lakehouse에서 사용될 수 있습니다. 실버 레이어의 Data Vault 허브 및 새털라이트는 스타 스키마의 차원을 로드하는 데 사용되며, Data Vault의 링크 테이블은 차원 모델의 팩트 테이블을 로드하기 위한 핵심 구동 테이블이 됩니다. Kimball Group에서 차원 모델링에 대해 자세히 알아보세요.
최신 레이크하우스는 모든 것을 아우르는 엔터프라이즈급 데이터 플랫폼입니다. 서로 다른 데이터 모델링 접근 방식이 필요할 수 있는 ETL, BI, 데이터 과학 및 스트리밍과 같은 모든 종류의 사용 사례에 대해 확장성이 뛰어나고 성능이 우수합니다. 일반적인 레이크하우스가 어떻게 구성되는지 살펴봅시다:

브론즈 레이어에는 외부 소스 시스템의 모든 데이터가 들어갑니다. 이 레이어의 테이블 구조는 로드 날짜/시간, 프로세스 ID 등을 캡처하기 위해 추가될 수 있는 선택적 메타데이터 열을 제외하고는 소스 시스템 테이블 구조와 "있는 그대로" 일치합니다. 이 레이어는 변경 데이터를 빠르게 캡처할 뿐만 아니라, 소스(콜드 스토리지)의 과거 아카이브, 데이터 리니지, 감사 기능, 필요할 경우 소스 시스템에서 데이터를 다시 읽지 않고도 재처리하는 기능을 제공하는 것이 핵심입니다.
대부분의 경우 데이터를 브론즈 레이어에 Delta 형식으로 유지하는 것이 좋습니다. 이렇게 하면 ETL을 위한 후속 브론즈 레이어 읽기 성능이 향상되고 브론즈에서 CDC 변경 사항을 쓰기 위해 업데이트를 수행할 수 있습니다. 때로는 데이터가 JSON 또는 XML 형식으로 도착하면 고객이 이를 원본 소스 데이터 형식으로 랜딩한 후 Delta 형식으로 변경하여 스테이징하는 경우도 있습니다. 따라서 고객이 논리적 Bronze 레이어를 물리적 랜딩 및 스테이징 영역으로 구현하는 경우도 있습니다.
랜딩 존에 가공되지 않은 데이터를 원본 소스 데이터 형식으로 저장하는 것은 Delta를 기본 싱크로 지원하지 않는 수집 도구를 통해 데이터를 수집하거나 소스 시스템이 객체 저장소에 직접 데이터를 덤프하는 경우 일관성을 유지하는 데에도 도움이 됩니다. 이 패턴은 소스가 원시 파일의 랜딩 존에 데이터를 저장한 다음 Databricks AutoLoader 가 데이터를 델타 형식의 스테이징 레이어로 변환하는 autoloader 수집 프레임워크와도 잘 맞습니다.
레이크하우스의 실버 레이어에서는 브론즈 레이어의 데이터에 매칭, 병합, 순응, ("적당한 수준"으로) 정리를 적용합니다. 실버 레이어에서는 모든 주요 비즈니스 단체, 개념, 트랜잭션에 대한 "엔터프라이즈 뷰"를 제공합니다. 이는 엔터프라이즈 운영 데이터 저장소(ODS), 중앙 리포지토리 또는 데이터 메시의 데이터 도메인(예: )과 유사합니다. 마스터 고객, 스토어, 중복이 없는 트랜잭션, 교차 참조 테이블). 이 엔터프라이즈 뷰는 다양한 소스의 데이터를 통합하여 임시 보고, 고급 분석 및 ML을 위한 셀프 서비스 분석을 지원합니다. 실버 레이어는 부서 애널리스트, 데이터 엔지니어, 데이터 사이언티스트에게는 소스 역할을 하면서, 이들이 프로젝트와 분석을 추가로 생성하여 골드 레이어에 있는 회사 및 부서 데이터 프로젝트를 통해 비즈니스 문제에 답할 수 있도록 돕습니다.
레이크하우스 데이터 엔지니어링 패러다임에서는 기존의 추출-변환-로드(ETL)와 달리 일반적으로 (추출-로드-변환) ELT 방법론을 따릅니다. ELT 접근 방식은 실버 레이어를 로드하는 동안 최소한의 또는 "꼭 필요한 만큼의" 변환과 데이터 정리 규칙만 적용됨을 의미합니다. 모든 "엔터프라이즈 수준" 규칙은 실버 레이어에 적용되는 반면, 프로젝트별 변환 규칙은 골드 레이어에 적용됩니다. 여기서는 레이크하우스에서 데이터를 수집하고 전달하는 속도와 민첩성 이 우선시됩니다.
데이터 모델링의 관점에서 보았을 때, 실버 레이어는 데이터 모델처럼 3차 정규형이 더 많습니다. 이 레이어에서는 데이터 볼트(Data Vault)와 유사한 쓰기 성능이 뛰어난 데이터 아키텍처 및 데이터 모델을 사용할 수 있습니다. 데이터 볼트 방법론을 사용하는 경우 Raw Data Vault와 Business Vault는 모두 데이터 레이크의 논리적 실버 레이어에 적합하며, PIT(Point-In-Time) 프레젠테이션 뷰 또는 구체화된 뷰는 골드 레이어에 표시됩니다.
골드 레이어에서는 여러 데이터 마트/데이터 웨어하우스가 차원 모델링/Kimball 방법론에 따라 구축될 수 있습니다. 앞서 설명했듯이 골드 레이어는 보고용이며 실버 레이어에 비해 조인이 더 적고 비정규화되고 읽기에 최적화된 데이터 모델을 사용합니다. 일반적으로 데이터 사이언티스트가 피처 엔지니어링을 위한 알고리즘을 공급하기 위해 비정규화를 원할 경우, 골드 레이어의 테이블은 완전히 비정규화될 수 있습니다.
"프로젝트별" ETL 및 데이터 품질 규칙은 실버 레이어에서 골드 레이어로 데이터를 변환할 때 적용됩니다. 이 레이어에서는 데이터 웨어하우스, 데이터 마트와 같은 최종 프레젠테이션 레이어나 고객 분석, 제품/품질 분석, 재고 분석, 고객 세분화, 제품 추천, 마케팅/영업 분석 등과 같은 데이터 제품이 제공됩니다. 킴볼 스타일의 스타 스키마 기반 데이터 모델 또는 인몬 스타일의 데이터 마트는 이 레이크하우스의 골드 레이어에 적합합니다. 셀프 서비스 분석을 위한 데이터 과학 실험실 및 부서별 샌드박스도 골드 레이어에 속합니다.
요약하자면 데이터는 레이크하우스의 여러 계층을 통과하면서 큐레이팅됩니다.
이 레이크하우스 데이터 조직 접근 방식은 데이터 사일로를 허물고 팀을 통합하며, 적절한 거버넌스가 갖춰진 단일 플랫폼에서 ETL, 스트리밍, BI 및 AI를 수행할 수 있도록 지원하는 것을 목표로 합니다. 중앙 데이터 팀은 데이터 모델링 프로세스가 병목 현상이 되기보다는, 조직의 혁신을 가능하게 하는 주체가 되어 새로운 셀프 서비스 사용자의 온보딩 속도를 높이고 여러 데이터 프로젝트를 병렬로 개발해야 합니다. Databricks Unity Catalog 는 Lakehouse에서 검색 및 탐색, 거버넌스 및 리니지를 제공하여 우수한 데이터 거버넌스 케이던스를 보장합니다.
지금 바로 Databricks SQL로 데이터 볼트와 스타 스키마 데이터 웨어하우스를 구축하세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
