메달리온 아키텍처(Medallion Architecture)
Medallion 아키텍처란 무엇입니까?
메달리온 아키텍처는 레이크하우스에 논리적으로 데이터를 정리하는 데 사용하는 데이터 설계 패턴입니다. 이 아키텍처의 목표는 데이터가 아키텍처의 각 레이어를 통과하는 동안(브론즈 ⇒ 실버 ⇒ 골드 레이어 테이블) 데이터의 구조와 품질을 증분적, 점진적으로 개선하는 것입니다. 메달리온 아키텍처는 "멀티 홉" 아키텍처라고 부르기도 합니다.
자세히 보기
메달리온 아키텍처로 데이터 파이프라인 구축하기
Databricks 는 다음과 같은 도구를 제공합니다. Delta Live Tables (DLT)와 같은 도구를 제공하여 사용자가 단 몇 줄의 코드만으로 브론즈, 실버, 골드 테이블로 데이터 파이프라인을 즉시 구축할 수 있습니다. 또한 스트리밍 테이블과 구체화된 보기를 통해 사용자는 Apache Spark Structured Streaming에서 점진적으로 새로 고쳐지고 업데이트되는 스트리밍 DLT 파이프라인을 생성할 수 있습니다. 자세한 내용은 단일 파이프라인에서 스트리밍 테이블과 구체화된 뷰를 결합하는 방법에 대한 Databricks 설명서를 참조하세요.
브론즈 레이어(원시 데이터)
브론즈 레이어에는 외부 소스 시스템의 모든 데이터가 들어갑니다. 이 레이어의 테이블 구조는 소스 시스템 테이블 구조에 "그대로" 대응하며, 로드 날짜/시간, 프로세스 ID 등을 캡처하는 메타데이터 컬럼이 추가됩니다. 이 레이어는 변경 데이터를 빠르게 캡처할 뿐만 아니라, 소스(콜드 스토리지)의 과거 아카이브, 데이터 리니지, 감사 기능, 필요할 경우 소스 시스템에서 데이터를 다시 읽지 않고도 재처리하는 기능을 제공하는 것이 핵심입니다.
실버 레이어(정리와 순응이 끝난 데이터)
레이크하우스의 실버 레이어에서는 브론즈 레이어의 데이터에 매칭, 병합, 순응, ("적당한 수준"으로) 정리를 적용합니다. 실버 레이어에서는 모든 주요 비즈니스 단체, 개념, 트랜잭션에 대한 "엔터프라이즈 뷰"를 제공합니다. (예: 마스터 고객, 스토어, 중복이 없는 트랜잭션, 교차 참조 테이블).





