주요 컨텐츠로 이동

Medallion 아키텍처

Databricks 무료로 시작하기

Medallion 아키텍처란 무엇입니까?

메달리온 아키텍처는 레이크하우스에 논리적으로 데이터를 정리하는 데 사용하는 데이터 설계 패턴입니다. 이 아키텍처의 목표는 데이터가 아키텍처의 각 레이어를 통과하는 동안(브론즈 ⇒ 실버 ⇒ 골드 레이어 테이블) 데이터의 구조와 품질을 증분적, 점진적으로 개선하는 것입니다. 메달리온 아키텍처는 "멀티 홉" 아키텍처라고 부르기도 합니다.

 

Delta Lake로 안정적이고 성능이 우수한 데이터 파이프라인

레이크하우스 아키텍처의 장점

  • 간단한 데이터 모델
  • 쉽게 이해하고 구현 가능
  • 증분적 ETL 지원
  • 언제든 원시 데이터에서 테이블 생성 가능
  • ACID 트랜잭션, 시간 이동

레이크하우스에 대한 간단한 설명

레이크하우스는 데이터 레이크와 데이터 웨어하우스의 장점만을 결합한 새로운 데이터 플랫폼 아키텍처 패러다임입니다. 현대적 레이크하우스는 매우 확장성이 높고 성능이 우수한 데이터 플랫폼으로, 원시 데이터 세트와 준비된 데이터 세트를 모두 호스팅하여 기업에서 빠르게 사용할 수 있도록 지원합니다. 또한, 고급 비즈니스 인사이트를 확보하고 결정에 도움을 받을 수 있습니다. 데이터 사일로를 무너트리고, 하나의 플랫폼에서 회사 전체의 권한이 있는 사용자에게 매끄럽고 안전한 데이터 액세스를 제공합니다.

 

Databricks 레이크하우스 플랫폼 아키텍처

브론즈 레이어(원시 데이터)

브론즈 레이어에는 외부 소스 시스템의 모든 데이터가 들어갑니다. 이 레이어의 테이블 구조는 소스 시스템 테이블 구조에 "그대로" 대응하며, 로드 날짜/시간, 프로세스 ID 등을 캐캡처하는 메타데이터 컬럼이 추가됩니다. 이 레이어는 변경 데이터를 빠르게 캡처할 뿐만 아니라, 소스(콜드 스토리지)의 과거 아카이브, 데이터 리니지, 감사 기능, 필요할 경우 소스 시스템에서 데이터를 다시 읽지 않고도 재처리하는 기능을 제공하는 것이 핵심입니다.

실버 레이어(정리와 순응이 끝난 데이터)

레이크하우스의 실버 레이어에서는 브론즈 레이어의 데이터에 매칭, 병합, 순응, ("적당한 수준"으로) 정리를 적용합니다. 실버 레이어에서는 모든 주요 비즈니스 단체, 개념, 트랜잭션에 대한 "엔터프라이즈 뷰"를 제공합니다. (예: 마스터 고객, 스토어, 중복이 없는 트랜잭션, 교차 참조 테이블).

실버 레이어는 다른 소스의 데이터를 엔터프라이즈 뷰로 가져오고, 즉석 보고를 위한 셀프 서비스 분석과 고급 분석, ML을 지원합니다. 실버 레이어는 부서 애널리스트, 데이터 엔지니어, 데이터 사이언티스트에게는 소스 역할을 하면서, 이들이 프로젝트와 분석을 추가로 생성하여 골드 레이어에 있는 회사 및 부서 데이터 프로젝트를 통해 비즈니스 문제에 답할 수 있도록 돕습니다.

In the lakehouse data engineering paradigm, typically the ELT methodology is followed vs. ETL - which means only minimal or "just-enough" transformations and data cleansing rules are applied while loading the Silver layer. Speed and agility to ingest and deliver the data in the data lake is prioritized, and a lot of project-specific complex transformations and business rules are applied while loading the data from the Silver to Gold layer. From a data modeling perspective, the Silver Layer has more 3rd-Normal Form like data models. Data Vault-like, write-performant data models can be used in this layer.

골드 레이어(큐레이션된 비즈니스 레벨 테이블)

일반적으로 레이크하우스 골드 레이어에 있는 데이터는 바로 사용할 수 있는 "프로젝트별" 데이터베이스에 정리됩니다. 골드 레이어는 보고용으로 사용하고, 조인의 개수가 적고 더욱 비정규화된 읽기 최적화 데이터 모델을 사용합니다. 여기에 데이터 변환과 데이터 품질 규칙의 마지막 레이어가 적용됩니다. 고객 분석, 제품 품질 분석, 재고 분석, 고객 세그먼테이션, 제품 추천, 마케팅/영업 분석 등의 프로젝트에서 마지막 표시 레이어가 여기에 들어갑니다. 레이크하우스의 골드 레이어에는 주로 Kimball 스타일 스타 스키마 기반 데이터 모델이나 Inmon 스타일 데이터 마트가 들어가는 사례가 많습니다.

데이터가 레이크하우스의 각 레이어를 통과하는 동안 큐레이션되는 모습을 확인할 수 있습니다. 기존 RDBMS 기술 스택에서 대량의 데이터 마트와 EDW가 레이크하우스로 입력하는 경우도 있습니다. 이제 처음으로 기업에서 "EDW 전체"에 대한 고급 분석과 머신 러닝을 적용할 수 있습니다. 기존 스택에서는 원래 아예 불가능했거나 비용이 지나치게 많이 들었습니다. (예: IoT/제조 데이터는 결함 분석과 관련하여 영업 및 마케팅 데이터와 연결되어 있습니다. 의료 유전체학, EMR/HL7 임상 데이터 시장은 보험료 청구 데이터와 결합되어 시기 적절하고 개선된 환자 치료 분석을 위한 의료 데이터 레이크를 구성합니다.)

메달리온 아키텍처와 데이터 메시

메달리온 아키텍처는 데이터 메시의 개념과 양립합니다. 브론즈와 실버 테이블을 단일 업스트림 테이블의 데이터를 사용하여 여러 다운스트림 테이블을 사용하는 것처럼 "일 대 다" 방식으로 함께 조인할 수 있습니다.

 

지금 Databricks를 무료로 체험해 보세요 ]

추가 자료

용어집으로 돌아가기