주요 컨텐츠로 이동

Lakeflow 선언형 파이프라인으로 생산 ETL 구축하기

현대 분석 및 AI 작업을 위해 설계된 이 참조 아키텍처는 배치 및 스트리밍 데이터를 걸쳐 추출, 변환, 로드 (ETL) 파이프라인을 구축하고 자동화하는 견고하고 확장 가능한 기반을 제공합니다.

Lakeflow Declarative Pipelines

아키텍처 요약

이 참조 아키텍처는 배치 및 스트리밍 파이프라인을 단일 선언형 프레임워크로 통합하려는 조직에 잘 맞으며, 모든 단계에서 데이터의 신뢰성, 품질, 그리고 거버넌스를 보장합니다. 이는 Databricks 데이터 인텔리전스 플랫폼을 활용하여 파이프라인 관리를 단순화하고, 데이터 기대치를 강제하며, 내장된 관찰성과 자동화를 통해 실시간 인사이트를 제공합니다.

다양한 데이터 엔지니어링 및 분석 시나리오를 지원하며, 데이터 수집 및 변환부터 실시간 품질 검사, 비즈니스 로직 및 자동 복구를 포함한 복잡한 워크플로우에 이르기까지 다양합니다. 이 아키텍처를 채택하는 조직들은 종종 레거시 ETL을 현대화하고, 운영 오버헤드를 줄이며, 비즈니스 인텔리전스, 머신 러닝 및 운영 애플리케이션을 위한 정제된 고품질 데이터의 전달을 가속화하려고 합니다.

 

기술 사용 사례

  • 이 아키텍처는 소스 시스템에서 업데이트를 증분적으로 적용하는 변경 데이터 캡처(CDC) 파이프라인을 가능하게 합니다.
  • 데이터 엔지니어는 분석 계층에서 차원 모델을 관리하기 위해 천천히 변하는 차원 (SCD) 패턴을 구축할 수 있습니다
  • 워터마크와 체크포인팅을 사용하여 순서가 뒤섞인 이벤트와 늦게 도착한 데이터를 처리할 수 있는 강건한 스트리밍 파이프라인을 구축할 수 있습니다
  • 데이터 엔지니어는 선언적 제약을 사용하여 스키마 진화와 자동화된 품질 규칙을 적용할 수 있습니다
  • 데이터 엔지니어는 전체 파이프라인에 걸쳐 데이터 라인 연결 추적과 감사 로깅을 자동화할 수 있습니다.

 

비즈니스 사용 사례

  • 소매 및 소비재(CPG) 회사는 이 아키텍처를 사용하여 여러 채널에서 판매, 재고, 고객 행동을 추적하는 실시간 대시보드를 구축할 수 있습니다.
  • 거래, 디지털 상호작용 및 CRM 시스템에서 데이터를 통합함으로써 금융 기관은 사기 탐지 및 고객 세분화를 지원할 수 있습니다.
  • 의료 기관은 임상 통찰력과 준수 보고를 위해 의료 장치 데이터와 환자 기록을 처리하고 정규화할 수 있습니다
  • 제조업체는 IoT 센서 데이터와 과거 로그를 결합하여 예측 유지보수와 공급 체인 최적화를 촉진할 수 있습니다
  • 통신 제공업체는 CRM 및 네트워크 텔레메트리 데이터를 통합하여 고객 이탈 및 사용 패턴을 거의 실시간으로 모델링할 수 있습니다.

 

주요 기능

  • 선언형 파이프라인 개발: SQL 또는 Python을 사용하여 파이프라인을 정의하고, 오케스트레이션 로직을 추상화합니다.
  • 배치 및 스트리밍 지원: 통합 프레임워크에서 실시간 및 예약된 작업 부하를 모두 처리합니다.
  • 데이터 품질 강제: 파이프라인에 직접 기대치를 적용하여 나쁜 데이터를 감지하고, 차단하거나 격리합니다
  • 관찰성과 라인 연결: 내장된 모니터링, 알림, 시각적 라인 연결 추적이 투명성과 문제 해결을 개선합니다.
  • 오류 처리 및 복구: 파이프라인의 어떤 단계에서든 실패를 자동으로 감지하고 복구합니다.
  • Unity 카탈로그를 통한 거버넌스: 세분화된 접근 제어를 강제하고, 데이터 사용을 감사하며, 스택 전체에서 데이터 분류를 유지합니다.
  • 최적화된 실행: Spark와 Photon을 활용하여 확장 가능하고 고성능 처리를 제공합니다
  • 자동화된 작업: 파이프라인은 버전 관리, 배포 및 관리가 가능하며, 스케줄링 및 매개 변수화를 지원합니다.

 

데이터플로우

이 아키텍처는 Lakeflow의 선언적 파이프라인의 자동화, 거버넌스, 신뢰성에 대한 내장 기능을 통해 강화된 견고하고 다중 계층의 메달리온 아키텍처를 따릅니다. 파이프라인의 각 단계는 선언형이며, 배치 및 스트리밍 사용 사례 모두에 최적화되어 관찰 가능합니다:

  1. Lakeflow의 선언적 파이프라인은 배치스트리밍 수집을 모두 지원하여, 데이터를 레이크하우스로 가져오는 통합적이고 자동화된 방법을 제공합니다.
    • 배치 수집 은 스케줄 또는 트리거에 따라 데이터를 로드하며, 주기적인 ETL 워크플로우에 이상적입니다. 클라우드 저장소와 데이터베이스에서 전체 및 증분 로드를 지원합니다. 전통적인 도구와 달리, 선언형은 오케스트레이션, 재시도, 스키마 진화를 기본적으로 관리하여 외부 스케줄러나 스크립트의 필요성을 줄입니다.
    • 스트리밍 수집 은 구조화된 스트리밍을 사용하여 Kafka와 Event Hubs와 같은 소스에서 데이터를 지속적으로 처리합니다. 선언형 파이프라인은 체크포인팅, 상태 관리, 자동 스케일링을 기본적으로 처리하여, 일반적으로 스트리밍 파이프라인에서 필요한 수동 구성을 제거합니다.

    모든 데이터는 먼저 브론즈 계층 에 원시 형태로 도착하여 완전한 계보, 추적 가능성 및 안전한 재처리를 가능하게 합니다. 파이프라인의 선언형 접근법, 내장된 품질 검사, 자동 인프라 처리 는 운영 복잡성을 크게 줄이고, 강건하고 생산적인 파이프라인을 구축하기 쉽게 만듭니다. 이는 대부분의 레거시 ETL 도구가 기본적으로 제공하기 어려운 것입니다.

  2. 수집 후에는 데이터가 실버 레이어에서 처리될 수 있으며, 여기서 데이터는 정제, 결합, 풍부화되어 하류 소비를 위해 준비됩니다.
    • 파이프라인은 선언적 SQL 또는 Python, 을 사용하여 정의되므로, 변환을 쉽게 읽고 유지 및 버전 관리할 수 있습니다. 변환은 Apache Spark™ with Photon, 을 사용하여 실행되어 확장 가능하고 고성능 처리를 제공합니다.
    • 데이터 품질 검사기대치, 라는 선언형 파이프라인의 기본 기능을 사용하여 인라인으로 적용되며, 팀이 검증 규칙(예: null 검사, 데이터 유형, 범위 제한)을 강제할 수 있게 합니다. 유효하지 않은 데이터는 나쁜 레코드를 삭제하거나, 격리하거나, 파이프라인을 실패시키도록 설정할 수 있습니다. 이는 하류 시스템이 신뢰할 수 있는 데이터만 받게 보장합니다.
    • 파이프라인은 자동으로 작업 종속성 추적, 작업 재시도 및 오류 격리를 처리하여 운영 오버헤드를 줄입니다. 이는 실버 레이어에서 처리된 데이터가 정확하고 일관되며 생산 준비가 되어 있음을 보장하며, 운영의 단순성을 유지합니다.
  3. Gold layer에서, 파이프라인은 소비를 위해 준비된 비즈니스 수준의 집계 및 정제된 데이터셋 을 생성합니다.
    • 이 출력물은 BI 대시보드, 머신 러닝 기능 및 운영 시스템에서 사용하기에 최적화되어 있습니다
    • Declarative Pipelines는 시간 테이블과 SCD 로직을 지원하며, 이를 통해 과거 추적 및 감사 보고와 같은 고급 사용 사례를 가능하게 합니다
  4. 모든 계층에서 Declarative Pipelines는 풍부한 관찰 가능성과 파이프라인 계보를 제공합니다.
    • UI는 데이터 흐름 그래프, 운영 메트릭, 품질 대시보드를 표시하여 빠른 문제 해결과 컴플라이언스 보고를 지원합니다.
    • Unity 카탈로그 통합 을 통해 모든 테이블, 열, 변환은 중앙 집중식 접근 제어, 감사 로깅, 데이터 분류를 통해 관리됩니다.
  5. 파이프라인은 설계 단계에서 생산 준비가 되어 있습니다.
    • 팀은 버전 제어 정의, 를 사용하여 선언형 파이프라인을 배포하고, Lakeflow Jobs를 통해 스케줄링하고, GitHub Actions 또는 Azure DevOps와 같은 CI/CD 도구를 통해 관리할 수 있습니다.
    • 이 자동화는 취약한 스크립팅과 복잡한 오케스트레이션 설정을 대체하여, 데이터 팀이 인프라보다는 비즈니스 로직에 집중하도록 돕습니다.

권장

Databricks Data Engineering in 5 Minutes

온디맨드 비디오

Databricks Data Engineering in 5 Minutes
Use LakeFlow Connect for Salesforce to predict customer churn

온디맨드 비디오

Use LakeFlow Connect for Salesforce to predict customer churn
Databricks 워크플로

제품 둘러보기

Databricks 워크플로