주요 컨텐츠로 이동

Azure Databricks를 이용한 데이터 인텔리전스 엔드-투-엔드 아키텍처

데이터 인텔리전스 엔드-투-엔드 아키텍처는 분석, AI 및 실시간 인사이트를 위한 확장 가능하고 안전한 기반을 제공하며, 배치 및 스트리밍 데이터 모두를 처리합니다.

Image of Azure Databricks architecture, including data ingestion, transformation, querying, and serving processes.

아키텍처 요약

데이터 인텔리전스 엔드-투-엔드 아키텍처는 Microsoft Fabric의 Power BI와 Copilot, Microsoft Purview, Azure Data Lake Storage Gen2 및 Azure Event Hubs와 원활하게 통합되어, 기업 전체에서 데이터 기반 의사결정을 강화합니다. 이 솔루션은 Azure Databricks의 데이터 인텔리전스 플랫폼과 Power BI를 결합하여 데이터와 AI를 민주화하면서 엔터프라이즈 등급의 보안 및 규모 요구를 충족하는 방법을 보여줍니다. Unity 카탈로그에 의해 관리되는 개방적이고 통합된 레이크하우스 아키텍처로 시작하여, 데이터 인텔리전스는 조직의 고유한 데이터를 활용하여 ETL, 데이터 웨어하우징 및 AI에 대한 간단하고 견고하며 접근 가능한 솔루션을 제공하여 데이터 제품을 더 빠르고 쉽게 제공할 수 있습니다.

 

사용 사례

이 엔드 투 엔드 아키텍처는 다음을 위해 사용될 수 있습니다:

  1. ETL, 데이터 웨어하우징, AI를 결합하여 레거시 데이터 아키텍처를 현대화하고, 더 간단하고 미래에 대비한 플랫폼을 만드세요.
  2. 실시간 분석 사용 사례를 규모에 맞게 구현하십시오. 예를 들어, 전자 상거래 추천, 예측 유지 보수 및 공급 체인 최적화 등이 있습니다.
  3. AI 주도 고객 서비스 에이전트, 개인화 및 문서 자동화와 같은 생산 등급 GenAI 애플리케이션 구축
  4. 조직 내의 비즈니스 리더들이 깊은 기술적 기술이나 맞춤형 대시보드 없이 데이터에서 통찰력을 얻을 수 있도록 돕습니다.
  5. 파트너와 고객과 데이터를 안전하게 공유하거나 수익화

 

데이터플로우

  1. Data Ingestion
    • 스트림 데이터를 Azure Event Hubs 에서 Lakeflow Declarative Pipelines로 전송하고, 스키마 강제 및 관리는 Unity Catalog를 통해 진행합니다
    • 데이터를 점진적으로 적재하기 위해 Auto Loader 를 사용하고, 비구조화 및 반구조화 데이터는 ADLS Gen2 에서 Delta Lake로 이동합니다
    • 외부 관계형 시스템에 접근하려면 Lakehouse Federation을 사용하여 모든 소스가 동일한 거버넌스 모델을 따르도록 합니다.
  2. Lakeflow 선언적 파이프라인과 Photon 엔진을 사용하여 메달리온 아키텍처를 따라 대규모로 배치 및 스트리밍 데이터 처리
    • 브론즈: 보존 및 감사 가능성을 위해 원시 배치 및 스트리밍 데이터가 그대로 수집됩니다.
    • Silver: 정제되고 결합된 데이터셋 - 복잡성을 단순화하기 위해 스트리밍 및 배치 로직이 선언적으로 정의됩니다
    • Gold: 하류 분석 및 AI 시스템에 의해 소비되도록 설계된 집계된, 비즈니스 준비 데이터
    • 이 통합 접근 방식은 팀이 실시간 및 과거 데이터 처리를 지원하는 견고한 파이프라인을 구축할 수 있게 해줍니다.
  3. ADLS Gen2에서 Delta Lake를 사용하여 모든 데이터를 열린, 상호 운용 가능한 형식으로 저장합니다.
    Delta, Apache Iceberg™ 및 Hudi와 같은 엔진 간의 호환성을 활성화하면서 저장소를 안전하고 확장 가능한 환경에서 중앙화합니다.
  4. 협업 노트북과 거버넌스 ML 도구를 사용하여 AI 모델을 탐색, 풍부하게 만들고 훈련시킵니다.
    서버리스 노트북을 사용하여 모델을 탐색하고 훈련시키며, MLflow, 피처 스토어, Unity 카탈로그가 모델, 피처, 벡터 인덱스를 관리합니다.
  5. Databricks SQL을 사용하여 데이터 레이크에서 직접 ad hoc 및 고병렬성 쿼리를 제공합니다.
    데이터를 이동하거나 복제할 필요 없이 Gold-level 데이터에 빠르고 비용 효율적인 접근을 제공합니다.
  6. Unity 카탈로그에 연결된 의미론적 모델을 사용하여 Power BI에서 비즈니스 준비 데이터를 시각화합니다.
    Databricks SQL을 통한 거버넌스 데이터에 대한 실시간 연결로 Microsoft Fabric에서 보고서를 작성합니다.
  7. AI/BI Genie를 사용하여 비즈니스 사용자가 자연어를 사용하여 데이터를 탐색하게 하십시오.
    데이터 접근을 민주화하려면 누구나 SQL을 작성하지 않고 대화식으로 데이터를 쿼리할 수 있게 하십시오.
  8. Delta Sharing을 사용하여 실시간으로 관리되는 데이터를 외부로 공유하십시오.
    개방형 표준을 사용하여 데이터를 파트너, 고객 또는 다른 비즈니스 유닛과 안전하게 배포하십시오.
  9. Databricks Jobs를 사용하여 플랫폼 전체의 데이터 및 AI 워크플로우를 조정합니다.
    파이프라인 및 ML 작업 전반에 걸쳐 종속성, 스케줄링, 실행을 단일 창에서 관리합니다.
  10. 메타데이터를 Microsoft Purview에 게시하여 통합 데이터 검색 및 관리를 위해 사용하십시오.
    Unity 카탈로그 메타데이터를 동기화하여 엔터프라이즈 전체의 가시성을 확장하십시오.
  11. 플랫폼 거버넌스를 위해 핵심 Azure 서비스를 활용합니다.

권장

Databricks에서의 지능형 데이터 웨어하우징

참조 아키텍처

Databricks에서의 지능형 데이터 웨어하우징
데이터 수집 참조 아키텍처

참조 아키텍처

데이터 수집 참조 아키텍처
신용 손실 예측을 위한 참조 아키텍처

산업 아키텍처

신용 손실 예측을 위한 참조 아키텍처