주요 컨텐츠로 이동

Databricks에서의 지능형 데이터 웨어하우징

이 참조 아키텍처는 Databricks 데이터 인텔리전스 플랫폼이 스트리밍과 배치 수집, 관리된 저장소, 확장 가능한 SQL 분석 및 통합 AI를 결합하여 현대적인 데이터 웨어하우징과 BI를 가능하게 하는 방법을 보여줍니다.

Image of a data warehousing session at the Data + AI Summit 2025, featuring Databricks' Lakehouse architecture.

아키텍처 요약

이 아키텍처는 전통적인 보고서, 실시간 대시보드, 예측 모델링 및 자체 서비스 분석을 지원하며, 보안, 거버넌스, 성능에 대한 기업 표준을 충족합니다.

이 솔루션은 Databricks SQL로 구동되는 Databricks Data Intelligence Platform이 데이터 팀과 비즈니스 이해관계자의 요구를 충족하면서 조직의 데이터 웨어하우징 전략을 현대화하는 방법을 보여줍니다.

아키텍처는 Unity Catalog가 관리하는 개방적이고 거버넌스가 적용된 레이크하우스로 시작합니다. 데이터는 운영 데이터베이스, SaaS 앱, 이벤트 스트림 및 파일 시스템을 포함한 다양한 시스템에서 수집되어 중앙 저장 계층에 저장됩니다. 이 플랫폼의 데이터 지능은 ETL 및 SQL 분석부터 대시보드와 AI 사용 사례에 이르기까지 모든 것을 지원합니다. SQL, BI 도구 및 자연어 쿼리를 통한 유연한 접근을 지원함으로써, 플랫폼은 데이터 제품 배포를 가속화하고 조직 전체에서 인사이트를 접근 가능하게 합니다.

 

사용 사례

기술 사용 사례

  • 다양한 소스에서 구조화된, 비구조화된, 배치 및 스트리밍 데이터를 수집
  • 견고한 선언형 ETL 파이프라인 구축
  • 메달리온 아키텍처를 사용하여 사실, 차원 및 데이터 마트 모델링
  • 보고서 및 대시보드를 위한 고동시성 SQL 쿼리 실행
  • ML 출력을 웨어하우스에 직접 통합하여 하류 사용

비즈니스 사용 사례

  • 판매, 운영 또는 고객 지표에 대한 실시간 대시보드 제공
  • Genie와 같은 자연어 인터페이스를 통한 ad hoc 탐색 가능
  • 수요 예측 및 이탈 모델링과 같은 예측 사용 사례 지원
  • 거버넌스가 적용된 데이터 제품을 부서 간 또는 파트너와 공유
  • 재무, 마케팅 및 제품 팀에게 빠르고 신뢰할 수 있는 인사이트 제공

 

데이터 인텔리전스를 통한 주요 기능

이 아키텍처의 데이터 인텔리전스 구성 요소는 플랫폼을 더욱 똑똑하게, 적응성 있게 만들고, 다양한 역할과 작업 부하에 걸쳐 사용하기 쉽게 만듭니다. 시스템 전체에 AI와 메타데이터 인식을 적용하여 경험을 단순화하고 의사결정을 자동화합니다:

  • 자연어 인터페이스 (Genie): 비즈니스 맥락을 이해하고 사용자가 데이터 질문을 평문으로 물어볼 수 있게 합니다
  • 의미론적 인식: 테이블, 열 및 사용 패턴 간의 관계를 인식하여 조인, 필터 또는 계산을 제안합니다
  • 예측 최적화: 역사적인 작업 부하를 기반으로 쿼리 성능과 컴퓨트 할당을 지속적으로 조정합니다
  • 통합 거버넌스: 데이터 자산의 태그, 분류 및 추적을 통해 발견을 더 직관적이고 안전하게 만듭니다
  • 핵심 기능: 데이터와 사용자에게 적응하는 자기 최적화 플랫폼
  • 차별화 요소: 데이터 인텔리전스는 수집, 쿼리, 거버넌스 및 시각화 전반에 걸쳐 내장되어 있습니다 — 별도로 추가되지 않음

 

주요 기능 및 차별화 요소와 함께 데이터 흐름

  1. 데이터 소스: 데이터는 엔터프라이즈 앱 (예: SAP, Salesforce), 데이터베이스, IoT 장치, 애플리케이션 로그 및 외부 API를 포함한 다양한 시스템에 저장됩니다. 이러한 소스는 구조화, 반구조화 또는 비구조화 데이터를 생성할 수 있습니다.
  2. 데이터 수집: 배치 작업, 변경 데이터 캡처 (CDC) 또는 스트리밍을 통해 데이터를 가져옵니다. 이 파이프라인은 소스 시스템과 사용 사례에 따라 거의 실시간 또는 예약된 간격으로 레이크하우스 아키텍처를 공급합니다.
    • 주요 차별화 요소: 모든 모달리티에 대한 통합 수집 — 배치, 스트리밍 및 CDC — 별도의 인프라나 파이프라인이 필요 없음
  3. 데이터 변환, ETL, 선언적 파이프라인: 일단 수집되면, 데이터는 메달리온 아키텍처 를 통해 변환되고 원시 데이터에서 정제된 데이터로 점진적으로 개선됩니다.
    • Raw zone에서 Bronze zone으로: 외부 소스 시스템에서 수집된 데이터는 이 계층의 구조가 소스 시스템 테이블 구조와 "그대로" 일치하며, 데이터에 대한 변환 또는 업데이트가 없습니다
    • Bronze zone에서 Silver zone으로: 들어오는 데이터를 표준화하고 정리
    • Silver zone에서 Gold zone으로: 비즈니스 로직을 적용하여 재사용 가능한 모델을 생성합니다
    • 사실과 차원 데이터 마트: 하류 분석을 위해 데이터를 집계하고 큐레이션
    • 주요 차별화 요소: 선언적이고 생산적인 파이프라인으로 라인 연계, 관찰 가능성 및 스키마 진화가 내장되어 있습니다
  4. AI 사용 사례를 위한 정제된 데이터: 데이터 마트에서 정제된 데이터는 기계 학습 모델을 훈련하거나 적용하는 데 사용할 수 있습니다. 이러한 모델은 수요 예측, 이상 탐지 및 고객 점수 매기기와 같은 사용 사례를 지원합니다.
    • 모델 출력은 SQL 또는 대시보드를 통해 쉽게 접근할 수 있도록 전통적인 웨어하우스 데이터와 함께 저장됩니다
    • 결과는 요구 사항에 따라 스케줄에 따라 업데이트되거나 실시간으로 점수를 매길 수 있습니다
    • 주요 차별화 요소: 동일한 플랫폼에서 공동 위치한 분석 및 AI 작업 부하 — 데이터 이동이 필요 없습니다. 모델 출력은 원래의, 쿼리 가능한 거버넌스 자산으로 취급됩니다.
  5. 쿼리를 공급하는 BI 보고 도구: Databricks SQL은 고병행, 저지연 쿼리를 지원하며, 서버리스 컴퓨트를 통해 인기 있는 BI 도구에 쉽게 연결됩니다.
    • 내장된 쿼리 편집기와 쿼리 기록
    • 쿼리는 데이터 마트 또는 풍부한 모델 출력에서 거버넌스, 최신 결과를 반환합니다
    • 주요 차별화 요소: Databricks SQL은 BI 도구가 데이터를 직접 쿼리할 수 있게 해주어 복제 없이 복잡성을 줄이고 추가 라이선스 비용을 피하며 전체 TCO를 낮춥니다. 서버리스 컴퓨트와 지능형 최적화와 결합하여 웨어하우스 수준의 성능을 최소한의 조정으로 제공합니다.
  6. 대시보드: Databricks에서 직접 빌드하거나 Power BI 또는 Tableau와 같은 외부 BI 도구에서 빌드할 수 있습니다. 사용자는 시각적 요소를 자연어로 설명할 수 있으며, Databricks Assistant는 해당 차트를 생성하며, 이를 포인트 앤 클릭 인터페이스를 사용하여 세부 조정할 수 있습니다.
    • 자연어 입력을 사용하여 시각화 생성
    • 필터와 드릴 다운을 사용하여 대시보드를 대화식으로 수정하고 탐색
    • 대시보드를 조직 전체에 게시하고 안전하게 공유하며, Databricks 작업 공간 외부의 사용자를 포함합니다
    • 주요 차별화 요소: 거버넌스가 적용된 실시간 데이터에 대한 대시보드를 구축하고 탐색하는 데 AI 지원 및 로우 코드 경험을 제공합니다
  7. 정제된 데이터 제공: 일단 정제되면, 데이터는 대시보드를 넘어 제공될 수 있습니다:
    • 트랜잭션 결정을 위해 하류 애플리케이션 또는 운영 데이터베이스와 공유
    • 협업 노트북에서 분석을 위해 사용
    • 통합 거버넌스를 통해 Delta Sharing을 통해 파트너, 팀 또는 외부 소비자에게 배포
  8. 자연어 쿼리 (NLQ): 비즈니스 사용자는 자연어를 사용하여 관리된 데이터에 접근할 수 있습니다. 이 대화형 경험은 생성적 AI에 의해 구동되며, 팀이 정적 대시보드를 넘어 실시간, 자체 서비스 통찰력을 얻을 수 있게 합니다. NLQ는 Unity Catalog의 의미론과 메타데이터를 활용하여 사용자의 의도를 SQL로 변환합니다.
    • 대시보드에 미리 빌드되지 않은 ad hoc, 대화식, 실시간 질문을 지원
    • 시간이 지남에 따라 진화하는 비즈니스 용어와 맥락에 지능적으로 적응합니다.
    • Unity Catalog를 통해 기존 데이터 거버넌스 및 접근 제어를 활용
    • 준수 및 투명성을 위한 자연어 쿼리의 감사 및 추적 가능성 제공
    • 주요 차별화 요소: 지속적으로 진화하는 비즈니스 개념에 적응하여, SQL 전문 지식이 필요 없이 정확하고 문맥에 맞는 응답을 제공
  9. 플랫폼 기능: 거버넌스, 성능, 오케스트레이션 및 오픈 스토리지: 아키텍처는 보안, 최적화, 자동화 및 전체 데이터 수명주기에 걸쳐 상호 운용성을 지원하는 플랫폼 기본 기능의 집합에 의해 뒷받침됩니다. 주요 기능:
    • 거버넌스: Unity Catalog는 모든 작업 부하에 걸쳐 중앙 집중식 접근 제어, 계보, 감사 및 데이터 분류를 제공합니다.
    • 성능: 포톤 엔진, 지능형 캐싱 및 작업 인식 최적화는 수동 튜닝 없이 빠른 쿼리를 제공합니다
    • 오케스트레이션: 내장된 오케스트레이션은 데이터 파이프라인, AI 워크플로우 및 배치 및 스트리밍 작업 간의 예약된 작업을 관리하며, 종속성 관리 및 오류 처리에 대한 기본 지원이 있습니다
    • 오픈 스토리지: 데이터는 오픈 포맷(Delta Lake, Parquet, Iceberg)에 저장되어 도구 간 상호 운용성, 플랫폼 간 이식성 및 벤더 잠금 없는 장기 내구성을 가능하게 합니다
    • 모니터링 및 감사 가능성: 쿼리 성능, 파이프라인 실행 및 사용자 액세스에 대한 종단 간 가시성을 제공하여 더 나은 제어와 비용 관리를 가능하게 합니다
    • 주요 차별화 요소: 플랫폼 수준의 서비스는 통합되어 있지 않고 계층화되어 있어, 거버넌스, 자동화 및 성능이 모든 데이터 워크플로우, 클라우드 및 팀에서 일관되게 유지됩니다

권장

Azure Databricks를 이용한 데이터 인텔리전스 엔드-투-엔드 아키텍처

참조 아키텍처

Azure Databricks를 이용한 데이터 인텔리전스 엔드-투-엔드 아키텍처
데이터 수집 참조 아키텍처

참조 아키텍처

데이터 수집 참조 아키텍처
신용 손실 예측을 위한 참조 아키텍처

산업 아키텍처

신용 손실 예측을 위한 참조 아키텍처