주요 컨텐츠로 이동

Databricks 기반 지능형 데이터 웨어하우징 - 복제됨

이 레퍼런스 아키텍처는 Databricks 데이터 인텔리전스 플랫폼이 통합 레이크하우스에서 스트리밍 및 배치 수집, 거버넌스가 적용된 스토리지, 확장 가능한 SQL 분석, 통합 AI를 결합하여 현대적인 데이터 웨어하우징과 BI를 구현하는 방법을 보여줍니다.

Image of a data warehousing session at the Data + AI Summit 2025, featuring Databricks' Lakehouse architecture.

아키텍처 요약

이 아키텍처는 보안, 거버넌스 및 성능에 대한 엔터프라이즈 표준을 충족하는 동시에 기존 보고, 실시간 대시보드, 예측 모델링 및 셀프 서비스 분석을 지원합니다.

이 솔루션은 Databricks Lakehouse를 기반으로 하는 Databricks 데이터 인텔리전스 플랫폼이 데이터 팀과 비즈니스 이해관계자 모두의 요구사항을 충족하면서 조직이 데이터 웨어하우징 전략을 현대화하도록 지원하는 방법을 보여줍니다.

이 아키텍처는 Unity Catalog에서 관리하는 개방형의 거버넌스가 지원되는 레이크하우스에서 시작됩니다. 데이터는 운영 데이터베이스, SaaS 앱, 이벤트 스트림, 파일 시스템을 포함한 다양한 시스템에서 수집되어 중앙 스토리지 레이어에 저장됩니다. 이 플랫폼의 데이터 인텔리전스는 ETL 및 SQL 분석부터 대시보드, AI 사용 사례에 이르기까지 모든 것을 지원합니다. SQL, BI 도구 및 자연어 쿼리를 통한 유연한 액세스를 지원함으로써 이 플랫폼은 데이터 제품 제공을 가속화하고 조직 전체에서 인사이트에 쉽게 접근할 수 있도록 합니다.

사용 사례

기술적 사용 사례

  • 다양한 소스에서 정형, 비정형, 배치 및 스트리밍 데이터 수집
  • 견고한 선언적 ETL 파이프라인 구축
  • 메달리온 아키텍처를 사용하여 팩트, 디멘션 및 데이터 마트 모델링
  • 보고 및 대시보드 생성을 위해 높은 동시성의 SQL 쿼리 실행
  • 다운스트림 활용을 위해 ML 출력을 웨어하우스에 직접 통합

비즈니스 사용 사례

  • 매출, 운영 또는 고객 지표에 대한 실시간 대시보드 제공
  • Genie와 같은 자연어 인터페이스를 통해 애드혹 탐색 지원
  • 수요 예측 및 이탈 모델링과 같은 예측 사용 사례 지원
  • 부서 간 또는 파트너와 거버넌스가 지원되는 데이터 제품 공유
  • 재무, 마케팅 및 제품 팀에 빠르고 신뢰할 수 있는 인사이트 제공

데이터 인텔리전스를 통한 핵심 기능

이 아키텍처의 데이터 인텔리전스 구성 요소는 플랫폼을 더 스마트하고 적응력 있게 만들며, 다양한 페르소나와 워크로드에서 더 쉽게 사용할 수 있도록 지원합니다. 시스템 전반에 AI 및 메타데이터 인식을 적용하여 경험을 단순화하고 의사 결정을 자동화합니다.

  • 자연어 인터페이스(Genie): 비즈니스 맥락을 이해하고 사용자가 일상적인 언어로 데이터에 대해 질문할 수 있도록 지원합니다.
  • 시맨틱 인식: 테이블, 열 및 사용 패턴 간의 관계를 인식하여 조인, 필터 또는 계산을 제안합니다.
  • 예측 최적화: 과거 워크로드를 기반으로 쿼리 성능과 컴퓨팅 할당을 지속적으로 튜닝합니다.
  • 통합 거버넌스: 데이터 자산의 사용을 태깅, 분류 및 추적하여 탐색을 더 직관적이고 안전하게 만듭니다.
  • 핵심 기능: 데이터와 사용자에 맞게 스스로 최적화하는 플랫폼
  • 차별화 요소: 데이터 인텔리전스가 사후에 추가된 것이 아니라 수집, 쿼리, 거버넌스 및 시각화 전반에 내장되어 있습니다.

핵심 기능 및 차별화 요소를 포함한 데이터 흐름

  1. 데이터 소스: 데이터는 엔터프라이즈 앱(예: SAP, Salesforce), 데이터베이스, IoT 디바이스, 애플리케이션 로그 및 외부 API를 포함한 매우 다양한 시스템에 저장됩니다. 이러한 소스는 정형, 반정형 또는 비정형 데이터를 생성할 수 있습니다.
  2. 데이터 수집: 배치 작업, CDC(변경 데이터 캡처) 또는 스트리밍을 통해 데이터를 가져옵니다. 이러한 파이프라인은 소스 시스템 및 사용 사례에 따라 거의 실시간으로 또는 예약된 간격으로 레이크하우스 아키텍처에 데이터를 공급합니다.
    • 핵심 차별화 요소: 별도의 인프라나 파이프라인 없이 배치, 스트리밍, CDC 등 모든 방식에 대한 통합 수집 지원
  3. 데이터 변환, ETL, 선언적 파이프라인: 수집된 데이터는 메달리온 아키텍처를 통해 변환되며, 원시 데이터에서 정제된 데이터로 점진적으로 고도화됩니다.
    • Raw 영역에서 Bronze 영역으로: 외부 소스 시스템에서 수집된 데이터로, 이 레이어의 구조는 데이터 변환이나 업데이트 없이 소스 시스템 테이블 구조 "있는 그대로" 대응됩니다.
    • Bronze 영역에서 Silver 영역으로: 들어오는 데이터 표준화 및 정제
    • Silver 영역에서 Gold 영역으로: 비즈니스 로직을 적용하여 재사용 가능한 모델 생성
    • 팩트 및 디멘션 데이터 마트: 다운스트림 분석을 위해 데이터 집계 및 정제
    • 핵심 차별화 요소: 계보(lineage), 관찰 가능성(observability) 및 스키마 진화 기능이 내장된 선언적 프로덕션급 파이프라인
  4. AI 사용 사례를 위한 정제된 데이터: 데이터 마트의 정제된 데이터를 사용하여 머신러닝 모델을 학습시키거나 적용할 수 있습니다. 이러한 모델은 수요 예측, 이상 탐지 및 고객 점수 산정과 같은 사용 사례를 지원합니다.
    • SQL 또는 대시보드를 통해 쉽게 액세스할 수 있도록 모델 출력이 기존 웨어하우스 데이터와 함께 저장됩니다.
    • 요구사항에 따라 일정에 맞춰 결과를 업데이트하거나 실시간으로 점수를 산정(scoring)할 수 있습니다.
    • 핵심 차별화 요소: 동일한 플랫폼에 분석 및 AI 워크로드를 공동 배치하여 데이터 이동이 필요 없습니다. 모델 출력은 쿼리 가능한 네이티브 거버넌스 자산으로 취급됩니다.
  5. 쿼리 기반 BI 보고 도구: Databricks Lakehouse는 서버리스 컴퓨팅을 통해 고동시성, 저지연 쿼리를 지원하며, 대중적인 BI 도구와 쉽게 연결됩니다.
    • 내장된 쿼리 편집기 및 쿼리 기록
    • 쿼리는 데이터 마트 또는 강화된 모델 출력에서 거버넌스가 적용된 최신 결과를 반환합니다
    • 주요 차별점: Databricks Lakehouse를 사용하면 BI 도구가 복제 없이 데이터를 직접 쿼리할 수 있어 복잡성이 줄어들고 추가 라이선스 비용이 방지되며 전반적인 TCO가 낮아집니다. 서버리스 컴퓨팅 및 지능형 최적화와 결합되어 최소한의 튜닝으로 데이터 웨어하우스급 성능을 제공합니다.
  6. 대시보드: Databricks 내에서 직접 빌드하거나 Power BI 또는 Tableau와 같은 외부 BI 도구에서 빌드할 수 있습니다. 사용자가 자연어로 시각화 요소를 설명하면 Databricks Assistant가 이에 상응하는 차트를 생성하며, 이후 포인트 앤 클릭 인터페이스를 사용하여 이를 세부 조정할 수 있습니다.
    • 자연어 입력을 사용하여 시각화 생성
    • 필터 및 드릴다운을 통해 대시보드를 대화형으로 수정하고 탐색
    • Databricks 워크스페이스 외부의 사용자를 포함하여 조직 전체에 대시보드를 게시하고 안전하게 공유
    • 주요 차별점: 거버넌스가 적용된 실시간 데이터를 기반으로 대시보드를 빌드하고 탐색할 수 있는 로우코드 및 AI 지원 경험을 제공합니다
  7. 큐레이션된 데이터 제공: 정제된 데이터는 대시보드를 넘어 다음과 같이 제공될 수 있습니다:
    • 트랜잭션 의사 결정을 위해 다운스트림 애플리케이션 또는 운영 데이터베이스와 공유
    • 분석을 위해 협업 노트북에서 사용
    • 통합된 거버넌스를 통해 Delta Sharing을 거쳐 파트너, 팀 또는 외부 소비자에게 배포
  8. 자연어 쿼리(NLQ): 비즈니스 사용자는 자연어를 사용하여 거버넌스가 적용된 데이터에 액세스할 수 있습니다. 생성형 AI 기반의 이러한 대화형 경험을 통해 팀은 정적인 대시보드를 넘어 실시간 셀프 서비스 인사이트를 얻을 수 있습니다. NLQ는 Unity Catalog의 조직 시맨틱 및 메타데이터를 활용하여 사용자의 의도를 SQL로 변환합니다.
    • 대시보드에 미리 빌드되지 않은 애드혹(ad hoc), 대화형, 실시간 질문을 지원합니다
    • 시간이 지남에 따라 변화하는 비즈니스 용어와 맥락에 지능적으로 적응합니다
    • Unity Catalog를 통해 기존 데이터 거버넌스 및 액세스 제어를 활용합니다
    • 규정 준수 및 투명성을 위해 자연어 쿼리의 감사 가능성 및 추적성을 제공합니다
    • 주요 차별점: 변화하는 비즈니스 개념에 지속적으로 적응하여 SQL 전문 지식 없이도 정확하고 맥락을 인식하는 답변을 제공합니다
  9. 플랫폼 기능: 거버넌스, 성능, 오케스트레이션 및 오픈 스토리지: 이 아키텍처는 전체 데이터 수명 주기 동안 보안, 최적화, 자동화 및 상호 운용성을 지원하는 일련의 플랫폼 네이티브 기능에 의해 뒷받침됩니다. 주요 기능:
    • 거버넌스: Unity Catalog는 모든 워크로드에 걸쳐 중앙 집중식 액세스 제어, 계보(lineage), 감사 및 데이터 분류를 제공합니다
    • 성능: Photon 엔진, 지능형 캐싱 및 워크로드 인식 최적화를 통해 수동 튜닝 없이도 빠른 쿼리를 제공합니다
    • 오케스트레이션: 내장된 오케스트레이션은 종속성 관리 및 오류 처리를 기본적으로 지원하여 배치 및 스트리밍 워크로드 전반에서 데이터 파이프라인, AI 워크플로 및 예약된 작업을 관리합니다
    • 오픈 스토리지: 데이터는 개방형 형식(Delta Lake, Parquet, Iceberg)으로 저장되므로 도구 간 상호 운용성, 플랫폼 간 이식성, 벤더 종속성 없는 장기 보존이 가능합니다
    • 모니터링 및 감사 가능성: 더 나은 제어 및 비용 관리를 위해 쿼리 성능, 파이프라인 실행 및 사용자 액세스에 대한 엔드투엔드 가시성을 제공합니다
    • 주요 차별점: 플랫폼 수준 서비스가 별도로 얹어지는 것이 아니라 통합되어 제공되므로 모든 데이터 워크플로, 클라우드 및 팀에서 거버넌스, 자동화 및 성능이 일관되게 보장됩니다

추천

Azure Databricks를 이용한 데이터 인텔리전스 엔드투엔드 아키텍처 구현 방법

참조 아키텍처

Azure Databricks를 이용한 데이터 인텔리전스 엔드투엔드 아키텍처 구현 방법
데이터 수집 참조 아키텍처

참조 아키텍처

데이터 수집 참조 아키텍처
신용 손실 예측을 위한 참조 아키텍처

산업 아키텍처

신용 손실 예측을 위한 참조 아키텍처
신용 손실 예측을 위한 레퍼런스 아키텍처 - 복제됨

산업 아키텍처

신용 손실 예측을 위한 레퍼런스 아키텍처 - 복제됨