주요 컨텐츠로 이동

데이터 웨어하우스 구조

데이터 웨어하우스 아키텍처 선택의 도전과 균형 과제

header image

데이터 웨어하우스 아키텍처란 무엇인가요?

데이터 웨어하우스는 여러 소스로부터 현재 및 과거 데이터를 수집하여, 비즈니스 친화적인 방식으로 저장하고 인사이트와 보고에 활용할 수 있도록 하는 데이터 관리 시스템입니다.

데이터 웨어하우스는 데이터베이스와 다릅니다. 데이터 웨어하우스는 비즈니스 인텔리전스와 분석을 위한 구조화된 저장소인 반면, 데이터베이스는 텍스트와 숫자를 넘어 이미지, 비디오 등 다양한 형태를 포함하는 구조화된 데이터의 모음입니다.

데이터 웨어하우스 아키텍처는 데이터 웨어하우스가 어떻게 조직되고, 구조화되며, 구현되는지를 규정하는 프레임워크를 의미하며, 그 안에는 구성 요소와 프로세스가 포함됩니다.

『Building the Data Warehouse』라는 책을 저술하여 데이터 웨어하우스 산업을 개척한 빌 인몬(Bill Inmon)에 따르면, 데이터 웨어하우스 아키텍처는 “경영진의 의사결정 과정을 지원하기 위한 주제 지향적(subject-oriented), 통합적(integrated), 시계열적(time-variant), 비휘발성(nonvolatile) 데이터의 집합”을 의미합니다.

이를 풀어보면 다음과 같습니다: 

  • 주제 지향적 (Subject-oriented) — 데이터는 판매, 마케팅, 유통 데이터와 같은 특정 비즈니스 주제나 테마를 중심으로 조직되고 구조화됩니다.

  • 통합적 (Integrated) — 데이터 웨어하우스는 여러 소스의 데이터를 통합하여 일관된 방식으로 제공합니다.

  • 시계열적 (Time-variant) — 데이터는 시간에 따른 변화를 기록하는 과거의 스냅샷을 나타내며, 이를 통해 트렌드 분석과 데이터의 변화 추적이 가능합니다.

  • 비휘발성 (Nonvolatile) — 웨어하우스의 데이터는 읽기 전용으로, 변경되거나 덮어쓰여지지 않으므로 과거 데이터가 온전히 보존되어 분석에 신뢰성을 제공합니다.

추가로 살펴보기

데이터 웨어하우스 아키텍처를 언제 사용하나요?

효과적인 데이터 웨어하우스 아키텍처는 조직이 POS 시스템, 재고 관리 도구, 마케팅 및 영업 데이터베이스와 같은 여러 운영 시스템에서 통합된 비즈니스 데이터를 빠르고 쉽게 분석할 수 있도록 합니다. 잘 설계된 데이터 웨어하우스에서는 데이터가 일관되고 효율적으로 저장되며 쉽게 접근할 수 있어 의사결정 역량을 크게 향상합니다.

데이터 웨어하우스는 현대 비즈니스 인텔리전스(BI), 분석, 보고 및 데이터 기반 애플리케이션의 초석입니다. 또한 머신러닝(ML)과 고급 분석을 위해 고품질 데이터를 준비하는 데 자주 사용됩니다. 현대 데이터 웨어하우스는 전통적인 구조화 데이터 범위를 넘어 이미지와 텍스트와 같은 비정형 정보를 지원합니다. 많은 데이터 웨어하우스는 자동화와 더 정교한 인사이트를 가능하게 하는 내장형 AI 기능을 포함합니다.

일반적인 사용 사례:

  • 고객 세분화 - 개인화된 마케팅을 위해 고객을 의미 있는 그룹으로 분류합니다.

  • 재무 보고 - 정확하고 시의적절한 재무제표 작성을 위해 데이터를 통합합니다.

  • 과거 트렌드 분석 - 장기적인 비즈니스 패턴과 성과 변화를 식별합니다.

  • 공급망 최적화 - 재고와 물류 효율성을 추적하여 비용을 절감합니다.

  • 영업 및 마케팅 성과 - 캠페인 효과와 매출 영향을 측정합니다.

왜 데이터 웨어하우스를 선택하나요?
데이터 웨어하우스는 대규모 과거 데이터를 처리하고 시간이 지남에 따른 트렌드를 분석할 수 있도록 설계되었습니다. 또한 거래 시스템 내에서 직접 분석하기 어렵거나 비효율적인 데이터를 검토할 수 있는 능력을 제공합니다.

예를 들어, 한 회사는 데이터 웨어하우스를 사용하여 제품 카테고리별로 나누어 각 영업사원이 발생시킨 월별 매출을 측정할 수 있습니다. 이는 거래형 데이터베이스에서는 일반적으로 제공되지 않는 수준의 인사이트입니다.

데이터 웨어하우스 아키텍처의 유형

데이터 웨어하우스 아키텍처는 구조와 목적에 따라 복잡성이 달라집니다.

단일 계층(Single tier)
이 단순한 형태에서 데이터 웨어하우스는 모든 데이터의 중앙 집중식 저장소이자 분석과 질의를 위한 플랫폼으로 작동합니다. 단일 계층 데이터 웨어하우스 아키텍처는 제한된 수의 데이터 소스, 단순한 보고 요구, 작은 예산을 가진 소규모 조직에 적합합니다.

이중 계층(Two tier)
이 모델은 소스 시스템을 데이터 웨어하우스와 분리하여 두 개의 계층을 만듭니다. 데이터 웨어하우스는 저장과 질의 모두를 위한 플랫폼입니다. 이중 계층 아키텍처는 단일 계층 아키텍처보다 더 큰 확장성과 향상된 성능을 제공하며, 더 복잡한 변환을 가능하게 합니다.

삼중 계층(Three tier)
삼중 계층 데이터 웨어하우스 아키텍처에서 하위 계층은 데이터 소스와 데이터 저장, 데이터 접근 방법, 데이터 적재 또는 추출로 구성됩니다. 중간 계층은 온라인 분석 처리(OLAP) 서버입니다. 상위 계층은 질의, BI, 대시보드, 보고, 분석을 위한 프론트엔드 클라이언트를 포함합니다. 이것은 가장 복잡한 유형의 데이터 웨어하우스 아키텍처이며, 높은 성능과 확장성을 제공하고 분석 도구와 통합되며 복잡한 질의와 분석을 지원합니다.

데이터 웨어하우스 계층

데이터 웨어하우스 아키텍처는 분석과 의사결정을 위해 데이터의 효율적인 흐름, 변환, 활용을 촉진하는 계층적 구조 위에 구축됩니다. 각 계층은 데이터가 비즈니스 요구를 충족하도록 하는 역할을 합니다.

소스 계층(Source layer) 
소스 계층은 데이터 웨어하우스 아키텍처의 기반이자 데이터의 진입점입니다. 이 계층에는 POS, 마케팅 자동화, CRM 또는 ERP 시스템, 서드파티 소스 등 다양한 데이터 소스로부터의 원시 데이터가 포함됩니다.

스테이징 계층(Staging layer)
스테이징 계층은 데이터가 통합, 정제, 변환되는 동안 임시로 저장하여 웨어하우스로 효율적으로 적재될 수 있도록 준비합니다. 스테이징 계층은 소스 계층과 웨어하우스 계층 사이의 완충 역할을 하며, 소스 데이터의 오류가 추가 처리 전에 해결되도록 보장합니다.

웨어하우스 계층(Warehouse layer)
웨어하우스 계층은 처리되고 정제되며 구조화된 데이터가 장기적으로 저장되는 곳입니다. 이 계층의 데이터는 질의와 분석에 최적화된 스키마로 조직되는 경우가 많습니다. 또한 데이터 계보와 접근 제어와 같은 거버넌스 정책을 적용하여 데이터 무결성과 보안을 유지합니다.

소비 계층(Consumption layer)
소비 계층은 데이터가 비즈니스 사용자에게 접근 가능하고 관련성이 있도록 보장합니다. 이 계층에는 BI 도구, 대시보드, 데이터 시각화 플랫폼, 사용자 친화적인 인터페이스를 제공하는 API가 포함됩니다. 이 계층의 데이터는 종종 요약 테이블이나 큐브로 집계되거나 사전 처리되어 더 빠른 질의 성능을 제공합니다.

데이터 웨어하우스 구성 요소

데이터 웨어하우스 아키텍처는 원활한 데이터 관리와 분석을 보장하기 위해 함께 작동하는 핵심 구성 요소로 이루어집니다. 핵심 구성 요소에는 데이터 레이크하우스 아키텍처, 데이터 통합 도구, 메타데이터 및 데이터 접근 도구가 포함되지만, 조직은 필요에 따라 추가 구성 요소를 사용할 수 있습니다.

데이터 레이크하우스 아키텍처
데이터 레이크하우스는 모든 유형의 데이터를 저장하고 처리하는 통합 플랫폼 역할을 하며, 데이터 레이크의 유연성과 전통적 웨어하우스의 관리 기능을 결합합니다. 이는 구조화 및 비정형 데이터를 모두 처리하며, SQL 분석부터 머신러닝 워크로드까지 지원하면서 데이터 품질과 성능을 유지합니다.

데이터 통합 도구
데이터 통합 도구는 직접 통합과 데이터 가상화라는 두 가지 주요 데이터 관리 접근 방식을 지원합니다. 직접 통합 도구는 ETL(추출, 변환, 적재), ELT(추출, 적재, 변환), 실시간 및 대량 적재 처리와 같은 방법을 사용하여 데이터를 중앙 데이터베이스로 가져와 통합된 형식으로 변환합니다. 데이터 가상화는 페더레이션을 통해 데이터가 위치한 곳에서 직접 질의하여, 데이터를 이동하지 않고 분산된 데이터 소스 전반에서 통합된 보기를 제공합니다. 이러한 접근 방식은 자동화, 오케스트레이션, 데이터 품질 및 보강을 통해 함께 사용할 수 있습니다. 점점 더 많은 고객이 데이터를 이동하지 않기 위해 데이터 웨어하우스에서 직접 보고합니다.

메타데이터 
메타데이터는 데이터에 대한 데이터로, 데이터 거버넌스와 관리에 필수적입니다. 이는 데이터의 출처, 변환, 구조, 관계, 사용과 같은 맥락과 세부 정보를 제공합니다. 기술적 메타데이터는 스키마, 데이터 유형, 계보를 설명하고, 비즈니스 메타데이터는 비기술적 사용자를 위해 데이터를 설명합니다.

데이터 접근 도구
데이터 접근 도구는 사용자가 데이터 웨어하우스에 저장된 데이터를 질의, 분석, 시각화할 수 있도록 하여 원시 데이터와 의사결정자 사이의 격차를 메웁니다. 이러한 도구에는 보고 소프트웨어, BI 플랫폼, OLAP 도구, 데이터 마이닝 도구, 애플리케이션 개발 도구, API가 포함되며, 기술적 사용자와 비기술적 사용자 모두가 데이터를 활용할 수 있도록 합니다.

내장형 AI 및 ML 기능
현대 데이터 웨어하우스는 종종 내장형 AI 및 ML 기능을 포함하여, 별도의 AI/ML 시스템이 필요하지 않고 웨어하우스 환경 내에서 직접 자동 데이터 처리, 패턴 감지, 이상 탐지, 예측 분석을 가능하게 합니다.

대화형 대시보드
시각적 분석 대시보드는 대화형 차트, 그래프, 보고서를 통해 데이터 인사이트에 실시간으로 접근할 수 있게 합니다. 이러한 셀프 서비스 인터페이스는 기술적 사용자와 비기술적 사용자 모두가 복잡한 질의를 작성하지 않고도 데이터를 탐색하고, 시각화를 생성하며, 인사이트를 도출할 수 있도록 합니다.

거버넌스 프레임워크
포괄적인 거버넌스 프레임워크는 데이터 접근 제어, 보안 정책, 규제 요구 사항, 데이터 품질 표준을 관리합니다. 여기에는 데이터 계보 추적, 감사 로그, 개인정보 보호, 규제 준수 관리를 위한 도구가 포함되며, 데이터 웨어하우스 환경 전체에 적용됩니다.

데이터 웨어하우징 개념: 인몬 vs. 킴벌

데이터 웨어하우징의 초기 선구자인 빌 인몬(Bill Inmon)과 랄프 킴벌(Ralph Kimball)은 데이터 웨어하우스 설계에 대해 서로 다른 접근 방식을 가지고 있습니다. 인몬의 접근 방식은 데이터 웨어하우스를 엔터프라이즈 데이터의 중앙 저장소로 시작하며, 이는 탑다운(top-down) 접근 방식으로 알려져 있습니다.

킴벌의 모델은 보텀업(bottom-up) 접근 방식으로 알려져 있으며, 먼저 특정 비즈니스 부서나 단위에 맞춘 전문 데이터베이스인 데이터 마트를 생성한 후, 이를 더 큰 데이터 웨어하우스로 통합하는 데 중점을 둡니다.

인몬 접근 방식
인몬의 탑다운 모델은 전체 비즈니스를 위한 단일 진실 공급원(Single Source of Truth) 역할을 하는 중앙 집중식, 엔터프라이즈 전반의 데이터 웨어하우스를 상정합니다. 이 접근 방식에서 데이터는 소스 시스템에서 가져와 정제되고, 중앙 데이터 웨어하우스 내 정규화된 형식으로 저장됩니다. 정규화는 데이터의 일관성을 보장하고, 중복을 최소화하며, 다양한 데이터 세트 간의 통합을 용이하게 합니다. 특정 비즈니스 영역에 초점을 맞춘 데이터 마트는 주요 데이터 웨어하우스의 하위 집합으로 생성됩니다. 이들은 중앙 저장소에서 파생되어 엔터프라이즈 전체 데이터 아키텍처와의 일관성을 보장합니다.

킴벌 접근 방식 
킴벌의 보텀업 방식은 특정 비즈니스 질문과 보고 요구 사항을 직접적으로 해결하는 데이터 마트를 구축하는 데 초점을 맞춥니다. 이 데이터 마트들은 결합되어 데이터 웨어하우스를 형성하며, 분석과 보고를 용이하게 합니다. 킴벌의 접근 방식은 숫자 지표를 포함하는 “사실(fact)” 테이블과 설명 속성을 가진 “차원(dimension)” 테이블을 활용하는 차원 모델을 사용하며, 이는 종종 스타 스키마(star schema) 구조로 구성되어 질의와 분석을 단순화합니다. 데이터는 비정규화되어 초기 데이터 웨어하우스 설계 단계를 빠르게 진행할 수 있습니다. 데이터 웨어하우스가 전체 비즈니스가 아니라 개별 비즈니스 영역에 집중하기 때문에 데이터베이스에서 차지하는 공간이 적으며, 시스템 관리가 더 용이합니다.

올바른 접근 방식 선택하기 
조직은 필요에 가장 적합한 데이터 웨어하우스 아키텍처 접근 방식을 선택해야 하며, 필요에 따라 인몬과 킴벌 접근 방식을 혼합한 하이브리드 모델을 사용할 수도 있습니다.

일반적으로 인몬 접근 방식은 대규모, 엔터프라이즈 전반의 데이터 세트를 관리하기 위한 포괄적이고 확장 가능한 솔루션을 제공합니다. 이는 조직 전반에서 일관되고 신뢰할 수 있는 분석을 보장하며, 정교한 데이터 인사이트를 가능하게 하고 데이터 품질과 거버넌스를 강조합니다. 그러나 사용자는 질의와 분석을 위해 고급 전문 도구가 필요하며, 이 방법은 데이터 웨어하우스를 구축하기 위해 상당한 시간, 자원, 기술 전문성이 요구됩니다.

반면, 킴벌 접근 방식은 유연하고 빠른 데이터 제공을 지원합니다. 최종 사용자는 데이터 마트에서 직접 친숙한 도구와 셀프 서비스 모델을 사용하여 데이터를 질의하고 분석할 수 있으며, 전문 기술이나 고급 도구 없이도 탐색과 분석을 단순화합니다. 조직이 사용자 친화적이고 빠른 보고 및 분석을 필요로 하거나, 예산과 자원이 제한적인 경우 킴벌 접근 방식이 가장 적합할 수 있습니다.

데이터 웨어하우스 구조화

조직은 데이터 웨어하우스 내에서 인덱스와 테이블 같은 객체로 표현되는 데이터의 서로 다른 논리적 배열을 설명하기 위해 스키마를 사용합니다. 이러한 스키마는 용어와 관계, 그리고 그것들의 배열 정의를 포함하여 데이터가 어떻게 저장되고 관리될지를 위한 청사진 역할을 합니다. 기업은 데이터 웨어하우스를 구조화하기 위해 세 가지 유형의 스키마를 사용합니다.

스타 스키마
스타 스키마는 데이터베이스 내 데이터를 이해하고 분석하기 쉽게 조직하기 위해 사용되는 다차원 데이터 모델입니다. 스타 스키마는 가장 단순한 데이터 웨어하우스 스키마로, 대규모 데이터 세트 질의에 최적화되어 있습니다. 이는 중앙의 단일 사실 테이블이 여러 다른 차원 테이블과 연결되는 구조를 가집니다. 스타 스키마는 사용자가 두 개 이상의 사실 테이블과 차원 테이블을 함께 조인하여 원하는 방식으로 데이터를 자유롭게 분석할 수 있도록 합니다.

스타 스키마는 비즈니스 데이터를 차원(예: 시간, 제품)과 사실(예: 금액과 수량의 거래)로 비정규화하여 사용합니다. 비정규화된 데이터 모델은 데이터 중복이 더 많아지지만, 중복된 데이터를 대가로 질의 성능을 더 빠르게 합니다.

스노우플레이크 스키마
스노우플레이크 스키마는 차원 테이블이 하위 차원으로 분해되는 스타 스키마의 확장입니다. 이는 데이터 모델을 더 복잡하게 만들지만, 특정 데이터 유형의 경우 분석가들이 더 쉽게 다룰 수 있습니다.

스타 스키마와 스노우플레이크 스키마의 주요 차이점은 스노우플레이크 스키마가 데이터를 정규화한다는 점입니다. 스노우플레이크 스키마는 높은 정규화 기준을 충실히 따르기 때문에 저장 효율성이 더 높지만, 비정규화된 데이터 모델에 비해 질의 성능은 좋지 않습니다. 스노우플레이크 스키마는 OLAP 데이터 웨어하우스, 데이터 마트, 관계형 데이터베이스에서 비즈니스 인텔리전스와 보고에 일반적으로 사용됩니다.

갤럭시 스키마
갤럭시 스키마는 스타와 스노우플레이크 스키마가 단일 사실 테이블만 사용하는 것과 달리, 여러 사실 테이블이 공유된 정규화된 차원 테이블과 연결된 구조를 사용합니다. 갤럭시 스키마는 상호 연결되고 정규화되어 있어 데이터의 중복성과 불일치를 거의 제거합니다. 갤럭시 스키마는 높은 데이터 정확성과 품질로 알려져 있으며, 효과적인 분석과 보고를 위한 기반을 제공하여 복잡한 데이터베이스 시스템에 적합한 선택이 됩니다.

데이터 웨어하우스 아키텍처의 과제

데이터 웨어하우스 아키텍처를 설계하고 유지하는 과정에는 효율성과 효과성에 영향을 미칠 수 있는 여러 가지 과제가 있습니다.

비정형 데이터
이미지, 비디오, 텍스트 파일, 로그와 같은 비정형 데이터는 다양한 데이터 소스에서 새로운 패턴과 인사이트를 발견할 기회를 제공하기 때문에 개선, 혁신, 창의성에 중요합니다. 그러나 전통적인 데이터 웨어하우스 아키텍처는 구조화된 데이터에 맞게 설계되었기 때문에, 조직은 비정형 데이터의 가치를 실현하기 위해 고급 도구가 필요할 수 있습니다. 또한 비정형 데이터의 규모는 저장 및 효율적인 데이터 관리에 도전 과제가 될 수 있습니다.

확장성
조직이 성장함에 따라 기하급수적으로 증가하는 데이터 양은 데이터 웨어하우스 아키텍처의 확장성에 도전 과제를 제기합니다. 전통적인 온프레미스 시스템은 대규모 데이터 세트, 높은 질의 부하, 실시간 처리 요구를 처리하는 데 어려움을 겪을 수 있습니다. 클라우드 기반 데이터 웨어하우스는 탄력적 확장성을 제공하지만, 자원과 비용을 최적화하기 위한 신중한 계획이 필요합니다.

비용
데이터 웨어하우스를 구축하고 유지하려면 인프라와 숙련된 인력에 상당한 투자가 필요합니다. 온프레미스 시스템은 구축 비용이 높고, 클라우드 기반 솔루션은 운영 비용이 많이 들 수 있습니다. 데이터 볼륨 증가, 사용자 수요 확대, 고급 분석 또는 AI 기능 통합과 함께 비용은 계속 상승합니다.

성능과 효율성
데이터 웨어하우스의 성능과 효율성은 특히 대규모 데이터 세트와 복잡한 질의를 처리할 때 비즈니스 운영에 매우 중요합니다. 느린 질의 응답 시간과 비효율적인 데이터 처리 파이프라인은 사용자 생산성에 영향을 미치고 의사결정을 방해할 수 있습니다. 최적의 성능을 달성하기 위해서는 시스템 설계와 관리의 복잡성을 높여야 하는 경우가 많습니다.

비기술적 사용
비기술적 사용자는 데이터에 접근하고 분석할 수 있어야 하지만, 전통적인 데이터 웨어하우스는 종종 SQL이나 다른 기술 도구에 대한 전문 지식을 요구합니다. 이는 사용자가 데이터 팀에 요청을 제출하고 데이터가 제공될 때까지 기다려야 하는 느리고 비효율적인 시스템을 만듭니다. 이러한 병목 현상과 지연은 대규모 조직에서 더욱 심각해집니다.

AI 및 ML을 위한 별도 시스템
전통적인 데이터 웨어하우스는 과거 보고, BI, 질의 등 일반적인 워크로드를 지원하도록 설계되었으나, 머신러닝 워크로드를 지원하도록 설계되거나 의도된 것은 아니었습니다. 데이터 웨어하우스와 AI/ML 전용 환경 간의 데이터 전송을 위한 추가 파이프라인은 복잡성과 지연을 증가시킵니다. 데이터 웨어하우스 내에서 직접 AI와 ML 기능을 통합하거나 하이브리드 플랫폼을 활용하는 것이 이러한 과제를 해결할 수 있습니다.

BI를 위한 별도 시스템
전통적인 아키텍처는 종종 비즈니스 인텔리전스와 분석을 위해 별도의 전문 시스템을 요구하여 데이터 사일로를 만들고, 시스템 간 복잡한 데이터 이동을 필요로 합니다. 이러한 분리는 데이터 불일치, 유지 관리 부담 증가, 인사이트 지연으로 이어질 수 있습니다. 데이터 저장과 BI 기능을 하나의 환경에서 결합한 최신 통합 플랫폼은 조직이 분석 워크플로를 간소화하고 데이터 일관성을 보장하도록 돕습니다.

데이터 거버넌스를 위한 별도 시스템
분리된 데이터 거버넌스 시스템은 데이터 생태계 전반에서 일관된 정책, 접근 제어, 규정 준수 기준을 유지하는 데 어려움을 만듭니다. 조직은 종종 서로 효과적으로 소통하지 않는 단편화된 거버넌스 도구로 인해 보안 취약성과 규정 준수 위험에 직면합니다. 데이터 플랫폼 내에 통합된 거버넌스 프레임워크는 일관된 정책 집행과 단순화된 규정 준수 관리를 보장하는 데 도움이 됩니다.