오늘날 AI 기반의 데이터가 넘쳐나는 환경에서 올바른 데이터 아키텍처를 선택하는 것은 기술적인 결정을 넘어 전략적인 결정입니다. 조직이 분석 규모를 확장하고 AI를 활용하며 운영 복잡성을 줄이고자 할 때 다음과 같은 근본적인 질문이 생깁니다. 데이터를 어떻게 저장해야 할까요? 어떤 시스템이 우리의 목표를 가장 잘 지원할까요? 유연성과 성능 중 하나를 선택해야 할까요?
많은 경우 데이터 레이크와 데이터 웨어하우스, 혹은 점점 더 이 둘의 조합이 해답이 되고 있습니다. 이 블로그는 용어집 페이지 를 기반으로 이러한 아키텍처가 실제로 어떻게 다른지, 최신 트렌드가 어떻게 판도를 바꾸고 있는지, 그리고 최신 데이터 플랫폼을 구축할 때 고려해야 할 사항을 살펴봅니다.
기본적으로 데이터 레이크 와 데이터 웨어하우스 는 서로 다른 요구사항을 충족합니다.
데이터 웨어하우스는 비즈니스 인텔리전스(BI) 및 운영 보고에 최적화된 구조화된 리포지토리입니다. 빠른 쿼리 및 분석을 위해 정제 및 변환된 데이터를 사전 정의된 스키마로 모델링하여 저장합니다.
데이터 레이크는 원시, 비정형, 반정형 데이터를 저장하는 유연한 리포지토리입니다. 이는 데이터 탐색부터 고급 머신러닝까지 다양한 분석을 지원합니다.
이 두 가지 외에도 운영 데이터 스토어(ODS) 및 데이터 마트와 같은 다른 구성요소가 전문성을 더욱 높여줍니다. 그리고 점점 더 진화하는 엔터프라이즈 요구사항을 충족하기 위해 하이브리드 아키텍처가 등장하고 있습니다.
| 기능 | 데이터 레이크 | 데이터 웨어하우스 |
|---|---|---|
| 스키마 | 읽기 시 스키마 | 쓰기 시 스키마 |
| 데이터 유형 | 비정형, 반정형 | 구조* |
| 사용 사례 | ML, 데이터 사이언스, 스트리밍 | BI, 대시보드, 보고 |
| 스토리지 비용 | 낮음 | 더 높음 |
| 성능 | 변수 | SQL 워크로드의 경우 높음 |
이제 막 시작하는 단계라면 데이터 레이크 대 데이터 웨어하우스 에 대한 용어집 항목에서 기본 사항을 확인하실 수 있습니다.
