주요 컨텐츠로 이동

데이터 레이크하우스가 데이터 웨어하우스의 일반적인 문제를 해결하는 방법

lakehouse-wp-og

Published: February 4, 2021

오픈 소스1분 이내 소요

데이터 웨어하우스의 아버지인 빌 인몬과 함께 데이터 레이크하우스가 미래의 데이터 아키텍처인 이유를 알아보려면 Rise of the 데이터 레이크하우스 를 읽어보세요.


편집자 주: 이 게시물은 저자의 허락을 받아 CIDR 논문 Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics에 상당 부분 기반을 둔 시리즈의 첫 번째 게시물입니다.

데이터 애널리스트, 데이터 사이언티스트 및 인공 지능 전문가는 업무에 사용할 수 있는 고품질의 신뢰할 수 있는 최신 데이터가 근본적으로 부족하여 좌절감을 느끼는 경우가 많습니다. 이러한 문제 중 일부는 오늘날 대다수의 Fortune 500대 기업에서 널리 사용되는 2계층 데이터 아키텍처의 알려진 단점에서 기인합니다. 개방형 lakehouse 아키텍처와 기반 기술은 데이터 팀의 생산성을 획기적으로 개선하고, 따라서 이를 도입한 비즈니스의 효율성을 높일 수 있습니다.

2계층 데이터 아키텍처의 문제점

이 인기 있는 아키텍처에서는 조직 전반의 데이터가 운영 데이터베이스에서 추출되어 원시 데이터 레이크로 로드되는데, 데이터의 사용성과 신뢰성을 보장하는 데 소홀하기 때문에 때로는 데이터 스웜프 라고도 불립니다. 다음으로, 비즈니스 인텔리전스 및 의사 결정을 위해 데이터의 중요한 하위 집합을 데이터 웨어하우스로 이동하는 또 다른 추출, 변환, 로드(ETL) 프로세스가 예약된 일정에 따라 실행됩니다.

Databricks 데이터 레이크하우스 아키텍처

이 아키텍처는 데이터 애널리스트에게 데이터 레이크의 시기적절하지만 신뢰할 수 없는 데이터를 사용하거나 데이터 웨어하우스의 오래되었지만 고품질인 데이터를 사용하는 거의 불가능한 선택을 강요합니다. 널리 사용되는 데이터 웨어하우징 솔루션의 폐쇄형 포맷 때문에, 또 다른 ETL 작업을 도입하고 데이터 노후화를 추가하지 않고는 고품질 데이터 소스에서 주요 오픈 소스 데이터 분석 프레임워크를 사용하기가 매우 어렵습니다.

더 나은 방법: 데이터 레이크하우스를 소개합니다

오늘날 기업에서 흔히 사용되는 이러한 2계층 데이터 아키텍처는 온프레미스에 호스팅되든 클라우드 내에 호스팅되든 상관없이 이를 구축하는 사용자와 데이터 엔지니어 모두에게 매우 복잡합니다.

레이크하우스 아키텍처 는 데이터 레이크 바로 위에 데이터 웨어하우스 계층의 신뢰성 및 성능 이점을 대부분 직접 제공하여 복잡성, 비용 및 운영 오버헤드를 줄이고 궁극적으로 웨어하우스 계층을 제거합니다.

Databricks 데이터 레이크하우스 아키텍처

데이터 신뢰성

여러 데이터 복사본을 동기화해야 할 때 데이터 일관성을 유지하는 것은 엄청난 과제입니다. 운영 데이터베이스에서 데이터 레이크로, 그리고 다시 데이터 레이크에서 데이터 웨어하우스로 데이터를 이동하는 여러 ETL 프로세스가 있습니다. 프로세스가 추가될 때마다 복잡성이 커지고 지연 및 실패 모드가 발생합니다.

데이터 레이크하우스 아키텍처는 2계층을 제거하여 ETL 프로세스 하나를 없애고, 데이터 레이크에서 직접 스키마 적용 및 발전 을 지원합니다. 또한 데이터 정합성의 기록적 검증을 지원하는 시간 이동 과 같은 기능도 지원합니다.

데이터 노후화

데이터 웨어하우스는 데이터 레이크로부터 채워지기 때문에 종종 데이터가 오래됩니다. 최근 Fivetran 설문조사에 따르면 이로 인해 애널리스트의 86%가 오래된 데이터를 사용하게 됩니다.

Fivetran 보고서, '데이터 애널리스트: 중요하지만 제대로 활용되지 않는 리소스'
데이터 웨어하우스 티어를 제거하면 이 문제가 해결되지만, lakehouse는 실시간 스트리밍과 배치 처리를 효율적이고 쉽고 안정적으로 병합하는 것도 지원하여 분석에 항상 최신 데이터가 사용되도록 보장합니다.

고급 분석에 대한 제한된 지원

머신러닝 및 예측 분석을 포함한 고급 분석에서는 종종 매우 큰 데이터세트를 처리해야 합니다. TensorFlow, PyTorch, XGBoost와 같은 일반적인 툴링을 사용하면 개방형 데이터 형식의 원시 데이터 레이크를 쉽게 읽을 수 있습니다. 하지만 이러한 도구는 데이터 웨어하우스에서 ETL 처리된 데이터가 사용하는 대부분의 독점 데이터 형식을 읽지 못합니다. 따라서 웨어하우스 공급업체는 처리를 위해 이 데이터를 파일로 내보내도록 권장하며, 그 결과 세 번째 ETL 단계가 추가되고 복잡성과 데이터 비신선도가 증가합니다.

또는 개방형 레이크하우스 아키텍처에서는 이러한 공통 툴셋이 데이터 레이크에 저장된 고품질의 시기적절한 데이터에서 직접 작동할 수 있습니다.

총 소유 비용

클라우드 내 스토리지 비용은 감소하고 있지만, 이 데이터 분석을 위한 2계층 아키텍처는 실제로 대부분의 엔터프라이즈 데이터에 대해 운영 데이터베이스, 데이터 레이크, 데이터 웨어하우스에 각각 하나씩 총 세 개의 온라인 사본을 보유합니다.

스토리지 비용에 데이터를 동기화 상태로 유지하는 데 드는 상당한 엔지니어링 비용까지 더하면 총소유비용(TCO)은 더욱 가중됩니다.

데이터 레이크하우스 아키텍처는 가장 비용이 많이 드는 데이터 사본 중 하나와 최소 하나 이상의 관련 동기화 프로세스를 제거합니다.

비즈니스 인텔리전스의 성능은 어떻습니까?

비즈니스 인텔리전스 및 의사 결정 지원에는 탐색적 데이터 분석(EDA) 쿼리뿐만 아니라 대시보드, 데이터 시각화 및 기타 중요한 시스템을 구동하는 쿼리의 고성능 실행이 필요합니다. 성능 문제는 종종 기업이 데이터 레이크 외에 데이터 웨어하우스를 유지 관리하는 이유였습니다. 지난 1년간 데이터 레이크 query 최적화 기술이 크게 향상되어 대부분의 성능 관련 우려가 무의미해졌습니다.

레이크하우스는 성능 향상을 위해 인덱싱, 지역성 제어, 쿼리 최적화 및 핫 데이터 캐싱을 지원합니다. 그 결과 데이터 레이크 SQL 성능은 TPC-DS에서 선도적인 클라우드 데이터 웨어하우스를 능가하는 동시에 데이터 웨어하우스에 기대되는 유연성과 거버넌스를 제공합니다.

결론 및 다음 단계

미래 지향적인 기업과 기술 전문가들은 오늘날 사용되는 2계층 아키텍처를 보고 “분명 더 나은 방법이 있을 거야”라고 말했습니다. 이 더 나은 방법이 바로 우리가 개방형 데이터 레이크하우스라고 부르는 것으로, 데이터 레이크의 개방성과 유연성에 기존 데이터 웨어하우스의 안정성, 성능, 낮은 지연 시간 및 높은 동시성을 결합한 것입니다.

이 시리즈의 다음 게시물에서는 데이터 레이크 성능 개선에 대해 더 자세히 다루겠습니다.

물론 전체 CIDR 논문을 읽거나 최신 레이크하우스를 지원하는 기본 기술을 자세히 설명하는 동영상 시리즈를 시청하여 미리 살펴볼 수도 있습니다.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?

Apache Iceberg V3 features

오픈 소스

June 2, 2025/1분 이내 소요

Iceberg v3: 생태계를 통합으로 이동시키다

PySpark UDF Unified Profiling

오픈 소스

June 9, 2025/1분 이내 소요

PySpark 네이티브 플로팅