여기까지 온 방법

데이터 웨어하우스는
현재는 적합하지 않습니다

CD, 일회용 카메라, 플로피 디스크 등 지난 40년간 등장한 대부분의 혁신 제품처럼 데이터 웨어하우스 역시 전성기를 누렸습니다. 하지만 새로운 사용 사례가 나타나면서 새로운 기술이 탄생했습니다. CD는 음악을 스트리밍할 수 없습니다. 필름 카메라는 사진을 공유하지 못합니다. 플로피 디스크는 무한한 클라우드 스토리지에 비교가 안 됩니다. 그리고 데이터 웨어하우스는 AI를 수행할 수 없습니다.

이제는 더 단순한
접근 방식이 필요한 때

AI는 모든 기업의 우선순위입니다. 하지만 오늘날 복잡한 구식 레거시 인프라는 AI가 지닌 가능성을 활용하지 못합니다. 오늘날 요구사항을 충족하고 미래의 어떤 환경에도 대비할 수 있도록 구축된 새로운 데이터 아키텍처가 필요한 때입니다.

탐색
레이크하우스
레이크하우스 시대의 시작

새로운 데이터 및
AI 시대의 시작

데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크를 단일 플랫폼에 최적화하여 조합한 오픈 데이터 아키텍처입니다.

이제는 구조적, 반구조적, 비구조적 등 모든 유형의 데이터를 오픈 데이터 레이크에 저장하고, 데이터 웨어하우스급 데이터 품질과 성능, 보안, 거버넌스를 확보할 수 있습니다. 이로써 레이크하우스는 비즈니스 인텔리전스, SQL, 분석, 실시간 데이터 애플리케이션, 데이터 사이언스, 머신 러닝을 단일 플랫폼에서 지원하는 유일한 데이터 아키텍처가 됩니다.

레이크하우스 구조

모든 사용 사례를 지원하는 단일 플랫폼

Delta Lake

주요 구성 요소

Delta Lake는 데이터 레이크에 안정성과 보안, 성능을 제공하는 오픈 소스 프로젝트로, Amazon S3, Azure Data Lake Store, Google Cloud Storage 등의 기존 스토리지 시스템에 레이크하우스 아키텍처를 구축하는 데 필수입니다.

Delta Lake는 오픈 데이터 형식으로 저장되어, 전매특허 형식으로 데이터가 고정되는 일을 방지하고 안전한 광범위한 오픈 에코시스템에 액세스할 수 있게 합니다. 현재 수천 곳의 기업에서 Delta Lake를 사용해 매달 엑사바이트 규모의 데이터를 처리하고 있습니다.


Delta Lake 더 알아보기 →

hex-bg

레이크하우스 비교

웨어하우스가 하지 못하는 기능을
수행하는 레이크하우스

레이크하우스는 데이터 웨어하우스의 한계를 뛰어넘습니다. 기본적으로 기존의 데이터 웨어하우스와 머신 러닝을 모두 지원하는 동시에 모든 유형의 데이터를 관리할 수 있도록 설계되었습니다. 기존의 데이터 레이크에 이러한 기능을 추가하여 모든 데이터를 관리하고 모든 사용 사례를 지원하는 단일 오픈 시스템을 창출합니다.

데이터 웨어하우스 레이크하우스
데이터 형식
데이터 형식 폐쇄형 오픈
데이터 유형
데이터 유형 구조* 모든 데이터 유형
Scalability
Scalability 제한적** 뛰어난 확장성
비용
비용 $$$ $
사용 사례
사용 사례 BI, SQL BI, SQL, ML, 실시간 앱
Data access
Data access SQL SQL, R, Python 등의 언어로 된 파일에 직접 액세스하기 위한 개방형 API
Reliability
Reliability ACID 트랜잭션을 통한 안정적인 고품질 데이터 ACID 트랜잭션을 통한 안정적인 고품질 데이터
거버넌스
거버넌스 테이블의 행/열 단위까지 세분화된 보안 및 거버넌스 테이블의 행/열 단위까지 세분화된 보안 및 거버넌스
성능
성능 높음 높음

*반구조적 데이터는 한정적으로 지원
**막대한 확장 비용

데이터 웨어하우징의 아버지가 동의합니다.

Bill Inmon 님의 새 책 데이터 레이크하우스 구축 무료 사본을 받으세요.

북 커버

레이크하우스는 데이터 레이크를 전환합니다

레이크하우스는 데이터 레이크가 데이터 늪이 되게 했던 근본적인 문제를 극복합니다. 레이크하우스는 트랜잭션, 스키마, 거버넌스와 같은 핵심적인 데이터 웨어하우징 기능을 추가하여 데이터 레이크의 품질을 향상합니다. 또한 다양한 성능 최적화 기술로 분석을 빠르게 수행하도록 합니다. 레이크하우스는 오픈 데이터 레이크에 이러한 데이터 관리 및 성능 최적화 기능을 제공하여 기본적으로 BI 및 ML 애플리케이션을 지원합니다.

데이터 레이크 레이크하우스
데이터 형식
데이터 형식 오픈 오픈
데이터 유형
데이터 유형 모든 데이터 유형 모든 데이터 유형
Scalability
Scalability 뛰어난 확장성 뛰어난 확장성
비용
비용 $ $
사용 사례
사용 사례 ML BI, SQL, ML, 실시간 앱
Data access
Data access 뛰어난 확장성 SQL, R, Python 등의 언어로 된 파일에 직접 액세스하기 위한 개방형 API
Reliability
Reliability Low quality, data swamp ACID 트랜잭션을 통한 안정적인 고품질 데이터
거버넌스
거버넌스 보안에 대한 파일 적용 필수로 거버넌스 성능 저해 테이블의 행/열 단위까지 세분화된 보안 및 거버넌스
성능
성능 낮음 높음

데이터 웨어하우징의 아버지가 동의합니다.

Bill Inmon 님의 새 책 데이터 레이크하우스 구축 무료 사본을 받으세요.

북 커버

Databricks 레이크하우스

세계 최초의 유일한
클라우드 레이크하우스 플랫폼

AWS, Microsoft Azure 및 Google Cloud 서비스로 제공, 관리되는 Databricks 레이크하우스 플랫폼은 데이터 레이크에 있는 모든 데이터를 무한한 수의 데이터 기반 사용 사례에 사용할 수 있습니다.

데이터 엔지니어는 빠르고 안정적인 데이터 파이프라인을 구축할 수 있습니다. 비즈니스 분석가는 BI를 수행하여 대부분의 데이터 웨어하우스보다 SQL 쿼리를 더 빨리 실행할 수 있습니다. 데이터 사이언티스트는 MLOps를 간소화할 수 있습니다. 모든 데이터 팀이 하나의 공용 플랫폼에서 작업할 때 인프라스트럭처 비용 대폭 절감, 데이터 팀 생산성 향상 및 혁신 가속화를 이룰 수 있습니다.

BI, SQL
데이터 레이크에서 직접 분석

Databricks는 데이터 레이크에 데이터 분석을 적용하여 데이터 레이크의 경제적인 가격으로 데이터 웨어하우스 성능을 제공합니다.
Databricks 레이크하우스 플랫폼은 데이터 고정(lock-in)을 방지하는 오픈 소스 표준을 사용하고 데이터 레이크에 기본적으로 부족한 안정성, 품질, 성능을 보유하고 있어 기존의 클라우드 데이터 웨어하우스에 비해 최대 6배 높은 가격 대비 성능을 제공합니다.

데이터
엔지니어링
안정적인 최신 데이터를 간편하게 사용

Databricks는 종단간(E2E) 데이터 엔지니어링 솔루션(수집, 처리 및 예약)을 제공하여 파이프라인을 빌드, 유지관리하고 데이터 레이크에서 직접 ETL 워크로드를 실행하는 복잡한 작업을 자동화하므로 데이터 엔지니어는 품질과 안정성에 주의를 기울여 가치 있는 인사이트를 도출하는 데 집중할 수 있습니다.

스트림 처리
내결함성을 갖춘 쉽고 확장 가능한 스트림 처리

데이터 팀은 Databricks를 통해 무한한 데이터로부터 실행 가능한 인사이트를 지속해서 추출하여 적은 비용으로 서비스 보장을 제공할 수 있습니다. Databricks가 지원하는 사용 사례 스트리밍 기능으로 데이터 팀은 짧은 레이턴시, 확장성 및 내결함성을 보유한 실시간 데이터 기반 애플리케이션을 생성할 수 있습니다.

Data Science and ML
머신 러닝 전체 수명 주기

Databricks는 데이터 사이언스 및 머신 러닝을 지원하는 완전한 오픈 플랫폼을 제공합니다. Databricks는 고품질, 고성능의 데이터 파이프라인과 바로 사용할 수 있는 고급 머신 러닝 기능을 지원하여 데이터 및 ML 팀이 하나의 통합 플랫폼에서 협업하고 기능 엔지니어링부터 프로덕션에 이르는 전체 머신 러닝 수명 주기를 가속화할 수 있도록 도와줍니다.

일반 보안 및 관리
오픈 Data Lake 로고
일반 보안 및 관리

Databricks는 기존의 클라우드 네이티브 보안 정책으로 보안을 쉽게 확장하고 관리 시스템을 식별하여 비공개 방식, 규정을 준수하는 격리된 워크스페이스를 창출하는 기능과 세분화된 액세스 제어를 통해 데이터를 보호합니다. 플랫폼 관리자는 엔드투엔드 플랫폼 경험을 쉽게 관리하고 모든 워크스페이스에서 소비를 제어할 수 있습니다.

데이터 처리, 관리, 거버넌스
오픈 Data Lake 로고
데이터 처리, 관리, 거버넌스

Databricks는 자동화되고 안정적인 ETL, 개방적이고 안전한 데이터 공유 및 클라우드 서비스 제공자를 아우르는 통일된 접근 방식을 통해 데이터 관리를 간소화하고 비용 효율성과 확장성이 높은 레이크하우스의 기반을 형성합니다.

오픈 데이터 레이크
오픈 Data Lake 로고
양질의 안정적인 데이터

데이터 레이크에는 항상 방대한 양의 구조적, 반구조적 및 비구조적 데이터가 들어 있습니다. 이제 데이터 레이크의 개방성 및 유연성에 강력한 신뢰성과 품질을 결합하여 모든 분석 사용 사례에 대한 수요를 대규모로 지원하세요.

탐색

Databricks에 구축된 레이크하우스 계층 탐색하기

데이터 레이크에서 직접 분석

Databricks는 데이터 레이크에 데이터 분석을 적용해 데이터 레이크의 경제적인 가격으로 데이터 웨어하우스 성능을 제공합니다. 데이터 고정(lock-in)을 방지하는 오픈 소스 표준을 사용하여 Databricks 레이크하우스 플랫폼은 데이터 레이크에 기본적으로 부족한 신뢰성과 품질, 우수한 성능으로 기존의 클라우드 데이터 웨어하우스보다 최대 6배 높은 가격 대비 성능을 제공합니다.

데이터 레이크에서 직접 분석

Databricks는 데이터 레이크에 데이터 분석을 적용해 데이터 레이크의 경제적인 가격으로 데이터 웨어하우스 성능을 제공합니다. Databricks 레이크하우스 플랫폼은 데이터 고정(lock-in)을 방지하는 오픈 소스 표준을 사용하고 데이터 레이크에 기본적으로 부족한 안정성, 품질, 성능을 보유하고 있어 기존의 클라우드 데이터 웨어하우스에 비해 최대 6배 높은 가격 대비 성능을 제공합니다.

안정적인 최신 데이터를 간편하게 사용

Databricks는 종단간(E2E) 데이터 엔지니어링 솔루션(수집, 처리 및 예약)을 제공하여 파이프라인을 빌드, 유지관리하고 데이터 레이크에서 직접 ETL 워크로드를 실행하는 복잡한 작업을 자동화하므로 데이터 엔지니어는 품질과 안정성에 주의를 기울여 가치 있는 인사이트를 도출하는 데 집중할 수 있습니다.

데이터 팀은 Databricks를 통해 무한한 데이터로부터 실행 가능한 인사이트를 지속해서 추출하여 적은 비용으로 서비스 보장을 제공할 수 있습니다. Databricks가 지원하는 사용 사례 스트리밍 기능으로 데이터 팀은 짧은 레이턴시, 확장성 및 내결함성을 보유한 실시간 데이터 기반 애플리케이션을 생성할 수 있습니다.

머신 러닝 전체 수명 주기

Databricks는 데이터 사이언스 및 머신 러닝을 지원하는 완전한 오픈 플랫폼을 제공합니다. Databricks는 고품질, 고성능의 데이터 파이프라인과 바로 사용할 수 있는 고급 머신 러닝 기능을 지원하여 데이터 및 ML 팀이 하나의 통합 플랫폼에서 협업하고 기능 엔지니어링부터 프로덕션에 이르는 전체 머신 러닝 수명 주기를 가속화할 수 있도록 도와줍니다.

Delta Lake Databricks는 기존의 클라우드 네이티브 보안 정책으로 보안을 쉽게 확장하고 관리 시스템을 식별하여 비공개 방식, 규정을 준수하는 격리된 워크스페이스를 창출하는 기능과 세분화된 액세스 제어를 통해 데이터를 보호합니다. 플랫폼 관리자는 엔드투엔드 플랫폼 경험을 쉽게 관리하고 모든 워크스페이스에서 소비를 제어할 수 있습니다.

Delta LakeDatabricks는 자동화되고 안정적인 ETL, 개방적이고 안전한 데이터 공유 및 클라우드 서비스 제공자를 아우르는 통일된 접근 방식을 통해 데이터 관리를 간소화하고 비용 효율성과 확장성이 높은 레이크하우스의 기반을 형성합니다.

양질의 신뢰할 수 있는 데이터데이터 레이크에는 이미 방대한 양의 구조적, 반구조적, 비구조적 데이터가 있습니다. 이제 데이터 레이크의 개방성 및 유연성에 강력한 신뢰성과 품질을 결합하여 모든 분석 사용 사례에 대한 수요를 대규모로 지원하세요.
실제 성공 사례

세계 선도적 기업이 레이크하우스로 이동