주요 컨텐츠로 이동

Delta Live 테이블

신뢰할 수 있는 데이터 파이프라인을 간편하게 실행

Delta Live Tables(DLT)는 Databricks 레이크하우스 플랫폼용 선언적 ETL 프레임워크로, 데이터 팀이 스트리밍 및 배치 ETL을 비용 효율적이 방식으로 간소화할 수 있도록 지원합니다. 데이터에 대해 수행할 변환을 정의하기만 하면 DLT 파이프라인이 작업 오케스트레이션, 클러스터 관리, 모니터링, 데이터 품질 및 오류 처리를 자동으로 관리합니다.

DLT flow

data ingestion

효율적인 데이터 수집

레이크하우스에 프로덕션에 바로 사용할 수 있는 ETL 파이프라인을 구축하는 첫 단계는 수집입니다. DLT는 데이터 엔지니어 및 Python 개발자부터 데이터 사이언티스트 및 SQL 애널리스트에 이르기까지 팀 전체가 간단하고 효율적으로 수집할 수 있도록 지원합니다. DLT를 사용하면 Databricks의 Apache Spark™가 지원하는 모든 데이터 소스에서 데이터를 로드할 수 있습니다. 

"Delta Live Tables는 Auto Loader보다 뛰어난 기능으로 파일을 훨씬 더 쉽게 읽을 수 있어 좋습니다. 45분 만에 스트리밍 파이프라인을 설정할 수 있었을 때는 충격에 가까웠죠."

— Kahveh Saramout, Labelbox 선임 데이터 엔지니어

data transformation

비용 효율적인 지능형 데이터 변환

DLT는 단 몇 줄의 코드만으로 스트리밍 또는 배치 데이터 파이프라인을 빌드하고 실행하는 가장 효율적인 방법을 결정하여 복잡성을 최소화하고 가격 대비 성능(Databricks 기준 약 4배)을 최적화합니다.

"Delta Live Tables는 우리 팀이 수조 단위에 이르는 엄청난 규모의 데이터를 관리하는 데 드는 시간과 노력을 절약하고 AI 엔지니어링 기능을 지속적으로 개선하는 데 도움이 되었습니다. . . Databricks는 ETL 및 데이터 웨어하우스 시장을 뒤흔들고 있습니다."

— Dan Jeavons, Shell 데이터 사이언스 총괄

simple pipeline

간단한 파이프라인 설정 및 유지 관리

DLT 파이프라인은 본질적인 운영 복잡성을 거의 대부분 자동화하여 ETL 개발을 단순화합니다. DLT 파이프라인을 통해 엔지니어는 파이프라인을 운영하고 유지 관리하는 대신 고품질 데이터를 제공하는 데 집중할 수 있습니다. DLT는 다음을 자동으로 처리합니다.

"동적 스키마 관리 및 stateful/stateless 변환과 같은 복잡한 아키텍처는 기존의 멀티클라우드 데이터 웨어하우스 아키텍처로 구현하기가 어려웠습니다. 이제 데이터 사이언티스트와 데이터 엔지니어 모두 진입 장벽 없이 확장 가능한 Delta Live Tables를 사용하여 어떤 변경도 구현할 수 있습니다."

— Sai Ravuru, JetBlue 데이터 사이언스 및 분석 부문 선임 관리자

dlt tco graph

차세대 스트림 처리 엔진

Spark Structured Streaming은 DLT 파이프라인 스트림을 지원하는 핵심 기술로, 배치 및 스트림 처리를 위한 통합 API를 제공합니다. DLT 파이프라인은 Spark Structured Streaming 고유의 1초 미만의 레이턴시기록적인 가격 대비 성능을 활용합니다. Spark Structured Streaming을 사용하여 자체 성능 스트리밍 파이프라인을 수동으로 빌드할 수도 있지만 DLT 파이프라인을 사용하면 운영 오버헤드가 자동으로 관리되므로 가치 창출 시간을 단축하고, 개발 속도를 높이고, TCO를 낮출 수 있습니다.

"DLT를 확장하기 위해 아무것도 할 필요가 없었습니다. 더 많은 데이터를 제공하더라도 시스템은 이를 성공적으로 처리합니다. 시스템에 어떤 데이터를 입력하더라도 처리할 수 있다는 자신감을 얻게 되었습니다.

— Chris Inkpen 박사, Honeywell 글로벌 솔루션 아키텍트

Delta Live Tables 파이프라인 및 "맞춤형" Spark Structured Streaming 파이프라인

Spark Structured Streaming pipelines

DLT pipelines

Databricks 레이크하우스 플랫폼에서 실행
Spark Structured Streaming 엔진 기반
Databricks Workflows를 통한 오케스트레이션
클라우드 스토리지에서 메시지 버스에 이르기까지 수십 개의 소스에서 수집
데이터 흐름 오케스트레이션

수동

자동화

데이터 품질 검사 및 보증

수동

자동화

오류 처리 및 실패 복구

수동

자동화

CI/CD 및 버전 관리

수동

자동화

컴퓨팅 자동 확장

기본

Lakehouse Platform Architecture

통합 데이터 거버넌스 및 스토리지

Databricks에서 DLT 파이프라인을 사용하면 레이크하우스 플랫폼의 기본 구성 요소인 Unity Catalog와 Delta Lake를 활용할 수 있게 됩니다. 원시 데이터는 스트리밍 및 배치 데이터를 염두에 두고 설계한 유일한 오픈 소스 스토리지 프레임워크, Delta Lake로 최적화됩니다. Unity Catalog는 하나의 일관적인 모델로 모든 데이터 및 AI 자산에 대한 세분화된 통합 거버넌스를 제공함으로써, 클라우드에서 데이터 발견, 액세스, 공유를 지원합니다. 또한, Unity Catalog는 다른 조직과 간단하고 안전하게 데이터를 공유할 수 있는 업계 최초의 오픈 프로토콜인 Delta Sharing을 지원합니다.

"Delta Live Tables와 Unity Catalog의 통합에 대해 매우 만족스럽게 생각합니다. 이 통합 덕분에 DLT 파이프라인에 대한 데이터 거버넌스를 간소화하고 자동화할 수 있으며, 수백만 개의 이벤트를 실시간으로 수집할 때에도 민감한 데이터 및 보안 요구 사항을 충족할 수 있습니다. 이는 위험 모델링 및 사기 탐지와 관련된 비즈니스 사용 사례에 잠재력과 개선의 기회를 열었습니다.

— Yue Zhang, Block 스태프 소프트웨어 엔지니어

FAQ

DLT 파이프라인은 스트리밍 테이블과 구체화된 뷰의 두 가지 기본 요소로 구성됩니다. Delta Tables 및 Spark Structured Streaming의 신뢰할 수 있는 표준을 기반으로 합니다. 

리소스