주요 컨텐츠로 이동

Delta Live Tables, 새로운 기능 및 성능 최적화 발표

DLT는 ETL 워크로드를 위해 특별히 제작된 성능 최적화 기능인 Enzyme을 개발 중이며, 향상된 자동 확장 기능을 포함한 여러 새로운 기능을 출시한다고 발표했습니다.

Copy-of-Blog-Social-Posts-generic-1200x628-2

발행일: 2022년 6월 29일

제품Less than a minute

지난 4월 모든 클라우드에서 Delta Live Tables(DLT)를 사용할 수 있게 된 이후(발표), 개발을 더 쉽게 만드는 새로운 기능, 자동화된 인프라 관리 강화, ETL 처리 속도 향상을 위한 Project Enzyme라는 새로운 최적화 계층 발표, 그리고 여러 엔터프라이즈 기능 및 UX 개선 사항을 도입했습니다.

DLT를 사용하면 분석가와 데이터 엔지니어는 SQL 및 Python으로 즉시 사용 가능한 스트리밍 또는 배치 ETL 파이프라인을 신속하게 구축할 수 있습니다. DLT는 데이터 처리 파이프라인을 선언적으로 정의할 수 있도록 하여 ETL 개발을 간소화합니다. DLT는 파이프라인의 종속성을 이해하고 거의 모든 운영 복잡성을 자동화합니다.

Delta Live Tables는 출시 이후 전 세계 선도 기업에서 프로덕션 ETL 사용 사례를 지원하도록 성장했습니다. DLT는 ADP, Shell, H&R Block, Jumbo, Bread Finance, JLL을 포함하여 스타트업부터 엔터프라이즈까지 1,000개 이상의 기업에서 사용하고 있습니다.

DLT를 사용하면 엔지니어는 파이프라인 운영 및 유지 관리 대신 데이터 제공에 집중하고 주요 기능을 활용할 수 있습니다. 지속적으로 도착하는 데이터를 효율적이고 쉽게 캡처하기 위한 Change Data Capture(CDC) 지원을 포함한 여러 엔터프라이즈 기능 및 UX 개선 사항을 활성화했으며, 스트리밍 워크로드에 대한 우수한 성능을 제공하는 향상된 자동 확장 기능(Enhanced Auto Scaling) 미리보기를 출시했습니다. 개선 사항을 자세히 살펴보겠습니다.

개발 간소화

ETL의 엔드투엔드 수명 주기를 더 쉽게 관리할 수 있도록 UI를 확장했습니다.

UX 개선. DLT 파이프라인 관리를 더 쉽게 하고, 오류를 확인하며, 풍부한 파이프라인 ACL을 팀 구성원에게 제공할 수 있도록 UI를 확장했습니다. 또한 단일 보기에서 데이터 품질 메트릭을 볼 수 있는 관찰 가능성 UI를 추가했으며, UI에서 직접 파이프라인 예약을 더 쉽게 할 수 있도록 했습니다. 자세히 알아보기.

파이프라인 예약 버튼. DLT를 사용하면 ETL 파이프라인을 연속 또는 트리거 모드로 실행할 수 있습니다. 연속 파이프라인은 데이터가 도착하는 대로 새 데이터를 처리하며 데이터 지연 시간이 중요한 시나리오에 유용합니다. 그러나 많은 고객은 파이프라인 실행 및 비용을 더 면밀하게 제어하기 위해 트리거 모드에서 DLT 파이프라인을 실행하는 것을 선택합니다. Databricks Jobs를 사용하여 DLT 파이프라인을 주기적으로 예약하기 쉽게 만들기 위해 DLT UI에 '예약' 버튼을 추가하여 사용자가 DLT UI를 벗어나지 않고 몇 번의 클릭만으로 주기적인 예약을 설정할 수 있도록 했습니다. 또한 실행 기록을 보고 이메일 알림을 구성하기 위해 작업 세부 정보로 빠르게 이동할 수 있습니다. 자세히 알아보기.

Change Data Capture(CDC). DLT를 사용하면 데이터 엔지니어는 SQL 또는 Python에서 새로운 선언적 APPLY CHANGES INTO API를 사용하여 CDC를 쉽게 구현할 수 있습니다. 이 새로운 기능을 통해 ETL 파이프라인은 소스 데이터 변경 사항을 쉽게 감지하고 이를 레이크하우스 전체의 데이터 세트에 적용할 수 있습니다. DLT는 CDC 이벤트를 처리할 때 삽입, 업데이트 또는 삭제할 레코드를 플래그 지정하여 Delta Lake로 데이터 변경 사항을 점진적으로 처리합니다. 자세히 알아보기.

CDC 느린 변경 차원 - 유형 2. 변경되는 데이터(CDC)를 처리할 때 최신 데이터를 추적하기 위해 레코드를 업데이트해야 하는 경우가 많습니다. SCD 유형 2는 원본 데이터를 보존하도록 대상에 업데이트를 적용하는 방법입니다. 예를 들어, 데이터베이스의 사용자 엔터티가 다른 주소로 이동하면 해당 사용자의 이전 모든 주소를 저장할 수 있습니다. DLT는 변경 기록을 유지해야 하는 조직을 위해 SCD 유형 2를 지원합니다. SCD2는 값의 전체 기록을 유지합니다. 속성 값이 변경되면 현재 레코드는 닫히고, 변경된 데이터 값으로 새 레코드가 생성되며, 이 새 레코드가 현재 레코드가 됩니다. 자세히 알아보기.

자동화된 인프라 관리

향상된 자동 확장(미리보기). 스트리밍 워크로드와 같이 변화하고 예측 불가능한 데이터 볼륨에 대한 최적의 성능을 위해 클러스터를 수동으로 크기 조정하는 것은 어려울 수 있으며 과잉 프로비저닝으로 이어질 수 있습니다. 현재 클러스터 자동 확장은 스트리밍 SLO를 인식하지 못하며, 처리가 데이터 도착 속도를 따라가지 못하더라도 신속하게 확장되지 않거나 부하가 낮을 때 축소되지 않을 수 있습니다. DLT는 스트리밍을 위해 특별히 제작된 향상된 자동 확장 알고리즘을 사용합니다. DLT의 향상된 자동 확장은 전반적인 엔드투엔드 지연 시간을 최소화하면서 클러스터 활용도를 최적화합니다. 수집 대기 중인 데이터를 포함한 스트리밍 워크로드의 변동을 감지하고 필요한 리소스 양(사용자가 지정한 제한까지)을 프로비저닝하여 이를 수행합니다. 또한 향상된 자동 확장은 모든 작업을 처리하여 파이프라인에 영향을 미치지 않도록 보장하면서 활용도가 낮을 때 클러스터를 정상적으로 종료합니다. 결과적으로 향상된 자동 확장을 사용하는 워크로드는 사용되는 인프라 리소스가 적기 때문에 비용을 절감합니다. 자세히 알아보기.

자동 업그레이드 및 릴리스 채널. Delta Live Tables(DLT) 클러스터는 Databricks 런타임(DBR)을 기반으로 하는 DLT 런타임을 사용합니다. Databricks는 약 1~2개월마다 DLT 런타임을 자동으로 업그레이드합니다. DLT는 최종 사용자 개입 없이 DLT 런타임을 자동으로 업그레이드하고 업그레이드 후 파이프라인 상태를 모니터링합니다. DLT 런타임 업그레이드로 인해 DLT 파이프라인을 시작할 수 없음을 감지하면 이전의 알려진 정상 버전으로 파이프라인을 되돌립니다. DLT 채널을 사용하여 DLT 런타임 미리보기 버전을 테스트하고 회귀가 있는 경우 자동으로 알림을 받음으로써 init 스크립트 또는 기타 DBR 동작의 중단 변경에 대한 조기 경고를 받을 수 있습니다. Databricks는 프로덕션 워크로드에 CURRENT 채널을 사용할 것을 권장합니다. 자세히 알아보기.

5X 리더

Gartner®: Databricks 클라우드 데이터베이스 리더

ETL 프로세스 속도를 높이기 위해 특별히 설계된 새로운 최적화 계층인 Enzyme 발표

다운스트림 분석을 위한 준비를 위해 데이터를 변환하는 것은 Databricks 플랫폼의 대부분의 다른 워크로드에 대한 전제 조건입니다. SQL과 DataFrames를 사용하면 사용자가 변환을 비교적 쉽게 표현할 수 있지만, 입력 데이터는 끊임없이 변경됩니다. 이로 인해 ETL에서 생성된 테이블을 다시 계산해야 합니다. 처음부터 결과를 다시 계산하는 것은 간단하지만, 많은 고객이 운영하는 규모에서는 종종 비용이 많이 듭니다.

ETL을 위한 새로운 최적화 계층인 Project Enzyme 개발을 발표하게 되어 기쁩니다. Enzyme은 Delta 테이블에 저장된 주어진 쿼리의 결과 재료화를 효율적으로 최신 상태로 유지합니다. 비용 모델을 사용하여 기존의 재료화된 뷰, 델타-투-델타 스트리밍 및 고객이 일반적으로 사용하는 수동 ETL 패턴을 포함한 다양한 기술 중에서 선택합니다.

Enzyme 성능 대 수동 증분 처리
표: Enzyme 성능 대 수동 증분 처리

레이크하우스에서 Delta Live Tables 시작하기

아래 데모를 시청하여 데이터 엔지니어와 분석가 모두에게 DLT의 사용 편의성을 알아보세요.

Databricks 고객인 경우 시작하기 가이드를 따르세요. 릴리스 노트를 읽고 GA 릴리스에 포함된 내용에 대해 자세히 알아보세요. Databricks 고객이 아닌 경우 무료 평가판에 가입하면 자세한 DLT 가격을 여기에서 확인할 수 있습니다.

데이터 + AI 서밋 2022 발표 및 업데이트에 대해 이야기하는 데이터 애호가 동료들이 있는 Databricks 커뮤니티에서 대화에 참여하세요. 배우고, 네트워킹하고, 축하하세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요