주요 컨텐츠로 이동
Platform blog

Delta Live Tables 와 Unity Catalog로 거버넌스 파이프라인 구축하기

Zoe Durand
Mukul Murthy
Jon Mio
Yuhong Chen
이 포스트 공유하기

델타 라이브 테이블(DLT)에 대한 유니티 카탈로그 지원의 공개 프리뷰를 발표하게 되어 기쁘게 생각합니다. 이 프리뷰를 통해 모든 데이터 팀은 델타 라이브 테이블에서 생성된 데이터 에셋에 대한 세분화된 데이터 거버넌스 정책을 정의하고 실행할 수 있습니다. 이제 파이프 라인과 델타 라이브 테이블을 다른 Unity 카탈로그 에셋과 함께 거버넌스하고 관리할 수 있습니다.

Unity 카탈로그 및 델타 라이브 테이블을 통한 데이터 엔지니어링 혁신

유니티 카탈로그(Unity Catalog)레이크하우스 아키텍처를 위해 설계된 포괄적인 데이터 거버넌스 솔루션입니다. S3, ADLS, GCS와 같은 데이터 레이크는 확장성과 비용 효율성으로 인해 방대한 양의 데이터를 저장하고 처리하는 데 널리 사용되고 있습니다. 하지만 데이터 레이크에서 거버넌스를 관리하는 것은 어려운 과제였습니다. Unity 카탈로그는 표준 ANSI SQL 또는 사용자 친화적인 UI를 사용하여 세분화된 데이터 권한을 제공함으로써 이러한 문제를 해결합니다. 이를 통해 조직은 행, 열 또는 뷰 수준에서 권한을 관리할 수 있으므로 데이터 액세스를 제어하고 데이터 거버넌스 정책을 준수할 수 있습니다. Unity 카탈로그는 테이블 관리를 넘어 거버넌스를 ML 모델과 파일을 비롯한 다른 유형의 데이터 자산으로 확장합니다. 이를 통해 기업은 중앙 집중식 플랫폼에서 모든 데이터와 AI 에셋을 관리할 수 있습니다.

 

델타 라이브 테이블 (DLT)은 데이터브릭스에서 제공하는 강력한 ETL(추출, 변환, 로드) 프레임워크입니다. 데이터 엔지니어와 분석가는 이를 통해 스트리밍 및 배치 워크로드를 모두 처리할 수 있는 효율적이고 안정적인 데이터 파이프라인을 구축할 수 있습니다. DLT는 사용자가 SQL과 Python을 사용해 데이터 파이프라인을 선언적으로 표현할 수 있게 함으로써 ETL 개발을 간소화합니다. 이러한 선언적 접근 방식은 수동 코드 스티칭의 필요성을 없애고 데이터 파이프라인의 개발, 테스트, 배포 및 운영을 간소화합니다. 또한 DLT는 클러스터 크기 조정, 오케스트레이션, 오류 처리 및 성능 최적화를 처리하여 인프라 관리를 자동화합니다. 이러한 운영 작업을 자동화함으로써 데이터 엔지니어는 데이터 혁신에 집중하고 데이터에서 가치 있는 인사이트를 도출할 수 있습니다.

 

엔드 투 엔드 데이터 거버넌스와 간소화된 데이터 엔지니어링 프로세스의 결합

유니티 카탈로그와 델타 라이브 테이블의 강점을 결합하여 조직은 엔드투엔드 데이터 거버넌스를 달성하고 데이터 엔지니어링 프로세스를 간소화할 수 있습니다. 이 통합을 통해 데이터 팀은 Unity 카탈로그에 정의된 거버넌스 정책을 준수하면서 델타 라이브 테이블을 사용하여 데이터 파이프라인을 개발하고 실행할 수 있습니다. 이러한 원활한 상호 운용성을 통해 데이터 엔지니어, 분석가, 거버넌스 팀 간의 효율적인 협업이 가능하므로 데이터 자산이 데이터 수명 주기 전반에 걸쳐 적절하게 관리되고, 보안이 유지되며, 규정을 준수할 수 있습니다. 유니티 카탈로그와 델타 라이브 테이블을 함께 사용하면 조직은 최고 수준의 데이터 거버넌스 및 보안을 유지하면서 데이터 레이크하우스 아키텍처의 잠재력을 최대한 활용할 수 있습니다.

블록(구 스퀘어)은 이번 통합의 초기 프리뷰 고객 중 하나였습니다. 엔터프라이즈 데이터 플랫폼에 델타 라이브 테이블을 얼리 어답터로 도입한 블록은 유니티 카탈로그가 제공하는 DLT 파이프라인의 엄청난 가능성에 큰 기대를 걸고 있습니다:

"델타 라이브 테이블과 유니티 카탈로그의 통합을 매우 기쁘게 생각합니다. 이번 통합을 통해 유니티는 DLT 파이프라인의 데이터 거버넌스를 간소화하고 자동화하여 수백만 개의 이벤트를 실시간으로 수집하는 과정에서 중요한 데이터 및 보안 요구 사항을 충족할 수 있게 되었습니다. 이를 통해 위험 모델링 및 사기 탐지와 관련된 비즈니스 사용 사례에 대한 잠재력과 개선의 세계가 열립니다."
— Yue Zhang, Staff Software Engineer, Block

델타 라이브 테이블에서 UC는 어떻게 활성화되나요?

델타 라이브 테이블 파이프라인을 생성할 때 UI의 대상 옵션에서 "Unity Catalog"를 선택합니다.

대상 카탈로그와 스키마를 선택하라는 메시지가 표시되며, 이 스키마는 모든 라이브 테이블이 3단계 네임스페이스(카탈로그.스키마.테이블)에 게시되는 곳입니다.

gif

UC를 DLT와 어떻게 사용할 수 있나요?

모든 소스에서 읽기: Hive 메타스토어 및 Unity Catalog 테이블, 스트리밍 소스

Unity 카탈로그 + 델타 라이브 테이블은 다양한 소스에서 데이터를 읽을 수 있도록 DLT 파이프라인의 기능을 확장합니다. DLT + Unity 카탈로그 파이프라인은 다음에서 데이터를 읽을 수 있습니다.

  • 유니티 카탈로그 관리형 및 외부 테이블
  • 하이브 메타스토어 테이블 및 뷰
  • 스트리밍 소스(Apache Kafka 및 Amazon Kinesis)
  • 데이터브릭스 오토로더 또는 cloud_files()를 사용한 클라우드 오브젝트 스토리지

예를 들어, 조직에서 여러 채널에 걸친 고객 상호 작용을 분석하고자 할 수 있습니다. 이러한 조직은 DLT를 활용하여 Hive 메타스토어 테이블에 저장된 고객 상호 작용 로그, Kafka의 실시간 스트림, UC 관리 테이블의 데이터와 같은 소스에서 데이터를 수집하고 처리할 수 있습니다. 이러한 소스의 조합은 고객 상호 작용에 대한 포괄적인 보기를 제공하여 귀중한 인사이트와 분석을 가능하게 합니다.

DLT로 게시된 테이블에 대한 세분화된 액세스 제어 

유니티 카탈로그의 세분화된 액세스 제어 기능을 통해 파이프라인 제작자는 라이브 테이블에 대한 액세스를 쉽게 관리할 수 있습니다. DLT 파이프라인 개발자는 카탈로그 내의 특정 라이브 테이블에 액세스할 수 있는 사용자를 완벽하게 제어할 수 있습니다.

메타스토어의 그룹에 대한 액세스 권한을 부여하거나 취소하는 작업은 간단한 ANSI SQL 명령을 통해 수행할 수 있습니다.

GRANT SELECT ON TABLE
  my_catalog.my_schema.live_table
TO
finance_users;

예를 들어, UC에서 민감한 고객 데이터가 포함된 라이브 테이블을 만든 경우, 해당 특정 테이블로 작업해야 하는 데이터 분석가 또는 데이터 과학자에게 선택적으로 액세스 권한을 부여할 수 있습니다. "GRANT SELECT ON TABLE"과 같은 SQL 명령을 사용하여 정확한 액세스 수준을 지정하고 데이터 탐색 및 분석을 위한 안전하고 제어된 환경을 제공할 수 있습니다.

사내 보안정책에서 요구하는 데이터의 물리적 격리 시행

데이터 격리는 많은 조직에서 규정 준수와 보안을 보장하기 위해 매우 중요합니다. DLT with Unity 카탈로그를 사용하면 데이터 세트를 적절한 카탈로그 수준의 스토리지 위치에 기록하여 데이터를 물리적으로 분리할 수 있습니다.

이 기능을 사용하면 조직의 요구 사항에 따라 각 카탈로그와 연결된 별도의 스토리지 위치에 다양한 데이터 세트를 저장하고 관리할 수 있습니다. 이 기능은 민감한 데이터를 다른 데이터 세트와 분리하여 격리된 상태로 유지함으로써 데이터 거버넌스 및 규정 준수를 위한 강력한 기반을 제공합니다.

더 많은 소식을 기대해주세요!

유니티는 더욱 강력하고 안전하며 원활한 데이터 엔지니어링 경험을 제공하기 위해 델타 라이브 테이블(DLT)과 유니티 카탈로그(UC)의 기능을 개선하기 위해 지속적으로 노력하고 있습니다. 유니티는 DLT와 UC 간의 통합을 지속적으로 강화하여 최고 수준의 거버넌스와 보안을 유지하면서 데이터 레이크하우스 아키텍처의 잠재력을 극대화할 수 있도록 지원할 것입니다.

Try it out today

델타 라이브 테이블과 Unity 카탈로그의 강력한 기능을 직접 경험해 보려면 지금 바로 사용해 보시기 바랍니다.

유니티 카탈로그에서 델타 라이브 테이블 을 사용해 보시거나 설명서를 읽어 보세요 (AWS | Azure)

Databricks 무료로 시작하기

관련 포스트

Platform blog

Using Structured Streaming with Delta Sharing in Unity Catalog

We are excited to announce that support for using Structured Streaming with Delta Sharing is now generally available (GA) in Azure, AWS, and...
Platform blog

델타 라이브 테이블(DLT) 파이프라인에 소프트웨어 개발 및 DevOps 모범 사례 적용

November 17, 2023 작성자: Alex Ott in 플랫폼 블로그
(번역: Dongwook Kim) Original Blog Post 데이터브릭스 델타 라이브 테이블(DLT)은 데이터 엔지니어가 작성하고 유지 관리해야 하는 코드의 양을 줄여 강력한 데이터 처리 파이프라인의...
Engineering blog

Processing data simultaneously from multiple streaming platforms using Delta Live Tables

One of the major imperatives of organizations today is to enable decision making at the speed of business. Business teams and autonomous decisioning...
모든 플랫폼 블로그 포스트 보기