2022년 10월 10일

Databricks Lakehouse와 Data Mesh, 파트 1

작성자: Sharon Richardson, 베른하르트 월터, 파와릿 라오선타라, Guillermo Schiava D'Albano, 프랜 메디나 카스트로 , Amr Ali

이 글은 2부작 시리즈의 첫 번째 블로그입니다. 이 게시물에서는 데이터 메시 개념과 데이터 메시를 구현하는 데 사용할 수 있는 Databricks 기능을 소개합니다. 두 번째 블로그에서는 다양한 데이터 메시 옵션을 살펴보고 Databricks Lakehouse를 기반으로 데이터 메시를 구현하는 방법에 대한 자세한 내용을 제공합니다.

데이터 메시는 데이터 분석 플랫폼을 확장하기 위한 원칙과 논리적 아키텍처 세트를 설명하는 패러다임입니다. 목적은 자산으로서의 데이터에서 더 많은 가치를 규모에 맞게 도출하는 것입니다. '데이터 메시'라는 용어는 2019년 Zhamak Dehghani가 소개했으며 2020년 기사 Data Mesh Principles and Logical Architecture에서 확장되었습니다.

데이터 메시 논리적 아키텍처의 핵심에는 네 가지 원칙이 있습니다.

도메인 소유권: 도메인 팀(데이터 생산자)이 데이터 캡처부터 큐레이션, 분석 및 재사용에 이르기까지 전체 수명 주기 동안 데이터에 대한 완전한 책임을 유지하는 분산 아키텍처 채택
제품으로서의 데이터: 데이터 분석 수명 주기에 제품 관리 원칙을 적용하여 생산자 도메인 내외부의 데이터 소비자에게 품질 데이터를 제공하도록 보장
셀프 서비스 인프라 플랫폼: 상호 운용 가능한 데이터 제품을 구축, 실행 및 유지 관리하기 위한 공통 도구 및 방법을 사용하여 데이터 분석 수명 주기에 대한 도메인 불가지론적 접근 방식 채택
연합 거버넌스: 표준화를 통해 조직 규칙 및 산업 규정을 준수하는 데이터 생태계 보장

데이터 제품은 데이터 메시의 중요한 개념입니다. 데이터 제품은 단순히 데이터 세트가 아니라 제품처럼 취급되는 데이터를 의미합니다. 즉, 검색 가능하고, 신뢰할 수 있으며, 자체 설명적이고, 주소 지정 가능하며, 상호 운용 가능해야 합니다. 데이터 및 메타데이터 외에도 데이터 제품을 생성하고 유지 관리하는 데 필요한 코드, 대시보드, 기능, 모델 및 기타 리소스를 포함할 수 있습니다.

많은 고객들이 'Databricks Lakehouse로 데이터 메시를 만들 수 있습니까?'라고 묻습니다. 대답은 '예'입니다! 전 세계의 여러 대규모 Databricks 고객이 Lakehouse를 기술적 기반으로 사용하여 데이터 메시를 채택했습니다.

Databricks Lakehouse는 데이터 웨어하우스의 성능과 기능을 최신 데이터 레이크의 저렴한 비용, 유연성 및 확장성과 결합한 클라우드 네이티브 데이터, 분석 및 AI 플랫폼입니다. 소개를 보려면 Lakehouse란 무엇인가요?를 읽어보세요.

Lakehouse는 데이터 메시의 원칙으로 이어진 데이터 레이크의 근본적인 문제를 해결합니다. 즉, 모놀리식 데이터 레이크는 관리할 수 없는 데이터 스웜프가 될 수 있습니다. Databricks Lakehouse는 데이터가 구성되고 구조화되는 방식에 유연성을 제공하는 개방형 아키텍처이며, 모든 데이터 및 분석 워크로드에 대한 통합 관리 인프라를 제공합니다.

데이터 메시의 도메인 개념에 매핑되는 Databricks Lakehouse 플랫폼 내의 주요 구성 단위는 '워크스페이스'입니다. Databricks Lakehouse는 하나 이상의 워크스페이스를 가질 수 있으며, 각 워크스페이스는 로컬 데이터 소유권 및 액세스 제어를 지원합니다.

Figure 1: Databricks Lakehouse features to enable a data mesh

각 워크스페이스는 하나 이상의 도메인을 캡슐화하고 협업의 허브 역할을 하며, 도메인이 공통의 셀프 서비스 도메인 불가지론적 인프라를 사용하여 데이터 제품을 관리할 수 있도록 합니다. 여기에는 환경 프로비저닝 자동화 및 Databricks Workflows와 같은 내장 서비스를 사용한 데이터 파이프라인 오케스트레이션, 그리고 Databricks Terraform provider를 사용한 배포 자동화가 포함될 수 있습니다. Unity Catalog는 Databricks를 실행하는 조직 계정 수준에서 중앙 집중식 서비스로 연합 거버넌스, 검색 및 계보를 제공합니다. (그림 1 왼쪽).

많은 조직에서 거버넌스 경계를 넘어 외부 당사자와 데이터를 안전하게 공유하는 방법을 고려해야 할 필요가 있습니다. 이는 다른 클라우드 공급업체 및 지역에 호스팅된 내부 도메인에도 적용될 수 있습니다. Databricks Lakehouse는 Delta Sharing(그림 1 오른쪽) 형태로 솔루션을 제공합니다. Delta Sharing을 사용하면 컴퓨팅 플랫폼에 관계없이 조직이 외부 당사자와 데이터를 안전하게 공유할 수 있습니다. 데이터 중복이 필요하지 않으며 액세스는 자동으로 감사되고 기록됩니다.

Delta Sharing은 또한 더 광범위한 외부 데이터 공유 활동의 기반을 제공합니다. 여기에는 Databricks Marketplace와 같은 데이터 마켓플레이스를 통해 데이터를 게시하거나 획득하는 것과, Databricks 플랫폼 내에서 Databricks Cleanrooms로 활성화된 조직 및 기술 경계를 넘어 데이터를 안전하게 협업하는 것이 포함됩니다.

Unity Catalog와 Delta Sharing의 조합은 Databricks Lakehouse 플랫폼이 조직이 규모에 맞게 데이터 및 분석을 구성하고 관리하는 방식을 유연하게 제공하며, 여러 클라우드 공급업체, 다른 지리적 지역에 걸친 배포 및 외부 엔터티와 데이터 자산을 공유해야 하는 배포를 포함합니다. Databricks Lakehouse를 사용하면 데이터를 데이터 메시로 구성할 수도 있고, 완전히 중앙 집중식에서 완전히 분산된 모든 적절한 아키텍처를 사용하여 구성할 수도 있습니다.

이 블로그 게시물의 두 번째 부분에서는 다양한 데이터 메시 옵션을 살펴보고 Databricks Lakehouse를 기반으로 데이터 메시를 구현하는 방법에 대한 자세한 내용을 제공합니다.

이 게시물에서 언급된 Databricks Lakehouse 기능에 대해 자세히 알아보려면 다음을 참조하세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

Databricks Lakehouse와 Data Mesh, 파트 1

최신 게시물을 이메일로 받아보세요

Sign up