주요 컨텐츠로 이동
공지사항

Delta Sharing 소개: 안전한 데이터 공유를 위한 개방형 프로토콜

작성자: Matei Zaharia, Michael Armbrust, Steve Weis, 토드 그린스타인 , Cyrielle Simeone

Delta Sharing이 에이전트 스킬, AI 모델, 비정형 데이터를 포함한 AI 자산을 안전하게 공유하기 위한 최초의 개방형 벤더 중립적 프로토콜인 OpenSharing으로 발전했습니다. 발표 내용을 읽어보세요.

업데이트: Delta Sharing이 이제 AWS 및 Azure에서 정식 버전으로 제공됩니다.

Delta Lake 사용을 시작하는 데 필요한 단계별 안내가 담긴 O'Reilly의 새 전자책을 미리 만나보세요.

기업이 고객, 공급업체, 파트너와 데이터를 안전하게 교환하고자 함에 따라 현대 경제에서 데이터 공유는 매우 중요해졌습니다. 예를 들어, 소매업체는 공급업체에 실시간으로 판매 데이터를 공개하고 싶어 하거나, 공급업체는 실시간 재고를 공유하고 싶어 할 수 있습니다. 하지만 지금까지 데이터 공유는 공유 솔루션이 단일 벤더에 종속되어 있어 심각한 제약을 받았습니다. 이는 서로 다른 플랫폼을 운영하는 데이터 제공업체와 소비자 모두에게 마찰을 유발합니다.

오늘 저희는 조직 간 공유를 간소화하는 새로운 오픈 소스 프로젝트인 Delta Sharing을 출시합니다. 이는 대규모 데이터 세트의 안전한 실시간 교환을 위한 개방형 프로토콜로, 최초로 제품 간 안전한 데이터 공유를 가능하게 합니다. 저희는 세계 최고의 소프트웨어 및 데이터 제공업체 파트너들과 함께 Delta Sharing을 개발하고 있습니다.

오늘날의 데이터 공유 솔루션이 왜 마찰을 유발하는지 알아보기 위해, 공급업체의 분석가와 데이터를 공유하려는 소매업체의 사례를 생각해 보겠습니다. 현재 소매업체는 데이터 공유를 제공하는 여러 클라우드 데이터 웨어하우스 중 하나를 사용할 수 있지만, 분석가는 자신의 회사에 동일한 웨어하우스 제품을 배포하기 위해 IT, 보안 및 구매 팀과 협력해야 하며, 이 과정은 수개월이 걸릴 수 있습니다. 또한 웨어하우스가 배포되면 분석가가 가장 먼저 할 일은 데이터를 pandas나 Tableau와 같이 자신이 선호하는 데이터 과학 도구로 내보내는 것입니다.

Delta Sharing을 사용하면 데이터 사용자는 먼저 특정 플랫폼을 배포할 필요 없이 pandas, Tableau 또는 개방형 프로토콜을 구현하는 수십 개의 다른 시스템을 통해 공유 데이터에 직접 연결할 수 있습니다. 이를 통해 액세스 시간을 수개월에서 수분으로 단축하고, 가능한 한 많은 사용자에게 도달하고자 하는 데이터 제공업체의 작업을 크게 줄여줍니다.

저희는 선도적인 클라우드, BI 및 데이터 벤더의 제품 팀을 포함하여 Delta Sharing에 대한 활기찬 파트너 에코시스템과 협력하고 있습니다.

 Delta Sharing Ecosystem - Apache Spark, Pandas, Presto, Trino, Rust, Hive, Tableau, Power BI, Qlik, Looker, Databricks, Microsoft Azure, Google BigQuery, Starburst, Dremio, AtScale, Immuta, Privacera, Alation, Collibra, Nasdaq, S&P, ICE, NYSE, AWS, FactSet, Precisely, Atlassian, Foursquare, Sequence Bio

Delta Sharing 에코시스템

이 게시물에서는 Delta Sharing의 작동 방식과 데이터 공유에 대한 개방형 접근 방식에 대해 저희가 왜 그토록 기대하고 있는지 설명해 드리겠습니다.

Delta Sharing의 목표

Delta Sharing은 제공업체와 소비자 모두 기존 데이터 및 워크플로우와 함께 쉽게 사용할 수 있도록 설계되었습니다. 저희는 다음 네 가지 목표를 염두에 두고 설계했습니다.

  • 복사 없이 실시간 데이터를 직접 공유: 기존 데이터를 실시간으로 쉽게 공유할 수 있도록 하고자 합니다. 오늘날 대부분의 기업 데이터는 클라우드 데이터 레이크 및 레이크하우스 시스템에 저장됩니다. Delta Sharing은 이러한 시스템에서 작동하며, 특히 Delta Lake 또는 Apache Parquet 형식의 기존 데이터 세트를 안전하게 공유할 수 있도록 지원합니다.
  • 다양한 클라이언트 지원: 수신자는 새로운 플랫폼을 설치하지 않고도 자신이 선택한 도구에서 데이터를 직접 사용할 수 있어야 합니다. Delta Sharing 프로토콜은 도구들이 직접 지원하기 쉽도록 설계되었습니다. 대부분의 도구가 이미 지원하는 Parquet을 기반으로 하므로 커넥터를 쉽게 구현할 수 있습니다.
  • 강력한 보안, 감사 및 거버넌스: 이 프로토콜은 개인정보 보호 및 규정 준수 요구 사항을 충족할 수 있도록 설계되었습니다. Delta Sharing을 사용하면 단일 제어 지점에서 공유 데이터에 대한 액세스 권한을 부여, 추적 및 감사할 수 있습니다.
  • 대규모 데이터 세트로 확장: 데이터 공유는 기존 솔루션으로는 해결하기 까다로운 세분화된 산업 또는 금융 데이터와 같은 테라바이트 규모의 데이터 세트를 점점 더 많이 지원해야 합니다. Delta Sharing은 클라우드 스토리지 시스템의 비용 효율성과 탄력성을 활용하여 대규모 데이터 세트를 경제적이고 안정적으로 공유합니다.

Delta Sharing은 어떻게 작동하나요?

Delta Sharing은 클라우드 데이터 세트의 일부에 대한 액세스를 안전하게 공유하는 간단한 REST 프로토콜입니다. S3, ADLS, GCS와 같은 현대적인 클라우드 스토리지 시스템을 활용하여 대규모 데이터 세트를 안정적으로 전송합니다. 여기에는 데이터 제공업체(Data Provider)와 수신자(Recipient)라는 두 당사자가 참여합니다.

데이터 제공업체로서 Delta Sharing을 사용하면 클라우드 데이터 레이크에 Delta Lake 형식으로 저장된 기존 테이블 또는 그 일부(예: 파티션의 특정 테이블 버전)를 공유할 수 있습니다. Delta Lake 테이블은 본질적으로 Parquet 파일의 모음이며, 필요한 경우 기존 Parquet 테이블을 Delta Lake로 쉽게 래핑할 수 있습니다. 데이터 제공업체는 공유하려는 데이터를 결정하고, 그 앞에서 Delta Sharing 프로토콜을 구현하고 수신자의 액세스를 관리하는 공유 서버를 실행합니다. 저희는 참조 공유 서버를 오픈 소스로 공개했으며, 다른 벤더들도 마찬가지일 것으로 생각하여 Databricks에서 호스팅되는 서버를 제공합니다.

데이터 수신자로서 필요한 것은 프로토콜을 지원하는 여러 Delta Sharing 클라이언트 중 하나뿐입니다. 저희는 pandas, Apache Spark, Rust 및 Python용 오픈 소스 커넥터를 출시했으며, 파트너들과 함께 더 많은 커넥터를 준비하고 있습니다.

Delta Sharing은 클라우드 데이터 세트의 일부에 대한 액세스를 안전하게 공유하는 간단한 REST 프로토콜입니다. S3, ADLS, GCS와 같은 현대적인 클라우드 스토리지 시스템을 활용하여 대규모 데이터 세트를 안정적으로 전송합니다.

실제 교환은 클라우드 스토리지 시스템과 Delta Lake의 기능을 활용하여 효율적으로 작동하도록 정교하게 설계되었습니다. 프로토콜은 다음과 같이 작동합니다.

  1. 수신자의 클라이언트는 (전송 토큰 또는 기타 방법을 통해) 공유 서버에 인증하고 특정 테이블 쿼리를 요청합니다. 클라이언트는 데이터의 하위 세트만 읽기 위한 힌트로 데이터에 대한 필터(예: “country=US”)를 제공할 수도 있습니다.
  2. 서버는 클라이언트가 데이터에 액세스할 수 있는 권한이 있는지 확인하고, 요청을 기록한 다음, 반환할 데이터를 결정합니다. 이는 실제로 테이블을 구성하는 S3 또는 기타 클라우드 스토리지 시스템의 데이터 개체 하위 세트가 됩니다.
  3. 데이터를 전송하기 위해 서버는 클라이언트가 클라우드 제공업체로부터 이러한 Parquet 파일을 직접 읽을 수 있도록 수명이 짧은 사전 서명된 URL을 생성합니다. 이를 통해 공유 서버를 통한 스트리밍 없이 대규모 대역폭에서 병렬로 전송이 이루어질 수 있습니다. 모든 주요 클라우드에서 사용할 수 있는 이 강력한 기능을 통해 매우 큰 데이터 세트를 빠르고 저렴하며 안정적으로 공유할 수 있습니다.

설계의 이점

Delta Sharing 설계는 제공업체와 소비자 모두에게 많은 이점을 제공합니다.

  • 데이터 제공업체는 클라이언트에게 테이블 내 개체의 특정 하위 세트에 대한 액세스 권한만 부여되므로 전체 테이블을 쉽게 공유하거나 테이블의 특정 버전 또는 파티션만 공유할 수 있습니다.
  • 데이터 제공업체는 Delta Lake의 ACID 트랜잭션을 사용하여 실시간으로 데이터를 안정적으로 업데이트할 수 있으며, 수신자는 항상 일관된 뷰를 볼 수 있습니다.
  • 데이터 수신자는 제공업체와 동일한 플랫폼을 사용할 필요가 없으며 클라우드에 있을 필요도 없습니다. 클라우드 간 공유는 물론 클라우드에서 온프레미스 사용자로의 공유도 지원됩니다.
  • 클라이언트가 이미 Parquet을 이해하고 있다면 Delta Sharing 프로토콜을 구현하기가 매우 쉽습니다. 오픈 소스 엔진 및 BI 툴을 사용한 대부분의 프로토타입 구현은 구축하는 데 1~2주밖에 걸리지 않았습니다.
  • 기반 클라우드 시스템을 활용하여 전송이 빠르고 저렴하며 안정적이고 병렬 처리가 가능합니다.

개방형 생태계

앞서 언급했듯이, 저희는 데이터 공유에 대한 개방형 접근 방식을 구축하게 되어 기쁘게 생각합니다. Nasdaq과 같은 데이터 제공업체들은 서로 다른 분석 도구를 사용하는 다양한 소비자에게 데이터를 전달하는 것이 너무 어렵다고 한목소리로 말해왔습니다.

"우리는 조직 간의 안전한 데이터 공유와 협업을 단순화할 개방형 프로토콜이라는 Delta Sharing의 비전을 지지합니다. Delta Sharing은 파트너와의 협업 방식을 개선하고, 운영 비용을 절감하며, 더 많은 사용자가 Nasdaq의 포괄적인 데이터 제품군에 액세스하여 인사이트를 발견하고 금융 전략을 개발할 수 있도록 지원할 것입니다."라고 Nasdaq의 대체 데이터 부문 총괄인 Bill Dague는 말했습니다.

Delta Sharing을 통해 수십 개의 인기 시스템이 공유 데이터에 직접 연결되어 모든 사용자가 이를 사용할 수 있으므로 모든 참여자의 마찰을 줄일 수 있습니다. 저희는 Delta Sharing 표준을 정의하기 위해 수십 개의 파트너사와 협력하고 있으며, 여러분의 참여를 환영합니다.
이들 기업 중 상당수가 오늘 출시에 대한 지지를 보내주셨습니다.

BI 도구: Tableau, Qlik, Power BI, Looker
분석: AtScale, Dremio, Starburst, Microsoft Azure, Google BigQuery
거버넌스: Collibra, Immuta, Alation, Privacera
데이터 제공업체: FactSet, Nasdaq, Precisely, Safegraph, Atlassian, AWS, Foursquare, ICE, Qandl, S&P, SequenceBio

Databricks에서의 Delta Sharing

Databricks 고객은 Unity Catalog에서 Delta Sharing의 네이티브 통합을 사용할 수 있어, 조직 내부 및 조직 간에 데이터를 공유할 수 있는 간소화된 경험을 제공받게 됩니다. 관리자는 새로운 CREATE SHARE SQL 구문 또는 REST API를 사용하여 공유를 관리하고 모든 액세스를 중앙에서 감사할 수 있습니다. 수신자는 어떤 플랫폼에서든 데이터를 사용할 수 있습니다. 미리 보기 액세스 및 업데이트를 위한 대기자 명단에 등록하려면 가입하세요.

Databricks에서의 Delta Sharing 프로토콜 로드맵

로드맵

Delta Sharing의 이번 첫 번째 버전은 시작에 불과합니다. 프로젝트를 개발하면서 스트림, SQL 뷰 또는 머신러닝 모델과 같은 임의의 파일 등 다른 개체를 공유하는 것으로 확장할 계획입니다. 저희는 데이터 공유의 미래가 개방되어 있다고 믿으며, 이러한 접근 방식을 다른 공유 워크플로우에도 도입하게 되어 매우 기쁩니다.

Delta Sharing 시작하기

오픈 소스 Delta Sharing 릴리스를 사용해 보려면 delta.io/sharing의 지침을 따르세요. 또는 Databricks 고객인 경우, 서비스 업데이트를 받으려면 가입하세요. 여러분의 피드백을 기다리겠습니다!

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.