2년 연속으로 전년 대비 300% 이상 사용량이 증가한 Delta Sharing은 데이터 및 AI 공유를 위해 가장 널리 채택된 오픈 프로토콜입니다. SAP, Walmart, Atlassian, LSEG 등 주요 데이터 제공업체는 Delta Sharing을 사용하여 여러 클라우드와 플랫폼에서 파트너 및 고객과 데이터를 공유합니다. 오늘 Databricks Delta Sharing이 Apache Iceberg 형식을 완벽하게 지원한다는 소식을 발표하게 되어 기쁩 니다.
이제 데이터 제공자는 Apache Iceberg REST Catalog API를 지원하는 모든 클라이언트로 Databricks의 데이터를 안전하게 실시간 공유할 수 있습니다. 모든 클라우드에서 Snowflake, Trino, Flink, Spark와 같은 플랫폼을 사용하는 수신자는 모두 이 기능을 사용할 수 있으며, 이는 Delta Sharing의 개방형 에코시스템을 더욱 확장합니다.
또한 데이터 공급자가 AWS Glue, Hive Metastore, Snowflake Horizon 등을 포함하여 Databricks 외부의 카탈로그에서 관리되는 Iceberg 테이블을 Delta Sharing을 사용하여 공유할 수 있는 비공개 미리보기를 출시합니다.
함께 신규 또는 기존 테이블(Delta 또는 Iceberg, 관리형 또는 외부)을 공유할 수 있습니다. 이는 완전한 개방형 상호 운용성으로 이어집니다. 외부 카탈로그에서 Iceberg 테이블을 가져와 Databricks 및 Unity Catalog를 통해 관리한 다음, 수신자가 Databricks, Iceberg 클라이언트 또는 Delta 클라이언트를 사용하는지에 관계없이 모두에게 공유할 수 있습니다. 이를 통해 Unity Catalog를 통합 데이터 거버넌스 레이어로 활용하여 모든 공유를 한 곳에서 처리할 수 있습니다.
이 블로그 게시물에서는 개방형 데이터 공유의 중요성에 대해 설명합니다. 또한 체험형 데모를 통해 Delta Sharing이 Iceberg 클라이언트에서 어떻게 작동하는지 자세히 알아봅니다.
이것이 중요 한 이유: 개방형 공유와 폐쇄형 공유
대부분의 데이터 공유 솔루션은 실제로 공유하는 것이 아니라 데이터를 가두는 것입니다. 이러한 솔루션은 근본적으로 폐쇄적이며 공급업체 종속을 보장하도록 설계되어, 폐쇄된 에코시스템 내에 있는 다른 사람들과만 공유할 수 있습니다. 이는 선택의 폭을 제한하고 혁신을 저해하며 불필요한 대규모 데이터 복제를 유발합니다.
Delta Sharing은 안전한 Data Sharing을 위해 가장 널리 채택된 개방형 표준입니다. 분야를 선도하는 데이터 공급업체가 사용하며, 다양한 클라우드와 플랫폼을 지원하도록 구축되었습니다. 델타 셰어링은 세 가지 핵심 원칙에 따라 작동합니다.
Iceberg 클라이언트 지원을 추가하여 이러한 약속을 더욱 강화합니다. 이를 사용하면 Delta 테이블을 공유할 수 있으며, 수신자는 이를 네이티브 Iceberg 테이블로 경험하게 됩니다. 공유는 Iceberg REST API를 통해 이루어지므로 수신자는 Iceberg와 호환되는 모든 플랫폼에서 연결할 수 있습니다. 이를 통해 양쪽 모두의 장점을 활용할 수 있습니다. 즉, 데이터 공급자는 뷰 공유와 같은 고급 Delta Sharing 기능의 이점을 누리고 수신자는 Iceberg REST API를 통해 네이티브 Iceberg 테이블을 받게 됩니다.
수 신자는 원본 데이터에 안전하게 실시간으로 액세스할 수 있습니다. 이를 통해 사일로가 제거되고 누구와도 데이터를 공개적으로 공유할 수 있습니다.
이 기능은 Snowflake에서 운영하거나 Trino, Flink 또는 Spark와 같은 플랫폼과 통합하는 경우와 같이 Iceberg 클라이언트를 사용하여 파트너 및 고객과 외부적으로 데이터를 공유해야 하는 조직에 이상적입니다. 여러 플랫폼에서 여러 사업부를 운영하는 회사도 멀티 클라우드 또는 하이브리드 환경에서 원활한 양방향 데이터 교환을 활성화하여 혜택을 얻을 수 있습니다. 이러한 패턴을 이미 활용하고 있는 산업에는 헬스케어, 리테일, 금융, 애드테크 등이 포함됩니다.
저희는 완전한 오픈 데이터 액세스를 지향하기 때문에 Iceberg 클라이언트에 데이터를 공유하는 데 그치지 않습니다. 이제 AWS Glue나 Snowflake Horizon과 같은 외부 카탈로그에 있는 외부 Iceberg 테이블을 공유하는 다음 단계의 기능을 개발하고 있습니다. 외부 Iceberg 테이블에 대한 Delta Sharing 지원의 비공개 미리 보기를 발표하게 되어 기쁩니다.
Iceberg 테이블이 AWS Glue나 Snowflake에 있는데 왜 Delta Sharing을 통해 공유해야 하는지 궁금하실 것입니다. 해당 플랫폼 내에서 직접 공유해 보세요.
첫째, 외부 Iceberg 데이터를 Unity Catalog에 카탈로그하면 Unity Catalog에서 통합 거버넌스 레이어를 얻게 되어 데이터 자산 전반에 걸쳐 완전한 가시성과 거버넌스를 확보할 수 있습니다. 또한 Delta Sharing을 사용하면 데이터를 Iceberg 형식으로 유지하면서 Delta Sharing의 동급 최고 공유 기능의 이점을 누리는, 두 가지 장점을 모두 얻을 수 있습니다. 예를 들어, 여기에는 세 분화된 액세스 제어를 위해 뷰를 Delta Share하는 기능이 포함되는데, 이는 Iceberg IRC API에서 기본적으로 지원되지 않는 기능입니다.
이 비공개 미리 보기를 통해 Databricks Lakehouse는 양방향으로 개방됩니다. 사용자의 Lakehouse는 계속 성장하는 Iceberg 생태계와 데이터를 공유하고 받을 수 있습니다.
이러한 이중 기능은 다음을 제공합니다.
귀사인 Provider Corp가 Databricks와 Delta Lake를 사용하여 고객 데이터를 관리한다고 상상해 보세요. Snowflake를 사용하고 Iceberg 형식을 선호하는 Partner Inc와 일일 제품 판매 목록을 안전하게 공유해야 합니다.
이 기능 이전에는: Provider Corp는 데이터를 수동으로 내보내고, Snowflake에서 읽을 수 있는 형식으로 변환하고, 파트너의 클라우드 스토리지에 upload하고, 복잡한 동기화 작업을 설정해야 했습니다. 이는 느리고 비용이 많이 들며 상당한 관리 오버헤드가 발생하고 데이터가 오래될 위험이 있습니다.
Delta Sharing에서 Iceberg 클라이언트로:
이를 통해 Data Sharing은 즉각적이고 안전하며, 형식에 완전히 구애받지 않습니다.
테이블을 공유하고 Snowflake에서 읽는 단계를 안내하는 이 데모를 확인해 보세요.
시작하기
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
