Avec une croissance annuelle de son utilisation de plus de 300 % pendant deux années consécutives, Delta Sharing est le protocole ouvert le plus largement adopté pour le partage de données et d'IA. D'importants fournisseurs de données, notamment SAP, Walmart, Atlassian et LSEG, utilisent Delta Sharing pour partager des données avec leurs partenaires et clients sur différents clouds et plateformes. Aujourd'hui, nous sommes ravis d'annoncer que Databricks Delta Sharing offre une prise en charge de premier ordre pour le format Apache Iceberg.
Les fournisseurs de données peuvent désormais partager des données de manière sécurisée et en direct depuis Databricks vers n'importe quel client qui prend en charge l'API REST Catalog d'Apache Iceberg. Les destinataires sur des plateformes telles que Snowflake, Trino, Flink et Spark sur tous les clouds peuvent tous utiliser cette fonctionnalité, ce qui vient s'ajouter à l'écosystème ouvert de Delta Sharing.
De plus, nous lançons une Private Preview qui permet aux fournisseurs de données d'utiliser Delta Sharing pour partager des tables Iceberg gérées par des catalogues externes à Databricks, y compris AWS Glue, Hive Metastore, Snowflake Horizon, et plus encore.
Ensemble, vous pouvez partager toutes les tables, nouvelles ou existantes (Delta ou Iceberg, gérées ou externes). Cela contribue à une interopérabilité ouverte et complète. Vous pouvez importer des tables Iceberg depuis n'importe quel catalogue externe, les gérer via Databricks et Unity Catalog, puis les partager avec n'importe quel destinataire, qu'il soit sur Databricks, un client Iceberg ou un client Delta. Cela vous permet de tirer parti d'Unity Catalog comme votre couche de gouvernance des données unifiée, vous offrant un emplacement unique pour tous les partages.
Dans ce billet de blog, nous expliquerons pourquoi le Data Sharing est important. Nous examinerons également en détail le fonctionnement des clients Delta Sharing vers Iceberg à travers une démonstration pratique.
Pourquoi c'est important : le partage ouvert ou fermé
La plupart des Solutions de Data Sharing ne partagent pas vraiment : elles vous piègent. Ils sont fondamentalement fermés et conçus pour garantir une dépendance vis-à-vis d'un fournisseur, de sorte que vous ne pouvez partager qu'avec d'autres personnes qui se trouvent déjà dans leurs écosystèmes fermés. Cela limite vos options, étouffe l'innovation et entraîne une réplication massive et inutile des données.
Delta Sharing est le standard ouvert le plus largement adopté pour le Data Sharing sécurisé. Utilisé par les fournisseurs de données leaders de leur catégorie, il est conçu pour prendre en charge différents clouds et plateformes. Delta Sharing repose sur trois principes fondamentaux :
L'ajout de la prise en charge du client Iceberg renforce cet engagement. Il vous permet de partager une table Delta tandis que les destinataires la voient comme une table Iceberg native. Le partage s'effectue via l'API REST d'Iceberg, afin que les destinataires puissent se connecter depuis n'importe quelle plateforme compatible avec Iceberg. Cela vous permet de bénéficier du meilleur des deux mondes : les fournisseurs de données bénéficient des fonctionnalités avancées de Delta Sharing, telles que le partage de vues, tandis que les destinataires reçoivent des tables Iceberg natives via l'API REST d'Iceberg.
Les destinataires obtiennent un accès sécurisé et en direct aux données source. Cela élimine les silos et vous permet de partager ouvertement des données avec n'importe qui.
Cette fonctionnalité est idéale pour les organisations qui ont besoin de partager des données en externe avec des partenaires et des clients utilisant des clients Iceberg, tels que ceux qui opèrent sur Snowflake ou qui s'intègrent à des plateformes comme Trino, Flink ou Spark. Les entreprises avec plusieurs unités commerciales opérant sur plusieurs plateformes en bénéficient également en débloquant un échange de données fluide et bidirectionnel dans des environnements multi-cloud ou hybrides. Les secteurs d'activité qui exploitent déjà ces modèles comprennent la santé, le commerce de détail, la finance, l'ad-tech, et plus encore.
Parce que nous croyons en un accès totalement ouvert aux données, nous ne nous contentons pas de partager des données avec les clients Iceberg. Nous développons actuellement la prochaine évolution : le partage de tables Iceberg étrangères qui se trouvent dans des catalogues externes tels que AWS Glue ou Snowflake Horizon. Nous sommes ravis d'annoncer la Private Preview de la prise en charge des tables Iceberg étrangères par Delta Sharing.
Vous pourriez vous demander : pourquoi partager une table Iceberg via Delta Sharing si elle se trouve dans AWS Glue ou Snowflake ? Pourquoi ne pas la partager directement depuis cette plateforme ?
Tout d'abord, en cataloguant vos données Iceberg externes dans Unity Catalog, vous bénéficiez d'une couche de gouvernance unifiée dans Unity Catalog, ce qui vous permet d'obtenir une visibilité et une gouvernance complètes sur l'ensemble de votre parc de données. De plus, l'utilisation de Delta Sharing vous permet d'obtenir le meilleur des deux mondes: vous bénéficiez des fonctionnalités de partage de premier ordre de Delta Sharing, tout en conservant vos données au format Iceberg. Cela inclut par exemple, la possibilité de partager des vues via Delta Share pour un contrôle d'accès affiné, ce qui n'est pas pris en charge en mode natif par l'API IRC d'Iceberg.
Avec cette Private Preview, le Lakehouse Databricks est ouvert dans les deux sens. Votre Lakehouse peut partager et recevoir des données de l'écosystème Iceberg en pleine croissance.
Cette double capacité vous offre :
Imaginez que votre entreprise, Provider Corp, utilise Databricks et Delta Lake pour gérer les données client. Vous devez partager de manière sécurisée une liste quotidienne des ventes de produits avec Partner Inc, qui utilise Snowflake et préfère le format Iceberg.
Avant cette fonctionnalité : Provider Corp devait exporter manuellement les données, les transformer dans un format lisible par Snowflake, les upload sur le stockage cloud du partenaire et configurer un job de synchronisation complexe. C'est lent, coûteux, implique une charge administrative importante et risque de rendre les données obsolètes.
Avec Delta Sharing pour les clients Iceberg :
Cela rend le Data Sharing instantané, sûr et totalement indépendant du format.
Découvrez cette démo qui présente les étapes pour partager une table et la lire dans Snowflake.
Démarrer
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Produto
June 12, 2024/11 min de leitura

