Revenir au contenu principal
Annonces

Annonce de la disponibilité générale de Delta Sharing

par Matei Zaharia, Celia Kung, Xiaotong Sun, Steve Mahoney, Itai Weiss, Sachin Thakur et Jay Bhankharia

Delta Sharing a évolué pour devenir OpenSharing, le premier protocole ouvert et neutre vis-à-vis des fournisseurs pour partager en toute sécurité des actifs d'IA, notamment les compétences d'agent, les modèles d'IA et les données non structurées. Lisez l'annonce.

Aujourd'hui, nous sommes ravis d'annoncer que Delta Sharing est généralement disponible (GA) sur AWS et Azure. Avec cette version GA, vous pouvez vous attendre au plus haut niveau de stabilité, de support et d'aptitude à l'usage en entreprise de la part de Databricks pour vos charges de travail critiques sur la plateforme Databricks Lakehouse.

Dans cet article de blog, nous explorons comment les entreprises exploitent Delta Sharing pour maximiser la valeur commerciale de leurs données, certaines des fonctionnalités clés disponibles dans la version GA, et comment démarrer avec Delta Sharing sur la plateforme Databricks Lakehouse.

Les clients y gagnent grâce au standard ouvert pour le partage de données depuis le lakehouse

Le partage de données est devenu essentiel dans l'économie numérique, car les entreprises cherchent à échanger facilement et en toute sécurité des données avec leurs clients, partenaires, fournisseurs et branches d'activité internes (LOB) afin de mieux collaborer et de libérer la valeur de ces données. Cependant, l'absence de protocole de partage de données basé sur des standards a conduit à des solutions liées à un seul fournisseur ou produit commercial, introduisant des risques de dépendance vis-à-vis du fournisseur. Ces défis clients nous ont amenés, chez Databricks, à concevoir une solution ouverte de partage de données, Delta Sharing.

Delta Sharing offre une solution ouverte pour partager en toute sécurité des données en temps réel depuis votre lakehouse vers n'importe quelle plateforme informatique. Les destinataires des données n'ont pas besoin d'utiliser la plateforme Databricks Lakehouse, ni d'être sur le même cloud, ni même d'être sur un cloud. Les fournisseurs de données peuvent partager des ensembles de données à grande échelle existants basés sur les formats Apache Parquet ou Delta Lake, sans répliquer ni copier les ensembles de données vers un autre système. Les destinataires des données bénéficient d'un accès permanent à la dernière version des données, avec la possibilité d'interroger, de visualiser, de transformer, d'ingérer ou d'enrichir les données partagées avec les outils de leur choix, ce qui réduit le délai de valorisation. La gouvernance et la sécurité étant des priorités absolues pour de nombreuses entreprises, Delta Sharing est intégré nativement avec Unity Catalog, ce qui vous permet de gérer, gouverner, auditer et suivre l'utilisation des données partagées sur une seule et même plateforme.

Delta Sharing – Un standard ouvert pour le partage sécurisé d'actifs de données
Delta Sharing – Un standard ouvert pour le partage sécurisé d'actifs de données

Depuis le lancement de Delta Sharing en version préliminaire privée l'année dernière, des centaines de clients ont adopté Delta Sharing, et aujourd'hui, des pétaoctets de données sont partagés via Delta Sharing.

Nasdaq : « Delta Sharing nous a aidés à simplifier notre processus de livraison de données pour les grands ensembles de données. Cela permet à nos clients d'utiliser leur propre environnement de calcul pour lire des données fraîchement préparées avec peu ou pas de travail d'intégration, et nous permet de continuer à enrichir notre catalogue de produits de données uniques et de haute qualité. » - William Dague, responsable des données alternatives

Shell : « Nous reconnaissons que l'ouverture des données jouera un rôle clé dans la réalisation des ambitions de neutralité carbone de Shell. Delta Sharing fournit à Shell un protocole standard, contrôlé et sécurisé pour partager facilement de vastes volumes de données avec nos partenaires afin de progresser vers ces objectifs, sans exiger que nos partenaires utilisent la même plateforme de partage de données. » - Bryce Bartmann, conseiller principal en technologies numériques

SafeGraph : « En tant qu'entreprise de données, donner à nos clients l'accès à nos ensembles de données est essentiel. La plateforme Databricks Lakehouse avec Delta Sharing simplifie réellement ce processus, nous permettant d'atteindre en toute sécurité une base d'utilisateurs beaucoup plus large, quel que soit le cloud ou la plateforme. » - Felix Cheung, VP de l'ingénierie

YipitData : « Avec Delta Sharing, nos clients peuvent accéder à des ensembles de données préparés presque instantanément et les intégrer aux outils d'analyse de leur choix. Le dialogue avec nos clients passe d'un échange technique à faible valeur ajoutée sur l'ingestion à une discussion analytique à haute valeur ajoutée où nous favorisons des expériences client réussies. À mesure que nos relations clients évoluent, nous pouvons fournir de manière transparente de nouveaux ensembles de données et actualiser ceux existants via Delta Sharing afin de tenir nos clients informés des tendances clés de leur secteur. » - Anup Segu, responsable technique de l'ingénierie des données

Pumpjack Dataworks : « L'exploitation des puissantes fonctionnalités de Delta Sharing de Databricks permet à Pumpjack Dataworks d'accélérer l'intégration, en éliminant le besoin d'exporter, d'importer et de remodeler les données, ce qui apporte une valeur immédiate à nos clients. Des résultats plus rapides génèrent de plus grandes opportunités commerciales pour nos clients et leurs partenaires. » - Corey Zwart, directeur de la technologie

Quoi de neuf dans Delta Sharing avec la version GA ?

Bien que Delta Sharing propose une multitude de fonctionnalités exceptionnelles dans cette version GA, voici quelques-unes des fonctionnalités clés que nous livrons avec cette version :

Partage fluide de Databricks à Databricks

Pour les clients de Databricks, Delta Sharing rend le partage de données sur le lakehouse extrêmement simple, efficace et sécurisé. En quelques clics dans l'UI ou commandes SQL, les fournisseurs de données peuvent facilement partager leurs données existantes avec des destinataires sur Databricks, sans répliquer les données. Par exemple, un fournisseur de données utilisant Databricks sur AWS peut partager des données existantes avec un destinataire utilisant Databricks sur Azure, ou vice-versa. Vous pouvez explorer le guide de l'utilisateur pour obtenir tous les détails. Dans le cadre du partage de Databricks à Databricks, le fournisseur de données n'a pas besoin de gérer les jetons d'authentification pour les destinataires qui utilisent Databricks ; la connexion de partage est établie de manière sécurisée via la plateforme Databricks. Il vous suffit de vous connecter avec un compte Databricks, et la plateforme s'occupe du reste. Outre le partage de données entre comptes, le partage de données en interne constitue un autre cas d'usage important. Si vous disposez de plusieurs métastores Unity Catalog sous le même compte dans différentes régions, vous pouvez facilement partager des données entre ces métastores en utilisant Delta Sharing, sans copier de données. Exemple de workflow SQL du point de vue d'un fournisseur de données :

Exemple de workflow SQL du point de vue d'un destinataire de données :

Partage du Change Data Feed

Delta Sharing prend désormais en charge le partage du Change Data Feed (CDF). En plus de partager une table, un fournisseur de données peut choisir d'inclure le CDF de la table, permettant ainsi aux destinataires d'interroger les modifications entre des versions ou des horodatages spécifiques de la table. Grâce à cette fonctionnalité, les destinataires peuvent interroger uniquement les nouvelles données ou les modifications incrémentielles au lieu de charger l'intégralité de la table à chaque fois. Un fournisseur de données peut facilement partager une table avec le CDF, et un destinataire de données peut interroger les modifications de la table à l'aide d'une syntaxe simple :

Fonctionnalités de sécurité améliorées

Dans la version GA de Delta Sharing, nous proposons également un ensemble de fonctionnalités de sécurité pour rendre le partage encore plus sûr. Un exemple de ces fonctionnalités de sécurité est la liste d'accès IP. Les fournisseurs de données peuvent désormais configurer une liste d'accès IP pour chacun de leurs destinataires à l'aide de connecteurs ouverts. Cela garantit que le téléchargement des identifiants et l'accès aux données ne peuvent être initiés qu'à partir de l'adresse IP cible. Nous avons également ajouté quelques autorisations supplémentaires liées à Delta Sharing (par exemple, CREATE SHARE, CREATE RECIPIENT) et introduit le concept de propriétaire (owner) pour les objets Delta Sharing tels que Share et Recipient. Grâce à ces primitives, Delta Sharing sur Databricks offre un modèle de contrôle d'accès plus flexible, et les utilisateurs non administrateurs peuvent également effectuer des opérations de partage.

Démarrer avec Delta Sharing sur Databricks

Regardez la démo ci-dessous pour découvrir comment Delta Sharing vous permet de partager facilement vos données en direct depuis votre lakehouse vers n'importe quelle plateforme informatique.

Si vous êtes déjà client Databricks, suivez le guide pour commencer (AWS | Azure). Consultez les notes de version pour en savoir plus sur les nouveautés de cette version GA. Si vous n'êtes pas encore client Databricks, inscrivez-vous pour bénéficier d'un essai gratuit avec un espace de travail Premium ou Entreprise.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.