Des scénarios de partage concrets illustrent l'architecture sécurisée, la flexibilité, l'adaptabilité et l'intégration de Delta Sharing avec Unity Catalog sur l'ensemble des plateformes et des clouds.
Delta Sharing a évolué pour devenir OpenSharing, le premier protocole ouvert et indépendant de tout fournisseur pour partager en toute sécurité des actifs d'IA, y compris des compétences d'agent (Agent Skills), des modèles d'IA et des données non structurées. Lisez l'annonce.
Dans le paysage numérique actuel, le partage sécurisé des données est essentiel à l'efficacité opérationnelle et à l'innovation. Databricks et la Linux Foundation ont développé Delta Sharing, la première approche open source du partage de données pour les données, l'analyse et l'IA. Databricks fournit un échange de données sécurisé, facilitant un partage fluide entre les plateformes, les clouds et les régions. Les entreprises de toutes tailles font confiance à Delta Sharing, qui prend en charge un large éventail d'applications et divers formats de données. Cette flexibilité en fait un outil fiable pour les organisations qui cherchent à exploiter pleinement le potentiel de leurs actifs de données.
Dans ce blog, nous examinerons l'architecture de sécurité de Delta Sharing à travers trois scénarios de partage différents : de client Databricks à client Databricks (D2D), de client Databricks vers le partage Open (D2O), et le partage de données multi-cloud. Nous résumerons les avantages de la mise en œuvre de Delta Sharing dans le cadre d'une stratégie moderne de collaboration de données, tels qu'une efficacité opérationnelle accrue grâce à des échanges de données simplifiés et sécurisés sur diverses plateformes et clouds, ainsi que la réduction de la complexité et des risques. Ce cadre sécurisé accélère le délai d'obtention des insights, permettant une prise de décision plus rapide tout en maintenant des protections robustes de la vie privée qui renforcent la confiance entre les parties prenantes. De plus, la flexibilité de Delta Sharing prend en charge une gamme diversifiée de formats de données et d'applications, ce qui lui permet de s'adapter de manière sécurisée aux besoins évolutifs de l'entreprise. Chaque scénario comprend un témoignage client qui met en lumière une expérience directe de l'impact révolutionnaire de la solution. Nous concentrerons ce blog sur Databricks Delta Sharing, où le fournisseur de données utilise la version gérée de la plateforme Databricks.
Le scénario D2D illustre un échange de données sécurisé et simplifié entre deux clients Databricks au sein de l'écosystème Databricks. Il propose des connexions gérées par Databricks et un système d'échange sans jeton, garantissant à la fois simplicité et sécurité.
Grâce au partage D2D, les clients bénéficient de l'intégration native de Delta Sharing avec Unity Catalog (UC), qui offre une gouvernance et une sécurité unifiées pour les opérations de partage. Il est important de noter que le partage ne se limite pas aux données : Unity Catalog va au-delà des ensembles de données pour inclure des volumes, des notebooks et des modèles d'IA, démontrant ainsi une gamme impressionnante de fonctionnalités. Le partage intra-compte de Delta Sharing est également activé par défaut, tandis que le partage externe est disponible lorsqu'il est activé avec l'accès de niveau administrateur requis. Pour configurer Databricks Delta Sharing, vous avez simplement besoin d'au moins un espace de travail Databricks activé pour Unity Catalog et le Metastore, ainsi que d'un rôle d'administrateur ou des privilèges CREATE SHARE et CREATE RECIPIENT (voir la documentation pour la configuration du compte).
Unity Catalog fournit une couche de gouvernance unifiée tout au long du processus, depuis les étapes initiales de création d'un destinataire et d'établissement des partages jusqu'à l'acte crucial d'octroi d'accès. Le service Delta Sharing traite les requêtes API, effectue des contrôles d'autorisation approfondis et conserve des journaux d'activité détaillés. Toutes ces étapes garantissent que les opérations sont aussi transparentes que sécurisées, à l'image d'une machine bien huilée sur laquelle vous pouvez compter pour assurer le bon fonctionnement de votre écosystème de partage.
Accès aux données : En examinant de plus près l'accès aux données post-autorisation, Unity Catalog est à nouveau un élément crucial. Dès réception de l'autorisation d'Unity Catalog, la méthode d'accès est déterminée (soit des jetons cloud, soit des URL pré-signées) en fonction de facteurs tels que le type d'actif et l'accord de partage. Pour les jetons cloud, un jeton SAS en lecture seule à portée restreinte est généré par l'UC du fournisseur, puis transmis au plan de calcul du destinataire. Cela fournit un accès sécurisé et limité dans le temps au répertoire racine de la table. De même, avec les URL pré-signées, une liste d'URL pertinentes est créée et envoyée au plan de calcul du destinataire, offrant un accès temporaire et sécurisé aux fichiers de stockage. En utilisant stratégiquement les fonctionnalités de sécurité lors de l'utilisation de différents services cloud, tels que les jetons SAS Azure et les URL pré-signées AWS, vous pouvez vous assurer que seules les personnes autorisées peuvent accéder aux données dans un cadre sécurisé à travers les régions et les clouds. De plus, les interactions sont limitées aux plans de contrôle du destinataire et du fournisseur, et il s'agit d'une opération privilégiée qui ne peut pas être déclenchée par des agents externes, protégeant ainsi contre les failles externes. Cette méthodologie souligne l'adaptabilité du système, garantissant que le partage de données est à la fois flexible et sécurisé, s'adaptant habilement à un large éventail de besoins commerciaux.

Coastal Community Bank a choisi Delta Sharing afin de répondre aux exigences rigoureuses et complexes de partage de données, de conformité et de sécurité de son réseau de partenaires. Coastal a choisi Cavallo Technologies pour l'aider à développer une plateforme de données moderne. Rob Cavallo, président de Cavallo Technologies, explique que Coastal avait besoin d'une solution flexible pour aujourd'hui et pour l'avenir, lire l'étude de cas de Coastal Community Bank.
« D'une certaine manière, Coastal [Community Bank] demandait un paradoxe : permettre une collaboration facile tout en respectant les normes de sécurité les plus strictes pour les données financières des consommateurs. Il est essentiel de s'assurer que la plateforme est performante et rentable pour les charges de travail actuelles, tout en étant suffisamment adaptable pour gérer des cas d'usage futurs non encore imaginés. En fin de compte, la Databricks Data Intelligence Platform a été la seule plateforme que nous ayons trouvée qui nous a permis de faire cela. » — Rob Cavallo, président de Cavallo Technologies
Delta Sharing prend en charge bien plus que les simples données tabulaires, en adoptant une approche plus holistique de la collaboration de données avec l'inclusion d'actifs de données non tabulaires tels que les volumes, les notebooks et les modèles d'IA. Ces types d'actifs ne sont actuellement pris en charge que dans le cadre de partage D2D, où ils enrichissent l'écosystème collaboratif. Les modèles d'IA sont partagés de manière similaire aux volumes, tandis que les notebooks disposent d'un mécanisme de partage unique. Les notebooks peuvent être prévisualisés par les destinataires via une URL pré-signée, affichant le contenu au format HTML dans une fenêtre contextuelle pour un accès immédiat. Pour une intégration plus approfondie, les notebooks peuvent également être importés dans l'environnement du destinataire, en utilisant l'encodage base64 et des appels API pour une transition fluide.
Le partage de modèles d'IA est facilité par la génération d'un jeton SAS sécurisé en lecture seule à portée restreinte, émis par l'UC du fournisseur, qui est ensuite transmis au plan de calcul du destinataire. Cette approche garantit un accès sécurisé et efficace et évite d'avoir à effectuer des copies superflues du modèle en permettant une copie unique dans le Model Registry de l'UC du destinataire. Cette copie du modèle peut ensuite être déployée dans plusieurs régions pour optimiser le processus d'inférence, améliorer les performances avec une latence réduite et offrir des temps de réponse plus rapides en tirant parti des centres de données régionaux plus proches des utilisateurs finaux. Découvrir, accéder et utiliser des volumes partagés et des modèles d'IA avec Delta Sharing démontre des approches à la fois similaires et adaptées à chaque type de données, favorisant une plateforme sécurisée et polyvalente pour le partage de données et la collaboration.
En passant au scénario de partage ouvert, D2O maintient des protocoles de sécurité stricts pour un client Databricks partageant des données avec des utilisateurs tiers externes qui ne sont pas sur Databricks. Le D2O permet aux destinataires de se connecter directement aux données partagées à l'aide de connecteurs Delta Sharing qui prennent en charge divers systèmes tels que pandas, Tableau, Apache Spark, Rust ou d'autres qui prennent en charge le protocole ouvert, sans avoir besoin au préalable d'une plateforme de calcul spécifique.
Lors de la création d'un destinataire ouvert dans Databricks, une URL d'activation unique et sécurisée est générée, permettant au destinataire de télécharger un fichier d'identifiants contenant une adresse de point de terminaison Delta Sharing et un jeton. En cas de faille de sécurité, les fournisseurs ont la possibilité de prendre des mesures immédiates, telles que la modification des identifiants d'un destinataire ou le retrait de ses autorisations de lecture afin d'éviter tout autre problème.
Flux de travail d'accès aux données : Lorsqu'un destinataire interroge une table partagée à l'aide de l'un des connecteurs mentionnés, Delta Sharing vérifie l'identité du destinataire à l'aide de jetons issus du fichier d'identification, et fournit des URL pré-signées pour accéder aux données. Cette approche garantit la compatibilité avec divers connecteurs open source, préservant ainsi l'intégrité et la sécurité des actifs partagés. (En savoir plus sur le partage et l'accès aux données.)
Cox Automotive Europe (qui fait partie de Cox Automotive) est la plus grande entreprise de services automobiles au monde à utiliser Delta Sharing pour gérer et auditer de manière centralisée les données partagées en dehors de son équipe de services de données d'entreprise, tout en garantissant une sécurité et une gouvernance robustes. Lire l'étude de cas de Cox Automotive.
« Delta Sharing permet de partager facilement et en toute sécurité des données avec des unités commerciales et des filiales sans avoir à les copier ou à les répliquer. Cela nous permet de partager données sans que le destinataire ait besoin d'avoir une identité dans notre espace de travail. » — Robert Hamlet, Lead Data Engineer chez Cox Automotive
Les entreprises adoptent de plus en plus des stratégies cross-cloud, motivées par la nécessité de prendre en charge diverses fonctionnalités sur différentes plateformes cloud, de faciliter les partenariats ou d'intégrer les données d'une autre organisation après une acquisition. Cette transition vers un environnement multicloud souligne l'importance pour les organisations de mettre en œuvre des solutions robustes comme Delta Sharing afin de permettre un partage fluide et sécurisé, tant en interne qu'en externe. La mise en œuvre d'une stratégie cross-cloud est souvent essentielle pour que nos clients maintiennent la continuité opérationnelle, favorisent l'innovation et stimulent la croissance dans un écosystème numérique interconnecté, tout en ayant la possibilité de tirer parti des forces uniques de chaque service cloud.
Pour beaucoup de nos clients qui adoptent des stratégies cross-cloud, il est clair que les capacités de partage multiplateforme ouvertes de Delta Sharing, qui prennent en charge de manière fluide les environnements multicloud, constituent un différenciateur et un avantage évidents. Delta Sharing est tout aussi efficace pour partager des données en interne au sein d'un seul cloud que pour partager des données en externe sur plusieurs plateformes cloud, garantissant ainsi un processus d'échange de données sécurisé et efficace pour les deux scénarios. Databricks a reçu de nombreux retours de clients concernant leurs besoins de partage de données au sein d'environnements multicloud et la manière dont Delta Sharing contribue à promouvoir l'interopérabilité et à renforcer la sécurité dans l'ensemble de leur écosystème cloud.
L'un de ces clients de Databricks est Deutsche Börse, une organisation d'échange internationale et un fournisseur d'infrastructures de marché. Une fois qu'ils ont mis en œuvre Delta Sharing pour leur permettre de partager et de collaborer ouvertement avec leurs clients, l'impact commercial a été transformateur.
« Disposer d'une plateforme qui permet un partage sécurisé des données avec des contrôles d'accès précis, les normes de sécurité les plus élevées et une garantie de confidentialité ouvre de nouvelles possibilités. Nous pouvons désormais engager des discussions sur des solutions personnalisées là où, par le passé, nous aurions dit : "Malheureusement, nos clients ne souhaitent pas partager leurs données et leurs modèles avec nous, ou nous ne souhaitons pas partager des données plus granulaires ou nos modèles pour des raisons de confidentialité." » — Jan Stiebing, responsable de la stratégie commerciale et des M&A chez Deutsche Börse
Dans cet exemple de client et dans bien d'autres, Delta Sharing est capable de combler les lacunes en matière de partage de données et de collaboration qui étaient autrefois considérées comme insurmontables, tout en maintenant les normes de sécurité et de confidentialité les plus élevées. Deutsche Börse propose également plusieurs listes de données de marché sur le Databricks Marketplace.
Delta Sharing permet un partage de données sécurisé et fluide entre différents environnements cloud, en s'intégrant parfaitement à l'architecture de sécurité de stockage native du cloud. Il le fait sans nécessiter de modifications importantes de votre infrastructure de sécurité existante. Cette approche est conçue pour les organisations qui utilisent Databricks sur des plateformes cloud telles qu'Azure, AWS et GCP, en s'alignant sur les exigences d'Unity Catalog. La plateforme Databricks Data Intelligence Platform prend en charge le partage de données via des solutions de stockage cloud (ADLS Gen2, S3, GCS) en mettant l'accent sur des canaux de communication privés ou sur l'autorisation d'adresses IP (IP whitelisting) pour une sécurité renforcée.
La configuration du réseau et du stockage pour Delta Sharing décrite ci-dessous fonctionne à la fois pour les scénarios intra-cloud et cross-cloud. Le partage intra-cloud facilite l'échange sécurisé de données au sein du même écosystème cloud à l'aide de points de terminaison privés, de pare-feu de stockage et de passerelles réseau, garantissant qu'aucun accès public n'est autorisé. Dans les scénarios de partage cross-cloud, Delta Sharing s'appuie sur les IP de sortie de la passerelle NAT et prend en charge les connexions privées cross-cloud existantes, telles que les VPN de site à site ou les liaisons dédiées, afin de permettre un accès sécurisé aux données sur différentes plateformes cloud et réseaux sur site. Cette approche complète et sécurisée permet à un large éventail d'infrastructures réseau de participer efficacement à Delta Sharing, favorisant à la fois la flexibilité et la sécurité.

Le schéma ci-dessus représente un exemple de configuration réseau cross-cloud.
Dans Delta Sharing, le filtrage des données est essentiel pour fournir un accès flexible et sécurisé, grâce à deux méthodes principales :
Elles permettent de restreindre l'accès en fonction des propriétés spécifiques du destinataire, garantissant que les données ne sont partagées qu'avec les destinataires prévus et dans le contexte approprié. Ces approches renforcent la sécurité et la flexibilité de Delta Sharing, permettant un accès aux données sur mesure qui répond aux besoins uniques des destinataires.
En conclusion, Delta Sharing est un composant clé de la plateforme Databricks Data Intelligence Platform et se distingue par ses capacités de partage de données sécurisées, flexibles et multiplateformes, soutenant les stratégies de données modernes. En plus de prendre en charge d'autres plateformes via des connecteurs open source, Delta Sharing permet aux clients de partager des données structurées et non structurées, ainsi que des modèles d'IA. Toutes ces capacités différencient clairement Delta Sharing des autres plateformes d'échange de données. C'est pourquoi Delta Sharing bénéficie de la confiance de nombreux clients dans différents secteurs, comme en témoignent leurs retours d'expérience, soulignant l'impact significatif sur l'efficacité opérationnelle et l'innovation. Alors que le paysage du partage de données continue d'évoluer, Delta Sharing est conçu pour l'avenir, en donnant la priorité à la sécurité, à la flexibilité et à l'intégration fluide au sein de divers écosystèmes de partage de données. Cet engagement indéfectible positionne Delta Sharing comme un atout indispensable pour exploiter la puissance des données afin de faire progresser les objectifs numériques des entreprises du monde entier.
Pour en savoir plus sur la mise en œuvre de Delta Sharing au sein de votre organisation, consultez les dernières ressources, notamment les nouveaux eBooks et les blogs associés ci-dessous, ou plongez dans la documentation de Delta Sharing.
Si vous utilisez déjà Delta Sharing, vous pouvez également contacter l'équipe pour poser des questions ou faire part de vos commentaires à l'adresse datasharing@databricks.com.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.