Mise à jour : Delta Sharing est désormais en disponibilité générale sur AWS et Azure.
Le Data Sharing est devenu un élément essentiel pour générer de la valeur commerciale, car les entreprises de toutes tailles cherchent à échanger des données en toute sécurité avec leurs clients, fournisseurs et Partenaires. Selon une récente enquête Gartner, les organisations qui encouragent le Data Sharing obtiendront de meilleurs résultats que leurs pairs sur la plupart des indicateurs de valeur métier.
Les Solutions de Data Sharing existantes présentent divers défis qui limitent le Data Sharing au sein des organisations ou entre elles et ne permettent pas de réaliser la véritable valeur des données. Au cours des 30 dernières années, les Solutions de Data Sharing ont existé sous deux formes : les Solutions développées en interne ou les Solutions commerciales tierces. Avec les Solutions maison, le Data Sharing a été construit sur des technologies héritées telles que SFTP et les APIs REST, qui sont devenues difficiles à gérer, à maintenir ou à faire monter en charge pour répondre aux nouvelles exigences en matière de données. En revanche, les Solutions commerciales de Data Sharing ne vous permettent de partager des données qu'avec d'autres personnes utilisant la même plateforme, ce qui limite le Data Sharing et peut s'avérer coûteux.
Ces défis nous ont amenés, chez Databricks, à repenser l'avenir du Data Sharing comme étant ouvert. Lors du Data + AI Summit 2021, nous avons annoncé Delta Sharing, le premier protocole ouvert au monde pour le partage de données sécurisé, évolutif et en temps réel. Notre vision pour Delta Sharing est de créer une solution de data sharing qui simplifie le partage sécurisé de données en direct entre les organisations, indépendamment de la plateforme sur laquelle les données résident ou sont utilisées. Avec Delta Sharing, les organisations peuvent facilement partager des datasets volumineux existants basés sur les formats Apache Parquet et Delta Lake sans déplacer les données, et donner aux équipes de données la flexibilité de queryer, de visualiser et d'enrichir les données partagées avec les outils de leur choix.

Depuis le lancement de la préversion privée, nous avons constaté un engagement formidable de la part de clients de tous les Secteurs d'activité pour collaborer et développer une Data Sharing Solution adaptée et ouverte à tous. Des clients ont déjà partagé des pétaoctets de données à l'aide de Delta Sharing. L'écosystème de partenaires Delta Sharing s'est également développé depuis l'annonce, avec des clients commerciaux et open source disposant de connecteurs Delta Sharing intégrés tels que PowerBI, Pandas et Apache Spark™, et de nombreux autres seront bientôt disponibles.
Au cours de nos conversations avec les clients, nous avons identifié trois cas d'usage courants : la commercialisation des données, le partage de données avec des partenaires et des clients externes, et le partage de données entre secteurs d'activité. Dans ce billet de blog, nous explorons chacun des principaux cas d'usage et partageons certains des insights que nous recevons de nos clients.
Exemple client: un fournisseur de données financières souhaitait réduire les inefficacités opérationnelles de ses canaux de livraison de données existants et permettre à ses clients finaux d'accéder en toute transparence à de nouveaux datasets volumineux.
Le fournisseur de données a récemment lancé de nouveaux datasets textuels de grande taille, avec des téraoctets de données produits régulièrement. Fournir un accès rapide et facile à ces grands datasets a été un défi constant pour le fournisseur de données, car les datasets étaient difficiles à ingérer en masse pour les destinataires des données. Avec la solution actuelle, le fournisseur devait répliquer les données vers des serveurs SFTP externes, ce qui présentait de nombreux points de défaillance potentiels et augmentait la latence.
Côté destinataire, l'ingestion et la gestion de ces données n'étaient pas aisées en raison de leur taille et de leur volume. Les destinataires des données devaient mettre en place une infrastructure pour l'ingestion, ce qui nécessitait des approbations supplémentaires de la part des administrateurs IT et de base de données, entraînant des retards qui pouvaient prendre des semaines, voire plus, avant que le consommateur final ne puisse commencer à utiliser les données.
Avec Delta Sharing, le fournisseur de données peut désormais partager de grands datasets de manière transparente et surmonter les problèmes de scalabilité des serveurs SFTP. Ces grands datasets textuels de l'ordre du téraoctet, qui devaient être extraits par batchs vers SFTP, sont désormais accessibles en temps réel via Delta Sharing. Le fournisseur peut désormais simplement accorder et gérer l'accès aux destinataires des données au lieu de répliquer les données, réduisant ainsi la complexité et la latence. Grâce à l'amélioration de la scalabilité, le fournisseur de données constate une augmentation significative de l'adoption par les clients, car les consommateurs de données ont accès aux données en direct au lieu d'avoir à extraire les datasets régulièrement.
Exemple client: un grand distributeur avait besoin de partager facilement des données produit (p. ex., les Ventes de SKU de céréales) avec des Partenaires sans être sur la même plateforme de Data Sharing ou de cloud computing qu'eux. Le détaillant souhaitait créer des datasets partitionnés basés sur les SKU afin que les Partenaires puissent facilement accéder aux données pertinentes en temps réel.
Le détaillant utilisait un SFTP et des APIs développés en interne pour partager des données avec ses Partenaires, ce qui était devenu ingérable. Cette solution a nécessité une quantité considérable de ressources de développement pour sa maintenance et son exploitation. Le détaillant a examiné d'autres Data Sharing Solutions, mais celles-ci exigeaient que ses Partenaires soient sur la même plateforme, ce qui n'est pas réalisable pour toutes les parties en raison des considérations de coût et de la charge opérationnelle liée à la réplication des données entre différentes régions.
Delta Sharing était une proposition intéressante pour le détaillant, lui permettant de gérer et de partager efficacement des données sur plusieurs plateformes cloud sans avoir à les répliquer entre les régions. Le détaillant a trouvé qu'il était facile de gérer, de créer et d'auditer les partages de données pour ses plus de 100 partenaires grâce à Delta Sharing. Pour chaque partenaire, le détaillant peut facilement créer des partitions et partager les données en toute sécurité, sans qu'il soit nécessaire d'être sur la même plateforme de données. En plus de faciliter la gestion des partages, Delta Sharing minimise également les coûts, car le fournisseur de données n'encourt que les frais de sortie des données du fournisseur de cloud sous-jacent et n'a pas à payer de frais de compute pour le Data Sharing.
Exemple client: un fabricant souhaite que les data scientists de ses plus de 15 divisions et filiales aient accès à des données autorisées pour créer des modèles prédictifs. Le fabricant souhaite le faire avec de solides capacités de gouvernance, de contrôle et d'audit en raison de la sensibilité des données.
Le fabricant dispose de nombreux déploiements de data lakes, ce qui complique l'accès sécurisé et efficace aux données pour les équipes de l'ensemble de l'organisation. La gestion de toutes ces données au sein de l'organisation s'effectue de manière personnalisée, sans contrôles stricts sur les droits d'accès et la gouvernance. De plus, nombre de ces datasets atteignent plusieurs pétaoctets, ce qui soulève des inquiétudes quant à la capacité de partager ces données de manière évolutive. La direction hésitait à partager les données sans des contrôles d'accès et une gouvernance appropriés. Par conséquent, le fabricant manquait des opportunités uniques de valoriser ses données et de permettre à ses équipes de Data Science d'obtenir des insights plus approfondis.
Avec Delta Sharing, le fabricant a désormais la capacité de gouverner et de partager des données entre différentes entités internes sans avoir à déplacer les données. Delta Sharing permet au fabricant d'accorder, de suivre et d'auditer l'accès aux données partagées à partir d'un point d'application unique. Sans avoir à déplacer ces grands datasets, le fabricant n'a pas à se soucier de la gestion de différents services pour répliquer les données. Delta Sharing a permis au fabricant de partager des données en toute sécurité beaucoup plus rapidement que prévu, offrant des avantages immédiats, car les utilisateurs finaux ont pu commencer à travailler avec des datasets uniques qui étaient auparavant cloisonnés. Le fabricant est également ravi d'utiliser le connecteur Delta Sharing intégré avec PowerBI, qui est son outil de prédilection pour la visualisation des données.
Delta Sharing simplifie le partage de données avec d'autres organisations, quelles que soient les plateformes de données qu'elles utilisent. Nous sommes ravis de partager la première solution qui offre une solution ouverte et sécurisée sans enfermement propriétaire, qui aide les équipes de données à partager facilement des données, à gérer la confidentialité, la sécurité et la conformité entre les organisations.
Pour essayer Delta Sharing sur Databricks, contactez votre chargé de compte Databricks ou inscrivez-vous pour obtenir un accès anticipé. Pour nombre de nos clients, la gouvernance est une priorité absolue lors du partage de données. Delta Sharing est en mode natif intégré à Unity Catalog, ce qui permet aux clients d'ajouter une gouvernance et des contrôles de sécurité affinés, rendant le partage de données en interne ou en externe facile et sûr. Une fois que vous avez activé Unity Catalog dans votre compte Databricks, essayez les notebooks de démarrage rapide ci-dessous pour démarrer avec Delta Sharing sur Databricks :
Pour essayer la version open source de Delta Sharing, suivez les instructions sur delta.io/sharing.
Nous aimerions recevoir vos commentaires sur le projet Delta Sharing, ainsi que vos idées ou contributions pour de nouvelles fonctionnalités. Participez à la communauté Delta Sharing en suivant les instructions ici.
Produto
June 12, 2024/11 min de leitura

