Mise à jour : Delta Sharing est désormais en disponibilité générale sur AWS et Azure.
Obtenez un aperçu en avant-première du nouvel ebook d'O'Reilly pour vous guider pas à pas dans vos débuts avec Delta Lake.
Le Data Sharing est devenu essentiel dans l'économie moderne, car les entreprises cherchent à échanger des données en toute sécurité avec leurs clients, leurs fournisseurs et leurs Partenaires. Par exemple, un détaillant peut vouloir publier des données de ventes à ses fournisseurs en temps réel, ou un fournisseur peut vouloir partager ses stocks en temps réel. Mais jusqu'à présent, le Data Sharing a été fortement limité, car les solutions de partage sont liées à un fournisseur unique. Cela crée des frictions pour les fournisseurs et les consommateurs de données, qui utilisent naturellement des plateformes différentes.
Aujourd'hui, nous lançons un nouveau projet open source qui simplifie le partage entre organisations : Delta Sharing, un protocole ouvert pour l'échange sécurisé et en temps réel de grands datasets, qui permet pour la première fois le Data Sharing sécurisé entre différents produits. Nous développons Delta Sharing avec des Partenaires, les plus grands fournisseurs de logiciels et de données au monde.
Pour comprendre pourquoi les Solutions actuelles de Data Sharing créent des frictions, prenons l'exemple d'un détaillant qui souhaite partager des données avec un analyste de l'un de ses fournisseurs. Aujourd'hui, le détaillant pourrait utiliser l'un des nombreux data warehouses cloud qui proposent le Data Sharing, mais l'analyste devrait alors collaborer avec ses équipes IT, de sécurité et d'approvisionnement pour déployer le même produit de warehouse au sein de son entreprise, un processus qui peut prendre des mois. De plus, une fois le warehouse déployé, la première chose que ferait l'analyste serait d'en exporter les données vers son outil de science des données favori, comme pandas ou Tableau.
Avec Delta Sharing, les utilisateurs de données peuvent se connecter directement aux données partagées par le biais de pandas, Tableau ou des dizaines d'autres systèmes qui implémentent le protocole ouvert, sans avoir à déployer au préalable une plateforme spécifique. Cela réduit leur temps d'accès de plusieurs mois à quelques minutes et simplifie grandement le travail des fournisseurs de données qui souhaitent toucher le plus grand nombre d'utilisateurs possible.
Nous travaillons avec un écosystème dynamique de partenaires sur Delta Sharing, notamment les équipes produit des principaux fournisseurs de cloud, de BI et de données :
Écosystème Delta Sharing
Dans ce post, nous expliquerons le fonctionnement de Delta Sharing et pourquoi nous sommes si enthousiastes à l'idée d'une approche ouverte du Data Sharing.
Delta Sharing est conçu pour être facile à utiliser par les fournisseurs comme par les consommateurs avec leurs données et workflows existants. Nous l'avons conçu avec quatre objectifs en tête :
Delta Sharing est un protocole REST simple qui partage en toute sécurité l'accès à une partie d'un dataset dans le cloud. Il s'appuie sur des systèmes de stockage cloud modernes, tels que S3, ADLS ou GCS, pour transférer de manière fiable des datasets volumineux. Deux parties sont impliquées : les fournisseurs de données et les destinataires.
En tant que fournisseur de données, Delta Sharing vous permet de partager des tables existantes ou des parties de celles-ci (par exemple, des versions de table ou des partitions spécifiques) stockées sur votre data lake cloud au format Delta Lake. Une table Delta Lake est essentiellement une collection de fichiers Parquet, et il est facile d'encapsuler des tables Parquet existantes dans Delta Lake si nécessaire. Le fournisseur de données décide des données qu'il souhaite partager et exécute un serveur de partage en amont qui implémente le protocole Delta Sharing et gère l'accès pour les destinataires. Nous avons mis en open source un serveur de partage de référence; et nous en fournissons un hébergé sur Databricks, comme nous imaginons que d'autres fournisseurs le feront.
En tant que destinataire de données, il vous suffit de disposer de l'un des nombreux clients Delta Sharing qui prennent en charge le protocole. Nous avons publié des connecteurs open source pour pandas, Apache Spark, Rust et Python, et nous travaillons avec des partenaires pour en développer de nombreux autres.
L'échange réel est soigneusement conçu pour être efficace en tirant parti des fonctionnalités des systèmes de stockage cloud et de Delta Lake. Le protocole fonctionne comme suit :
La conception de Delta Sharing offre de nombreux avantages, tant pour les fournisseurs que pour les consommateurs :
Comme mentionné précédemment, nous sommes ravis de mettre en place une approche ouverte au Data Sharing. Les fournisseurs de données, comme le Nasdaq, nous ont unanimement déclaré qu'il est trop difficile de fournir des données à des consommateurs divers, qui utilisent tous des outils analytiques différents.
"Nous soutenons Delta Sharing et sa vision d'un protocole ouvert qui simplifiera le partage sécurisé de Data Sharing et la collaboration entre les organisations. « Delta Sharing améliorera notre façon de travailler avec nos partenaires, réduira les coûts opérationnels et permettra à plus d'utilisateurs d'accéder à une gamme complète de la suite de données de Nasdaq pour découvrir des insights et développer des stratégies financières », a déclaré Bill Dague, responsable des données alternatives chez Nasdaq.
Avec Delta Sharing, des dizaines de systèmes populaires pourront se connecter directement aux données partagées afin que n'importe quel utilisateur puisse les utiliser, réduisant ainsi les frictions pour tous les participants. Nous travaillons avec des dizaines de partenaires pour définir la norme Delta Sharing, et nous vous invitons à y participer.
Nombre de ces entreprises ont apporté leur soutien au lancement d'aujourd'hui :
Outils BI : Tableau, Qlik, Power BI, Looker
Analytique : AtScale, Dremio, Starburst, Microsoft Azure, Google BigQuery
Gouvernance : Collibra, Immuta, Alation, Privacera
Fournisseurs de données : FactSet, Nasdaq, Precisely, Safegraph, Atlassian, AWS, Foursquare, ICE, Qandl, S&P, SequenceBio
Les clients Databricks bénéficieront d'une intégration native de Delta Sharing dans notre Unity Catalog, offrant une expérience simplifiée pour le partage de données au sein des organisations et entre elles. Les administrateurs pourront gérer les partages à l'aide d'une nouvelle syntaxe SQL CREATE SHARE ou d'API REST et auditer tous les accès de manière centralisée. Les destinataires pourront consommer les données depuis n'importe quelle plateforme. Inscrivez-vous pour rejoindre notre liste d'attente et bénéficier d'un accès en avant-première et de mises à jour.
Cette première version de Delta Sharing n'est qu'un début. Au fur et à mesure que nous développons le projet, nous prévoyons de l'étendre au partage d'autres objets, tels que des Streams, des vues SQL ou des fichiers arbitraires comme des Modèles de machine learning. Nous sommes convaincus que l'avenir du Data Sharing est ouvert et nous sommes ravis d'appliquer cette approche à d'autres flux de travail de partage.
Pour essayer la version open source de Delta Sharing, suivez les instructions à l'adresse delta.io/sharing. Ou, si vous êtes un client Databricks, inscrivez-vous pour recevoir des mises à jour sur notre service. Nous avons hâte de lire vos commentaires !
Produto
June 12, 2024/11 min de leitura
Produto
September 12, 2024/8 min de leitura


