Revenir au contenu principal
Plateforme

Annonce de la Public Preview du partage de vues multiplateforme

Un moyen simple et flexible de partager des données avec un contrôle d'accès précis pour n'importe quel destinataire

par Harish Gaur, Tianyi Huang, Darshana Sivakumar, Tia Chang, Mengxi Chen, Jade Wang et Andy Liu

  • Le partage de vues multiplateforme permet aux fournisseurs de données de partager des vues sur différentes plateformes, clouds et régions.
  • Cette fonctionnalité favorise un écosystème de données ouvert et interopérable, permettant un échange de données sécurisé et transparent.
  • Les utilisateurs peuvent accéder aux vues partagées et les interroger via Delta Sharing, même s'ils ne sont pas sur Databricks, à l'aide de clients ouverts comme Apache Spark, Pandas, Power BI et Tableau.

Delta Sharing a évolué pour devenir OpenSharing, le premier protocole ouvert et indépendant des fournisseurs pour partager en toute sécurité des actifs d'IA, y compris les Agent Skills, les modèles d'IA et les données non structurées. Lire l'annonce.

Nous sommes ravis d'annoncer la Public Preview du partage de vues multiplateforme. Disponible dès aujourd'hui, cette fonctionnalité permet aux fournisseurs de données de partager des vues sur différentes plateformes, clouds et régions, favorisant ainsi un écosystème de données ouvert et interopérable.


Le partage de vues est très utile, et d'autres fournisseurs le proposent également. Mais jusqu'à présent, il était principalement limité à une même plateforme. Vous pouviez partager des vues au sein d'une seule plateforme, mais pas entre plusieurs plateformes et clouds. Databricks résout ce problème grâce au partage de vues multiplateforme et vous permet de partager des vues de manière transparente entre différents environnements. C'est une véritable révolution, car cela élargit la portée des fournisseurs de données et évite la dépendance vis-à-vis d'un fournisseur unique (vendor lock-in) pour les consommateurs de données, rendant la collaboration plus simple et plus rapide.

Le partage multiplateforme s'aligne sur la vision de partage ouvert de Databricks en permettant un échange de données sécurisé et transparent entre différentes plateformes, clouds et régions.

Comprendre le partage de vues

Pour comprendre le partage de vues, comprenons d'abord ce que sont les vues. Dans Databricks, les vues sont des représentations en lecture seule de données créées à partir de tables ou d'autres vues. Elles stockent le texte de la requête, mais pas les données elles-mêmes. Les vues font partie d'Unity Catalog

Le partage de vues permet aux utilisateurs de partager des vues à l'aide du protocole Delta Sharing. Delta Sharing est le premier protocole ouvert du secteur pour le partage sécurisé de données, ce qui simplifie le partage de données avec d'autres organisations, quelle que soit la plateforme de données qu'elles utilisent. Le partage de vues favorise la réutilisation et réduit la redondance, car plusieurs utilisateurs peuvent accéder aux mêmes vues et les utiliser pour leurs analyses.

Partage de vues multiplateforme
Partage de vues multiplateforme

Auparavant, lorsqu'une vue était partagée entre des comptes Databricks, les consommateurs ne pouvaient l'interroger qu'à l'aide de Databricks Serverless SQL. Databricks Serverless SQL fonctionne sur les trois principaux fournisseurs de cloud : AWS, Azure et Google Cloud Platform (GCP), de sorte que les vues pouvaient être partagées entre différents clouds.

Désormais, avec le partage de vues multiplateforme, les consommateurs de données peuvent exploiter n'importe quel type de cluster Databricks ou même utiliser des clients Delta Sharing ouverts pour accéder aux vues partagées et les interroger. Les clients Delta Sharing ouverts sont des outils ou des plateformes qui prennent en charge le protocole Delta Sharing, permettant aux utilisateurs d'accéder aux vues partagées sans avoir à utiliser Databricks. Ces clients comprennent des systèmes populaires comme Apache Spark™, Pandas, Power BI, Tableau et d'autres. Cela permet aux utilisateurs d'autres plateformes (c'est-à-dire qui ne sont pas sur Databricks) d'accéder aux vues partagées et de les interroger via Delta Sharing.

Regardons cette démo pour voir le partage de vues multiplateforme en action

Cas d'usage

Partage Databricks à Databricks (D2D)

Dans ce scénario, deux clients Databricks peuvent partager des vues de manière transparente au sein de l'écosystème Databricks. Pourquoi est-ce important ? Les organisations collaborent avec des partenaires qui peuvent se trouver sur différents clouds et dans différentes régions, et souhaitent partager des vues avec des clients/partenaires à travers ces clouds et régions. En s'appuyant sur la technologie Delta Sharing, elles peuvent partager des vues de manière transparente et sécurisée, sans créer de copies doubles des données.

Partage Databricks vers Open (D2O)

Dans ce scénario, les clients Databricks peuvent partager des vues avec des destinataires externes qui n'utilisent pas Databricks. Le partage de vues multiplateforme prend en charge les connecteurs ouverts (tels que Apache Spark™, Pandas, Power BI, Tableau, etc.), permettant aux destinataires d'accéder aux vues partagées via le protocole Delta Sharing. Cette capacité est particulièrement bénéfique pour les analystes commerciaux et les utilisateurs métiers (Line of Business Users) qui ont besoin d'un accès simplifié aux données sans avoir à interagir directement avec des plateformes de données complexes.

Les fournisseurs de données du Databricks Marketplace bénéficient du partage de vues multiplateforme en élargissant considérablement leur portée sur le marché et leurs opportunités de monétisation. Cette fonctionnalité leur permet de partager des vues avec un public plus large, y compris des clients qui n'utilisent pas Databricks, augmentant ainsi leur base de clients potentiels. Les consommateurs de données ne sont pas limités à l'interrogation de vues depuis la plateforme Databricks, ce qui évite la dépendance vis-à-vis de Databricks.

Le partage de vues multiplateforme change la donne pour nos clients. Apporter le partage de données sans copie (zero-copy) aux entreprises complexes à grande échelle exige de la flexibilité. La possibilité de partager des vues sur plusieurs plateformes nous permet d'offrir les avantages de sécurité et de performance de Delta Sharing à un plus grand nombre de clients, les aidant ainsi à tirer plus rapidement parti de leurs données clients.— Derek Slager, CTO et cofondateur d'Amperity

À venir

Dans les mois à venir, Databricks prévoit d'introduire plusieurs fonctionnalités avancées de partage de données. Parmi les nouveautés à venir figure le partage pour Lakehouse Federation, qui permet aux fournisseurs de données de partager des données directement à partir de diverses plateformes (par exemple, Amazon Redshift, Azure Synapse, Google BigQuery, Snowflake) sans avoir besoin de réplication.

De plus, la prise en charge d'OAuth pour le partage D2O renforcera la sécurité en permettant aux destinataires de s'authentifier à l'aide de jetons OAuth provenant de leurs fournisseurs d'identité (IdP) de confiance. En outre, le partage de vues matérialisées et de Delta Live Tables permettra une distribution efficace des résultats de requêtes précalculés et des données en streaming, offrant des données fraîches avec de meilleures performances et des coûts réduits.

Prise en main

Le partage de vues multiplateforme est disponible dès aujourd'hui en Public Preview pour les clients AWS, GCP et Azure. Découvrez comment utiliser le protocole de partage ouvert Delta Sharing pour partager des données depuis votre espace de travail Databricks compatible Unity Catalog avec n'importe quel utilisateur, sur n'importe quelle plateforme informatique, où qu'il se trouve.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.