Revenir au contenu principal
Annonces

Présentation d'OpenSharing : la nouvelle évolution de Delta Sharing pour l'ère des agents

Le premier protocole ouvert du secteur pour partager des données, des modèles, des agents et des compétences sur n'importe quel cloud, fournisseur et format

par Huey Han, Harish Gaur, Akram Chetibi et Mengxi Chen

Lorsque Databricks a lancé Delta Sharing en 2021, notre objectif était de résoudre un problème que toutes les équipes de données ne connaissaient que trop bien : le partage de données en direct au-delà des limites de l'organisation était lent, fragile et source de nombreux compromis. Soit vous copiiez les données — ce qui créait des répliques obsolètes et des problèmes de conformité —, soit vous vous limitiez à partager uniquement avec des partenaires utilisant la même plateforme que vous, ce qui freinait considérablement l'innovation.

Delta Sharing a changé la donne. Un protocole ouvert unique. Pas de copie de données. Pas de silos de plateformes. Et au cours des cinq années qui ont suivi, il est devenu le protocole ouvert de partage de données sans copie (zero-copy) le plus largement adopté — avec plus de 28 000 destinataires de données et 33 % des partages s'effectuant entre plateformes via des connecteurs ouverts. Des entreprises de premier plan telles que SAP, Atlassian, Mercedes-Benz, The Trade Desk, LSEG, S&P Global et bien d'autres ont adopté Delta Sharing pour partager des données et collaborer.

Mais le monde a évolué. L'essor de l'AI agentique a fondamentalement changé ce que les entreprises doivent partager. Aujourd'hui, nous franchissons une nouvelle étape.

Nous sommes ravis d'annoncer OpenSharing — la prochaine évolution de Delta Sharing, et le premier protocole ouvert du secteur conçu pour l'ère agentique. OpenSharing fait évoluer Delta Sharing vers un projet open-source indépendant, élargissant sa portée du partage de données à l'ensemble de la pile AI : modèles, agents — sur n'importe quel cloud, n'importe quel fournisseur et n'importe quel format.

Pourquoi les protocoles de partage doivent évoluer pour l'AI

Delta Sharing a été conçu pour un monde de tables et de fichiers. Mais les organisations doivent désormais échanger du contexte sémantique, des compétences AI, des données non structurées et des agents autonomes au-delà des frontières des clouds, des fournisseurs et des entreprises. Les protocoles de partage actuels restent verrouillés dans des formats propriétaires, ne peuvent pas gérer la logique AI et dépendent d'un réseau fragile dont la configuration prend des semaines pour chaque nouveau partenaire.

Résultat : la collaboration ralentit, les silos de données persistent et la valeur enfermée dans les données de l'entreprise n'est pas exploitée.

OpenSharing résout ce problème. Il s'agit d'un protocole ouvert unique qui partage les données et l'AI sur n'importe quel format, n'importe quel cloud et n'importe quelle limite organisationnelle — prenant en charge nativement Delta Lake, Apache Iceberg et Parquet pour que les données restent là où elles se trouvent et circulent vers ceux qui en ont besoin.

« Delta Sharing a prouvé que le secteur choisirait l'ouverture plutôt que le verrouillage propriétaire. OpenSharing étend ce principe à l'ensemble de la pile AI, tout en élargissant l'écosystème multiplateforme aux destinataires Iceberg et aux fournisseurs sur site (on-premises). L'ère agentique mérite une fondation ouverte, et OpenSharing la lui apporte. » — Matei Zaharia, cofondateur et CTO de Databricks.

OpenSharing sur Databricks

OpenSharing existe à deux niveaux. Le protocole open-source — désormais hébergé par la Linux Foundation — est la spécification publiée que tout fournisseur ou membre de la communauté peut implémenter. Databricks OpenSharing est l'implémentation d'entreprise du protocole ouvert, construite sur d'autres fonctionnalités de Databricks telles que Unity Catalog pour la gouvernance et les journaux d'audit, Marketplace pour la découvrabilité, et plus encore.

Nous sommes ravis de lancer une suite de fonctionnalités pour OpenSharing sur Databricks.

Partage d'agents Genie : partagez une expérience AI gouvernée, pas seulement des données

Pour la première fois, les organisations peuvent partager des expériences AI gouvernées — et pas seulement des ensembles de données — au-delà des limites de l'organisation.

Les agents Genie sont les environnements d'analyse conversationnelle alimentés par l'AI de Databricks. Avec OpenSharing, un fournisseur peut désormais partager des agents Genie — y compris leur contexte sémantique sous-jacent, leurs indicateurs commerciaux et leur logique AI réutilisable — avec n'importe quel partenaire ou client, avec une gouvernance de bout en bout via Unity Catalog. En option, les fournisseurs peuvent contrôler la manière dont les destinataires accèdent aux données — notamment en masquant les instructions propriétaires de Genie, en limitant l'accès aux données au seul agent Genie, en définissant des quotas quotidiens de prompts et en plafonnant les limites d'exportation de lignes. Ces contrôles ouvrent de nouvelles opportunités de monétisation pour les fournisseurs de données, comme une tarification basée sur l'utilisation plutôt qu'une licence de données complète.

SecureConnect et Global Distribution : un réseau multi-cloud plus simple, des coûts de transfert sortant réduits

Le partage de données entre différents clouds a toujours posé deux problèmes distincts. OpenSharing sur Databricks résout désormais les deux.

Le premier concerne le réseau. Lorsque le stockage du fournisseur se trouve derrière un réseau privé — ce qui est presque toujours le cas pour les échanges de données sensibles ou les secteurs réglementés —, l'intégration d'un nouveau destinataire peut prendre des semaines d'autorisation manuelle d'adresses IP, de coordination des pare-feu et d'allers-retours avec les administrateurs cloud. Pour les fournisseurs comptant des dizaines ou des centaines de destinataires, cela n'est pas viable à grande échelle. SecureConnect résout ce problème : un proxy géré par Databricks qui oriente l'accès au stockage pour le compte de tous les destinataires. Configurez-le une fois — aucune modification de pare-feu par destinataire n'est requise, plus jamais. Lisez le blog d'annonce.

SecureConnect

Le second concerne les coûts de transfert sortant (egress). Les requêtes entre clouds génèrent des frais de transfert sortant qui s'accumulent à grande échelle, devenant un coût important et imprévisible qui rend le partage multi-cloud à grande échelle économiquement irréalisable. Global Distribution résout ce problème grâce à une réplication automatique entre régions et entre clouds. Les destinataires interrogent une réplique locale — rapidement, sans frais de transfert sortant. Les fournisseurs bénéficient d'une structure de coûts prévisible. Les équipes mondiales bénéficient d'un accès à faible latence, quel que soit l'endroit où se trouvent les données sources.

Interopérabilité des clients ouverts et écosystème de stockage sur site : allez à la rencontre de vos partenaires là où ils se trouvent

OpenSharing repose sur la conviction que les écosystèmes de données prospèrent lorsqu'ils sont véritablement ouverts — pas seulement de nom, mais en pratique. Cela signifie prendre en charge les formats, les systèmes de stockage et les clients que vos partenaires utilisent déjà.

Écosystème de stockage : gouvernez tout, où que cela se trouve

Toutes les données d'entreprise ne peuvent pas — ou ne doivent pas — être déplacées vers le cloud. Les exigences réglementaires, la gravité des données, la latence en périphérie (edge) et des raisons purement économiques font que certaines des données les plus précieuses au monde resteront sur site (on-premises). OpenSharing y accède.
Le Databricks Storage Ecosystem apporte la plateforme Databricks Data Intelligence Platform directement aux environnements sur site, de cloud privé et de périphérie (edge) — propulsé par OpenSharing. Les partenaires de stockage implémentent le serveur OpenSharing, connectant leur patrimoine de données à Unity Catalog sans déplacer un seul octet. Pas de migration. Pas de duplication. Lisez l'annonce.
Les partenaires de lancement incluent MinIO (GA), Everpure (Private Preview), Qumulo (bientôt en Private Preview) et VAST Data (bientôt en Private Preview) — Cohesity, Commvault, NetApp et Nutanix devant les rejoindre d'ici la fin de l'année. Collectivement, ces partenaires gèrent des centaines d'exaoctets de données d'entreprise.

Interopérabilité Iceberg
Delta Sharing est déjà pris en charge dans un large éventail de plateformes et de connecteurs, notamment Databricks, Tableau, Power BI, Apache Spark et Snowflake. OpenSharing prend désormais en charge l'API Apache Iceberg REST Catalog — ce qui permet de partager des données avec n'importe quel client compatible avec Iceberg. Les fournisseurs peuvent également partager des tables à partir de catalogues externes, notamment AWS Glue, Hive Metastore et Snowflake Horizon — intégrant ainsi des données externes dans l'écosystème gouverné d'OpenSharing sans réplication.

Partage Iceberg

Comment fonctionne OpenSharing

S'appuyant sur la même simplicité qui a fait le succès de Delta Sharing, OpenSharing étend le protocole pour prendre en charge l'ensemble de la pile d'actifs AI :

  1. Le fournisseur de données crée un partage dans Unity Catalog — en définissant les ensembles de données, modèles, agents ou agents Genie à partager et en configurant des autorisations d'accès précises.
  2. Le destinataire reçoit des identifiants sécurisés et interroge le partage directement depuis ses outils existants, son cloud ou son client Iceberg, sans avoir besoin d'être sur Databricks.
  3. Unity Catalog applique la gouvernance de bout en bout, en auditant chaque accès, en appliquant des contrôles au niveau des lignes et des colonnes, et en veillant à ce que les politiques de conformité accompagnent chaque actif partagé.
  4. Les données ne sont jamais déplacées : les destinataires interrogent les données en direct directement depuis le stockage cloud du fournisseur, garantissant ainsi une source unique de vérité.

Pour les déploiements d'entreprise sur Databricks, SecureConnect et Global Distribution se superposent à ce flux, gérant automatiquement le réseau multi-cloud et la réplication, sans modifier la façon dont les fournisseurs ou les destinataires interagissent avec leurs partages.

Prêt à démarrer avec OpenSharing ?

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.