Le premier protocole ouvert du secteur pour partager des données, des modèles, des agents et des compétences sur n'importe quel cloud, fournisseur et format
par Huey Han, Harish Gaur, Akram Chetibi et Mengxi Chen
Lorsque Databricks a lancé Delta Sharing en 2021, notre objectif était de résoudre un problème que toutes les équipes de données ne connaissaient que trop bien : le partage de données en direct au-delà des limites de l'organisation était lent, fragile et source de nombreux compromis. Soit vous copiiez les données — ce qui créait des répliques obsolètes et des problèmes de conformité —, soit vous vous limitiez à partager uniquement avec des partenaires utilisant la même plateforme que vous, ce qui freinait considérablement l'innovation.
Delta Sharing a changé la donne. Un protocole ouvert unique. Pas de copie de données. Pas de silos de plateformes. Et au cours des cinq années qui ont suivi, il est devenu le protocole ouvert de partage de données sans copie (zero-copy) le plus largement adopté — avec plus de 28 000 destinataires de données et 33 % des partages s'effectuant entre plateformes via des connecteurs ouverts. Des entreprises de premier plan telles que SAP, Atlassian, Mercedes-Benz, The Trade Desk, LSEG, S&P Global et bien d'autres ont adopté Delta Sharing pour partager des données et collaborer.
Mais le monde a évolué. L'essor de l'AI agentique a fondamentalement changé ce que les entreprises doivent partager. Aujourd'hui, nous franchissons une nouvelle étape.
Nous sommes ravis d'annoncer OpenSharing — la prochaine évolution de Delta Sharing, et le premier protocole ouvert du secteur conçu pour l'ère agentique. OpenSharing fait évoluer Delta Sharing vers un projet open-source indépendant, élargissant sa portée du partage de données à l'ensemble de la pile AI : modèles, agents — sur n'importe quel cloud, n'importe quel fournisseur et n'importe quel format.

Delta Sharing a été conçu pour un monde de tables et de fichiers. Mais les organisations doivent désormais échanger du contexte sémantique, des compétences AI, des données non structurées et des agents autonomes au-delà des frontières des clouds, des fournisseurs et des entreprises. Les protocoles de partage actuels restent verrouillés dans des formats propriétaires, ne peuvent pas gérer la logique AI et dépendent d'un réseau fragile dont la configuration prend des semaines pour chaque nouveau partenaire.
Résultat : la collaboration ralentit, les silos de données persistent et la valeur enfermée dans les données de l'entreprise n'est pas exploitée.
OpenSharing résout ce problème. Il s'agit d'un protocole ouvert unique qui partage les données et l'AI sur n'importe quel format, n'importe quel cloud et n'importe quelle limite organisationnelle — prenant en charge nativement Delta Lake, Apache Iceberg et Parquet pour que les données restent là où elles se trouvent et circulent vers ceux qui en ont besoin.
« Delta Sharing a prouvé que le secteur choisirait l'ouverture plutôt que le verrouillage propriétaire. OpenSharing étend ce principe à l'ensemble de la pile AI, tout en élargissant l'écosystème multiplateforme aux destinataires Iceberg et aux fournisseurs sur site (on-premises). L'ère agentique mérite une fondation ouverte, et OpenSharing la lui apporte. » — Matei Zaharia, cofondateur et CTO de Databricks.
OpenSharing existe à deux niveaux. Le protocole open-source — désormais hébergé par la Linux Foundation — est la spécification publiée que tout fournisseur ou membre de la communauté peut implémenter. Databricks OpenSharing est l'implémentation d'entreprise du protocole ouvert, construite sur d'autres fonctionnalités de Databricks telles que Unity Catalog pour la gouvernance et les journaux d'audit, Marketplace pour la découvrabilité, et plus encore.
Nous sommes ravis de lancer une suite de fonctionnalités pour OpenSharing sur Databricks.
Pour la première fois, les organisations peuvent partager des expériences AI gouvernées — et pas seulement des ensembles de données — au-delà des limites de l'organisation.
Les agents Genie sont les environnements d'analyse conversationnelle alimentés par l'AI de Databricks. Avec OpenSharing, un fournisseur peut désormais partager des agents Genie — y compris leur contexte sémantique sous-jacent, leurs indicateurs commerciaux et leur logique AI réutilisable — avec n'importe quel partenaire ou client, avec une gouvernance de bout en bout via Unity Catalog. En option, les fournisseurs peuvent contrôler la manière dont les destinataires accèdent aux données — notamment en masquant les instructions propriétaires de Genie, en limitant l'accès aux données au seul agent Genie, en définissant des quotas quotidiens de prompts et en plafonnant les limites d'exportation de lignes. Ces contrôles ouvrent de nouvelles opportunités de monétisation pour les fournisseurs de données, comme une tarification basée sur l'utilisation plutôt qu'une licence de données complète.

Le partage de données entre différents clouds a toujours posé deux problèmes distincts. OpenSharing sur Databricks résout désormais les deux.
Le premier concerne le réseau. Lorsque le stockage du fournisseur se trouve derrière un réseau privé — ce qui est presque toujours le cas pour les échanges de données sensibles ou les secteurs réglementés —, l'intégration d'un nouveau destinataire peut prendre des semaines d'autorisation manuelle d'adresses IP, de coordination des pare-feu et d'allers-retours avec les administrateurs cloud. Pour les fournisseurs comptant des dizaines ou des centaines de destinataires, cela n'est pas viable à grande échelle. SecureConnect résout ce problème : un proxy géré par Databricks qui oriente l'accès au stockage pour le compte de tous les destinataires. Configurez-le une fois — aucune modification de pare-feu par destinataire n'est requise, plus jamais. Lisez le blog d'annonce.

Le second concerne les coûts de transfert sortant (egress). Les requêtes entre clouds génèrent des frais de transfert sortant qui s'accumulent à grande échelle, devenant un coût important et imprévisible qui rend le partage multi-cloud à grande échelle économiquement irréalisable. Global Distribution résout ce problème grâce à une réplication automatique entre régions et entre clouds. Les destinataires interrogent une réplique locale — rapidement, sans frais de transfert sortant. Les fournisseurs bénéficient d'une structure de coûts prévisible. Les équipes mondiales bénéficient d'un accès à faible latence, quel que soit l'endroit où se trouvent les données sources.
OpenSharing repose sur la conviction que les écosystèmes de données prospèrent lorsqu'ils sont véritablement ouverts — pas seulement de nom, mais en pratique. Cela signifie prendre en charge les formats, les systèmes de stockage et les clients que vos partenaires utilisent déjà.
Écosystème de stockage : gouvernez tout, où que cela se trouve
Toutes les données d'entreprise ne peuvent pas — ou ne doivent pas — être déplacées vers le cloud. Les exigences réglementaires, la gravité des données, la latence en périphérie (edge) et des raisons purement économiques font que certaines des données les plus précieuses au monde resteront sur site (on-premises). OpenSharing y accède.
Le Databricks Storage Ecosystem apporte la plateforme Databricks Data Intelligence Platform directement aux environnements sur site, de cloud privé et de périphérie (edge) — propulsé par OpenSharing. Les partenaires de stockage implémentent le serveur OpenSharing, connectant leur patrimoine de données à Unity Catalog sans déplacer un seul octet. Pas de migration. Pas de duplication. Lisez l'annonce.
Les partenaires de lancement incluent MinIO (GA), Everpure (Private Preview), Qumulo (bientôt en Private Preview) et VAST Data (bientôt en Private Preview) — Cohesity, Commvault, NetApp et Nutanix devant les rejoindre d'ici la fin de l'année. Collectivement, ces partenaires gèrent des centaines d'exaoctets de données d'entreprise.
Interopérabilité Iceberg
Delta Sharing est déjà pris en charge dans un large éventail de plateformes et de connecteurs, notamment Databricks, Tableau, Power BI, Apache Spark et Snowflake. OpenSharing prend désormais en charge l'API Apache Iceberg REST Catalog — ce qui permet de partager des données avec n'importe quel client compatible avec Iceberg. Les fournisseurs peuvent également partager des tables à partir de catalogues externes, notamment AWS Glue, Hive Metastore et Snowflake Horizon — intégrant ainsi des données externes dans l'écosystème gouverné d'OpenSharing sans réplication.

S'appuyant sur la même simplicité qui a fait le succès de Delta Sharing, OpenSharing étend le protocole pour prendre en charge l'ensemble de la pile d'actifs AI :
Pour les déploiements d'entreprise sur Databricks, SecureConnect et Global Distribution se superposent à ce flux, gérant automatiquement le réseau multi-cloud et la réplication, sans modifier la façon dont les fournisseurs ou les destinataires interagissent avec leurs partages.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.