von Matei Zaharia, Michael Armbrust, Steve Weis, Todd Greenstein und Cyrielle Simeone
Delta Sharing hat sich zu OpenSharing weiterentwickelt, dem ersten offenen, herstellerneutralen Protokoll für den sicheren Austausch von AI-Assets, einschließlich Agent-Skills, AI-Modellen und unstrukturierten Daten. Lesen Sie die Ankündigung.
Update: Delta Sharing ist jetzt allgemein auf AWS und Azure verfügbar.
Sichern Sie sich eine frühe Vorschau auf das neue E-Book von O'Reilly mit der Schritt-für-Schritt-Anleitung, die Sie für den Einstieg in Delta Lake benötigen.
Der Datenaustausch ist in der modernen Wirtschaft von entscheidender Bedeutung, da Unternehmen Daten sicher mit ihren Kunden, Lieferanten und Partnern austauschen möchten. Beispielsweise möchte ein Einzelhändler möglicherweise Verkaufsdaten in Echtzeit an seine Lieferanten übermitteln, oder ein Lieferant möchte den Lagerbestand in Echtzeit teilen. Bisher war der Datenaustausch jedoch stark eingeschränkt, da die Sharing-Lösungen an einen einzigen Anbieter gebunden sind. Dies führt zu Reibungsverlusten sowohl bei Datenanbietern als auch bei Datenkonsumenten, die naturgemäß unterschiedliche Plattformen nutzen.
Heute starten wir ein neues Open-Source-Projekt, das den organisationsübergreifenden Austausch vereinfacht: Delta Sharing, ein offenes Protokoll für den sicheren Echtzeitaustausch großer Datensätze, das erstmals einen sicheren Datenaustausch über Produkte hinweg ermöglicht. Wir entwickeln Delta Sharing gemeinsam mit Partnern bei den weltweit führenden Software- und Datenanbietern.
Um zu verstehen, warum heutige Lösungen für den Datenaustausch Reibungsverluste verursachen, stellen Sie sich einen Einzelhändler vor, der Daten mit einem Analysten bei einem seiner Lieferanten teilen möchte. Heute könnte der Einzelhändler eines von mehreren Cloud-Data-Warehouses nutzen, die Datensharing anbieten. Der Analyst müsste dann jedoch mit seinen IT-, Sicherheits- und Beschaffungsteams zusammenarbeiten, um dasselbe Warehouse-Produkt in seinem Unternehmen bereitzustellen – ein Prozess, der Monate dauern kann. Sobald das Warehouse bereitgestellt ist, würde der Analyst als Erstes die Daten daraus in sein bevorzugtes Data-Science-Tool wie pandas oder Tableau exportieren.
Mit Delta Sharing können Datennutzer über pandas, Tableau oder Dutzende anderer Systeme, die das offene Protokoll implementieren, direkt eine Verbindung zu den freigegebenen Daten herstellen, ohne zuvor eine bestimmte Plattform bereitstellen zu müssen. Dies verkürzt ihre Zugriffszeit von Monaten auf Minuten und reduziert den Aufwand für Datenanbieter, die so viele Nutzer wie möglich erreichen wollen, erheblich.
Wir arbeiten bei Delta Sharing mit einem dynamischen Partner-Ökosystem zusammen, darunter Produktteams der führenden Cloud-, BI- und Datenanbieter:

Delta Sharing-Ökosystem
In diesem Beitrag erklären wir, wie Delta Sharing funktioniert und warum wir von einem offenen Ansatz für den Datenaustausch so begeistert sind.
Delta Sharing ist so konzipiert, dass es sowohl für Anbieter als auch für Konsumenten mit ihren vorhandenen Daten und Workflows einfach zu nutzen ist. Wir haben es mit vier Zielen vor Augen entwickelt:
Delta Sharing ist ein einfaches REST-Protokoll, das den Zugriff auf einen Teil eines Cloud-Datensatzes sicher freigibt. Es nutzt moderne Cloud-Speichersysteme wie S3, ADLS oder GCS, um große Datensätze zuverlässig zu übertragen. Es sind zwei Parteien beteiligt: Datenanbieter und Empfänger.
Als Datenanbieter können Sie mit Delta Sharing vorhandene Tabellen oder Teile davon (z. B. bestimmte Tabellenversionen von Partitionen) freigeben, die in Ihrem Cloud-Data-Lake im Delta Lake-Format gespeichert sind. Eine Delta Lake-Tabelle ist im Wesentlichen eine Sammlung von Parquet-Dateien, und es ist einfach, vorhandene Parquet-Tabellen bei Bedarf in Delta Lake zu konvertieren. Der Datenanbieter entscheidet, welche Daten er freigeben möchte, und betreibt davor einen Sharing-Server, der das Delta Sharing-Protokoll implementiert und den Zugriff für Empfänger verwaltet. Wir haben einen Referenz-Sharing-Server als Open Source bereitgestellt, und wir bieten einen gehosteten Server auf Databricks an, so wie es vermutlich auch andere Anbieter tun werden.
Als Datenempfänger benötigen Sie lediglich einen der vielen Delta Sharing-Clients, die das Protokoll unterstützen. Wir haben Open-Source-Connectoren für pandas, Apache Spark, Rust und Python veröffentlicht und arbeiten mit Partnern an vielen weiteren.

Der eigentliche Austausch ist so konzipiert, dass er durch die Nutzung der Funktionen von Cloud-Speichersystemen und Delta Lake hocheffizient ist. Das Protokoll funktioniert wie folgt:
Das Design von Delta Sharing bietet viele Vorteile für Anbieter und Konsumenten:
Wie bereits erwähnt, freuen wir uns darauf, einen offenen Ansatz für den Datenaustausch zu etablieren. Datenanbieter wie Nasdaq haben uns übereinstimmend berichtet, dass es zu schwierig ist, Daten an verschiedene Konsumenten bereitzustellen, die alle unterschiedliche Analyse-Tools verwenden.
"Wir unterstützen Delta Sharing und die Vision eines offenen Protokolls, das den sicheren Datenaustausch und die Zusammenarbeit über Organisationen hinweg vereinfacht. Delta Sharing wird die Art und Weise, wie wir mit unseren Partnern zusammenarbeiten, verbessern, die Betriebskosten senken und es mehr Nutzern ermöglichen, auf ein umfassendes Spektrum der Datensuite von Nasdaq zuzugreifen, um Erkenntnisse zu gewinnen und Finanzstrategien zu entwickeln", so Bill Dague, Head of Alternative Data bei Nasdaq.
Mit Delta Sharing können sich Dutzende beliebter Systeme direkt mit den freigegebenen Daten verbinden, sodass jeder Nutzer sie verwenden kann, was den Aufwand für alle Beteiligten verringert. Wir arbeiten mit Dutzenden von Partnern zusammen, um den Delta Sharing-Standard zu definieren, und laden Sie herzlich ein, sich zu beteiligen.
Viele dieser Unternehmen haben ihre Unterstützung für den heutigen Start zugesagt:
BI-Tools: Tableau, Qlik, Power BI, Looker
Analytics: AtScale, Dremio, Starburst, Microsoft Azure, Google BigQuery
Governance: Collibra, Immuta, Alation, Privacera
Datenanbieter: FactSet, Nasdaq, Precisely, Safegraph, Atlassian, AWS, Foursquare, ICE, Qandl, S&P, SequenceBio
Databricks-Kunden erhalten eine native Integration von Delta Sharing in unserem Unity Catalog, was einen optimierten Datenaustausch sowohl innerhalb als auch außerhalb von Organisationen ermöglicht. Administratoren können Freigaben über eine neue CREATE SHARE SQL-Syntax oder REST-APIs verwalten und alle Zugriffe zentral überwachen. Empfänger können die Daten von jeder beliebigen Plattform aus nutzen. Registrieren Sie sich, um sich für den Vorabzugriff und Updates auf unsere Warteliste setzen zu lassen.

Diese erste Version von Delta Sharing ist erst der Anfang. Im Zuge der Weiterentwicklung des Projekts planen wir, es auf die Freigabe anderer Objekte wie Streams, SQL-Views oder beliebiger Dateien wie Machine-Learning-Modelle auszuweiten. Wir sind davon überzeugt, dass die Zukunft des Datenaustauschs offen ist, und freuen uns darauf, diesen Ansatz auf andere Freigabe-Workflows zu übertragen.
Um die Open-Source-Version von Delta Sharing auszuprobieren, folgen Sie den Anweisungen auf delta.io/sharing. Oder, wenn Sie bereits Databricks-Kunde sind, registrieren Sie sich für Updates zu unserem Service. Wir freuen uns sehr auf Ihr Feedback!
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.