Direkt zum Hauptinhalt
Ankündigungen

Einführung von Delta Sharing: Ein offenes Protokoll für den sicheren Datenaustausch

von Matei Zaharia, Michael Armbrust, Steve Weis, Todd Greenstein und Cyrielle Simeone

Delta Sharing hat sich zu OpenSharing weiterentwickelt, dem ersten offenen, herstellerneutralen Protokoll für den sicheren Austausch von AI-Assets, einschließlich Agent-Skills, AI-Modellen und unstrukturierten Daten. Lesen Sie die Ankündigung.

Update: Delta Sharing ist jetzt allgemein auf AWS und Azure verfügbar.

Sichern Sie sich eine frühe Vorschau auf das neue E-Book von O'Reilly mit der Schritt-für-Schritt-Anleitung, die Sie für den Einstieg in Delta Lake benötigen.

Der Datenaustausch ist in der modernen Wirtschaft von entscheidender Bedeutung, da Unternehmen Daten sicher mit ihren Kunden, Lieferanten und Partnern austauschen möchten. Beispielsweise möchte ein Einzelhändler möglicherweise Verkaufsdaten in Echtzeit an seine Lieferanten übermitteln, oder ein Lieferant möchte den Lagerbestand in Echtzeit teilen. Bisher war der Datenaustausch jedoch stark eingeschränkt, da die Sharing-Lösungen an einen einzigen Anbieter gebunden sind. Dies führt zu Reibungsverlusten sowohl bei Datenanbietern als auch bei Datenkonsumenten, die naturgemäß unterschiedliche Plattformen nutzen.

Heute starten wir ein neues Open-Source-Projekt, das den organisationsübergreifenden Austausch vereinfacht: Delta Sharing, ein offenes Protokoll für den sicheren Echtzeitaustausch großer Datensätze, das erstmals einen sicheren Datenaustausch über Produkte hinweg ermöglicht. Wir entwickeln Delta Sharing gemeinsam mit Partnern bei den weltweit führenden Software- und Datenanbietern.

Um zu verstehen, warum heutige Lösungen für den Datenaustausch Reibungsverluste verursachen, stellen Sie sich einen Einzelhändler vor, der Daten mit einem Analysten bei einem seiner Lieferanten teilen möchte. Heute könnte der Einzelhändler eines von mehreren Cloud-Data-Warehouses nutzen, die Datensharing anbieten. Der Analyst müsste dann jedoch mit seinen IT-, Sicherheits- und Beschaffungsteams zusammenarbeiten, um dasselbe Warehouse-Produkt in seinem Unternehmen bereitzustellen – ein Prozess, der Monate dauern kann. Sobald das Warehouse bereitgestellt ist, würde der Analyst als Erstes die Daten daraus in sein bevorzugtes Data-Science-Tool wie pandas oder Tableau exportieren.

Mit Delta Sharing können Datennutzer über pandas, Tableau oder Dutzende anderer Systeme, die das offene Protokoll implementieren, direkt eine Verbindung zu den freigegebenen Daten herstellen, ohne zuvor eine bestimmte Plattform bereitstellen zu müssen. Dies verkürzt ihre Zugriffszeit von Monaten auf Minuten und reduziert den Aufwand für Datenanbieter, die so viele Nutzer wie möglich erreichen wollen, erheblich.

Wir arbeiten bei Delta Sharing mit einem dynamischen Partner-Ökosystem zusammen, darunter Produktteams der führenden Cloud-, BI- und Datenanbieter:

 Delta Sharing-Ökosystem - Apache Spark, Pandas, Presto, Trino, Rust, Hive, Tableau, Power BI, Qlik, Looker, Databricks, Microsoft Azure, Google BigQuery, Starburst, Dremio, AtScale, Immuta, Privacera, Alation, Collibra, Nasdaq, S&P, ICE, NYSE, AWS, FactSet, Precisely, Atlassian, Foursquare, Sequence Bio

Delta Sharing-Ökosystem

In diesem Beitrag erklären wir, wie Delta Sharing funktioniert und warum wir von einem offenen Ansatz für den Datenaustausch so begeistert sind.

Ziele von Delta Sharing

Delta Sharing ist so konzipiert, dass es sowohl für Anbieter als auch für Konsumenten mit ihren vorhandenen Daten und Workflows einfach zu nutzen ist. Wir haben es mit vier Zielen vor Augen entwickelt:

  • Live-Daten direkt freigeben, ohne sie zu kopieren: Wir möchten es einfach machen, vorhandene Daten in Echtzeit freizugeben. Heute ist der Großteil der Unternehmensdaten in Cloud-Data-Lake- und Lakehouse-Systemen gespeichert. Delta Sharing baut darauf auf. Insbesondere können Sie damit jeden vorhandenen Datensatz in den Formaten Delta Lake oder Apache Parquet sicher freigeben.
  • Unterstützung einer Vielzahl von Clients: Empfänger sollten in der Lage sein, Daten direkt mit den Tools ihrer Wahl zu nutzen, ohne eine neue Plattform installieren zu müssen. Das Delta Sharing-Protokoll ist so konzipiert, dass Tools es leicht direkt unterstützen können. Es basiert auf Parquet, das von den meisten Tools bereits unterstützt wird, sodass die Implementierung eines Connectors dafür einfach ist.
  • Starke Sicherheit, Auditierung und Governance: Das Protokoll soll Ihnen helfen, Datenschutz- und Compliance-Anforderungen zu erfüllen. Mit Delta Sharing können Sie den Zugriff auf freigegebene Daten von einer einzigen Kontrollstelle aus gewähren, nachverfolgen und auditieren.
  • Skalierung auf riesige Datensätze: Der Datenaustausch muss zunehmend Datensätze im Terabyte-Bereich unterstützen, wie z. B. feingranulare Industrie- oder Finanzdaten – eine Herausforderung für Altsysteme. Delta Sharing nutzt die Kostenvorteile und Elastizität von Cloud-Speichersystemen, um riesige Datensätze wirtschaftlich und zuverlässig freizugeben.

Wie funktioniert Delta Sharing?

Delta Sharing ist ein einfaches REST-Protokoll, das den Zugriff auf einen Teil eines Cloud-Datensatzes sicher freigibt. Es nutzt moderne Cloud-Speichersysteme wie S3, ADLS oder GCS, um große Datensätze zuverlässig zu übertragen. Es sind zwei Parteien beteiligt: Datenanbieter und Empfänger.

Als Datenanbieter können Sie mit Delta Sharing vorhandene Tabellen oder Teile davon (z. B. bestimmte Tabellenversionen von Partitionen) freigeben, die in Ihrem Cloud-Data-Lake im Delta Lake-Format gespeichert sind. Eine Delta Lake-Tabelle ist im Wesentlichen eine Sammlung von Parquet-Dateien, und es ist einfach, vorhandene Parquet-Tabellen bei Bedarf in Delta Lake zu konvertieren. Der Datenanbieter entscheidet, welche Daten er freigeben möchte, und betreibt davor einen Sharing-Server, der das Delta Sharing-Protokoll implementiert und den Zugriff für Empfänger verwaltet. Wir haben einen Referenz-Sharing-Server als Open Source bereitgestellt, und wir bieten einen gehosteten Server auf Databricks an, so wie es vermutlich auch andere Anbieter tun werden.

Als Datenempfänger benötigen Sie lediglich einen der vielen Delta Sharing-Clients, die das Protokoll unterstützen. Wir haben Open-Source-Connectoren für pandas, Apache Spark, Rust und Python veröffentlicht und arbeiten mit Partnern an vielen weiteren.

Delta Sharing ist ein einfaches REST-Protokoll, das den Zugriff auf einen Teil eines Cloud-Datensatzes sicher freigibt. Es nutzt moderne Cloud-Speichersysteme wie S3, ADLS oder GCS, um große Datensätze zuverlässig zu übertragen.

Der eigentliche Austausch ist so konzipiert, dass er durch die Nutzung der Funktionen von Cloud-Speichersystemen und Delta Lake hocheffizient ist. Das Protokoll funktioniert wie folgt:

  1. Der Client des Empfängers authentifiziert sich am Sharing-Server (über einen Bearer-Token oder eine andere Methode) und fordert die Abfrage einer bestimmten Tabelle an. Der Client kann auch Filter für die Daten bereitstellen (z. B. „country=US“) als Hinweis, um nur eine Teilmenge der Daten zu lesen.
  2. Der Server überprüft, ob der Client berechtigt ist, auf die Daten zuzugreifen, protokolliert die Anfrage und bestimmt dann, welche Daten zurückgesendet werden sollen. Dies ist eine Teilmenge der Datenobjekte in S3 oder anderen Cloud-Speichersystemen, aus denen die Tabelle tatsächlich besteht.
  3. Um die Daten zu übertragen, generiert der Server kurzlebige, vorsignierte URLs, mit denen der Client diese Parquet-Dateien direkt vom Cloud-Anbieter lesen kann. So kann die Übertragung parallel mit enormer Bandbreite erfolgen, ohne über den Sharing-Server gestreamt zu werden. Diese leistungsstarke Funktion, die in allen großen Clouds verfügbar ist, macht die Freigabe sehr großer Datensätze schnell, kostengünstig und zuverlässig.

Vorteile des Designs

Das Design von Delta Sharing bietet viele Vorteile für Anbieter und Konsumenten:

  • Datenanbieter können problemlos eine gesamte Tabelle oder nur eine Version oder Partition der Tabelle freigeben, da Clients nur Zugriff auf eine bestimmte Teilmenge der darin enthaltenen Objekte erhalten.
  • Datenanbieter können Daten mithilfe von ACID-Transaktionen auf Delta Lake zuverlässig in Echtzeit aktualisieren, und Empfänger sehen immer eine konsistente Ansicht.
  • Datenempfänger müssen sich nicht auf derselben Plattform wie der Anbieter oder überhaupt in der Cloud befinden – die Freigabe funktioniert cloudübergreifend und sogar von der Cloud an On-Premise-Nutzer.
  • Das Delta Sharing-Protokoll ist für Clients sehr einfach zu implementieren, wenn sie bereits mit Parquet vertraut sind. Die meisten unserer Prototyp-Implementierungen mit Open-Source-Engines und BI-Tools haben nur 1–2 Wochen Entwicklungszeit in Anspruch genommen.
  • Die Übertragung ist schnell, kostengünstig, zuverlässig und lässt sich über das zugrunde liegende Cloud-System parallelisieren.
  • Ein offenes Ökosystem

    Wie bereits erwähnt, freuen wir uns darauf, einen offenen Ansatz für den Datenaustausch zu etablieren. Datenanbieter wie Nasdaq haben uns übereinstimmend berichtet, dass es zu schwierig ist, Daten an verschiedene Konsumenten bereitzustellen, die alle unterschiedliche Analyse-Tools verwenden.

    "Wir unterstützen Delta Sharing und die Vision eines offenen Protokolls, das den sicheren Datenaustausch und die Zusammenarbeit über Organisationen hinweg vereinfacht. Delta Sharing wird die Art und Weise, wie wir mit unseren Partnern zusammenarbeiten, verbessern, die Betriebskosten senken und es mehr Nutzern ermöglichen, auf ein umfassendes Spektrum der Datensuite von Nasdaq zuzugreifen, um Erkenntnisse zu gewinnen und Finanzstrategien zu entwickeln", so Bill Dague, Head of Alternative Data bei Nasdaq.

    Mit Delta Sharing können sich Dutzende beliebter Systeme direkt mit den freigegebenen Daten verbinden, sodass jeder Nutzer sie verwenden kann, was den Aufwand für alle Beteiligten verringert. Wir arbeiten mit Dutzenden von Partnern zusammen, um den Delta Sharing-Standard zu definieren, und laden Sie herzlich ein, sich zu beteiligen.
    Viele dieser Unternehmen haben ihre Unterstützung für den heutigen Start zugesagt:

    BI-Tools: Tableau, Qlik, Power BI, Looker
    Analytics: AtScale, Dremio, Starburst, Microsoft Azure, Google BigQuery
    Governance: Collibra, Immuta, Alation, Privacera
    Datenanbieter: FactSet, Nasdaq, Precisely, Safegraph, Atlassian, AWS, Foursquare, ICE, Qandl, S&P, SequenceBio

    Delta Sharing auf Databricks

    Databricks-Kunden erhalten eine native Integration von Delta Sharing in unserem Unity Catalog, was einen optimierten Datenaustausch sowohl innerhalb als auch außerhalb von Organisationen ermöglicht. Administratoren können Freigaben über eine neue CREATE SHARE SQL-Syntax oder REST-APIs verwalten und alle Zugriffe zentral überwachen. Empfänger können die Daten von jeder beliebigen Plattform aus nutzen. Registrieren Sie sich, um sich für den Vorabzugriff und Updates auf unsere Warteliste setzen zu lassen.

    Roadmap für das Delta Sharing-Protokoll auf Databricks

    Roadmap

    Diese erste Version von Delta Sharing ist erst der Anfang. Im Zuge der Weiterentwicklung des Projekts planen wir, es auf die Freigabe anderer Objekte wie Streams, SQL-Views oder beliebiger Dateien wie Machine-Learning-Modelle auszuweiten. Wir sind davon überzeugt, dass die Zukunft des Datenaustauschs offen ist, und freuen uns darauf, diesen Ansatz auf andere Freigabe-Workflows zu übertragen.

    Erste Schritte mit Delta Sharing

    Um die Open-Source-Version von Delta Sharing auszuprobieren, folgen Sie den Anweisungen auf delta.io/sharing. Oder, wenn Sie bereits Databricks-Kunde sind, registrieren Sie sich für Updates zu unserem Service. Wir freuen uns sehr auf Ihr Feedback!

    (Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

    Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

    Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.