Direkt zum Hauptinhalt

Delta Sharing: Ein offener Standard für sicheren Datenaustausch

Delta-Sharing-Social

Update: Delta Sharing ist jetzt allgemein auf AWS und Azure verfügbar.

Erhalten Sie eine Vorschau auf das neue E-Book von O'Reilly mit einer Schritt-für-Schritt-Anleitung für den Einstieg in Delta Lake.

 

Data Sharing ist in der modernen Wirtschaft von entscheidender Bedeutung geworden, da Unternehmen Daten sicher mit ihren Kunden, Lieferanten und Partnern austauschen möchten. So möchte beispielsweise ein Einzelhändler Verkaufsdaten in Echtzeit für seine Lieferanten bereitstellen, oder ein Lieferant möchte seinen Echtzeit-Lagerbestand teilen. Bislang war das Data Sharing jedoch stark eingeschränkt, da die Lösungen für das Data Sharing an einen einzigen Anbieter gebunden sind. Dies führt zu Reibungsverlusten sowohl für Datenanbieter als auch für Datennutzer, die naturgemäß unterschiedliche Plattformen nutzen.

Heute starten wir ein neues Open-Source-Projekt, das das organisationsübergreifende Teilen vereinfacht: Delta Sharing, ein offenes Protokoll für den sicheren Echtzeitaustausch großer Datasets, das erstmals eine sichere produktübergreifende Data Sharing ermöglicht. Wir entwickeln Delta Sharing mit Partnern der weltweit führenden Software- und Datenanbieter.

Um zu verstehen, warum heutige Data Sharing-Lösungen zu Reibungsverlusten führen, betrachten wir einen Einzelhändler, der Daten mit einem Analysten bei einem seiner Lieferanten teilen möchte. Heute könnte der Einzelhändler eines von mehreren Cloud Data Warehouses nutzen, die ein Data Sharing anbieten, aber dann müsste der Analyst mit seinen IT-, Sicherheits- und Beschaffungsteams zusammenarbeiten, um dasselbe warehouse Produkt in seinem Unternehmen zu implementieren – ein Prozess, der Monate dauern kann. Darüber hinaus würde der Analysten, sobald das warehouse angewendet ist, als Erstes die Daten daraus in sein bevorzugtes Data Science-Tool, wie z. B. pandas oder Tableau, exportieren.

Mit Delta Sharing können sich Datennutzer über pandas, Tableau oder Dutzende anderer Systeme, die das offene Protokoll implementieren, direkt mit den freigegebenen Daten verbinden, ohne zuerst eine bestimmte Plattform bereitstellen zu müssen. Dadurch wird die Zugriffszeit von Monaten auf Minuten verkürzt und der Arbeitsaufwand für Datenanbieter, die so viele Nutzer wie möglich erreichen wollen, erheblich reduziert.

Wir arbeiten bei Delta Sharing mit einem dynamischen Ökosystem von Partnern zusammen, einschließlich der Produktteams der führenden Cloud-, BI- und Datenanbieter:

 Delta-Sharing-Ökosystem

In diesem Beitrag erklären wir, wie Delta Sharing funktioniert und warum wir von einem offenen Ansatz für Data Sharing so begeistert sind.

Ziele von Delta Sharing

Delta Sharing ist so konzipiert, dass es sowohl für Anbieter als auch für Nutzer einfach mit ihren bestehenden Daten und Workflows zu verwenden ist. Wir haben es mit vier Zielen vor Augen entworfen:

  • Live-Daten direkt teilen, ohne sie zu kopieren: Wir möchten es einfach machen, vorhandene Daten in Echtzeit zu teilen. Heute wird der Großteil der Unternehmensdaten in Cloud-Data Lake- und lakehouse-Systemen gespeichert. Delta Sharing funktioniert über diese; insbesondere können Sie damit jedes vorhandene Dataset in den Formaten Delta Lake oder Apache Parquet sicher teilen.
  • Unterstützung für eine Vielzahl von Clients: Empfänger sollten in der Lage sein, Daten direkt aus den Tools ihrer Wahl zu nutzen, ohne eine neue Plattform installieren zu müssen. Das Delta-Sharing-Protokoll ist so konzipiert, dass Tools es einfach direkt unterstützen können. Es basiert auf Parquet, das von den meisten Tools bereits unterstützt wird, sodass die Implementierung eines Connectors dafür einfach ist.
  • Starke Sicherheit, Auditierung und Governance: Das Protokoll wurde entwickelt, um Ihnen zu helfen, Datenschutz- und Compliance-Anforderungen zu erfüllen. Mit Delta Sharing können Sie den Zugriff auf freigegebene Daten von einer zentralen Stelle aus gewähren, verfolgen und prüfen.
  • Auf massive Datensätze skalieren: Der Data Sharing muss zunehmend Datensätze im Terabyte-Bereich unterstützen, z. B. feingranulare Industrie- oder Finanzdaten – eine Herausforderung für Legacy-Lösungen. Delta Sharing nutzt die Kosteneffizienz und Elastizität von Cloud-Speichersystemen, um massive Datensätze kostengünstig und zuverlässig zu teilen.

Wie funktioniert Delta Sharing?

Delta Sharing ist ein einfaches REST-Protokoll, das den Zugriff auf einen Teil eines Cloud-Datasets sicher freigibt. Es nutzt moderne Cloud-Speichersysteme wie S3, ADLS oder GCS, um große Datensätze zuverlässig zu übertragen. Es sind zwei Parteien beteiligt: Datenanbieter und Empfänger.

Als Datenanbieter können Sie mit Delta Sharing vorhandene Tabellen oder Teile davon (z. B. bestimmte Tabellenversionen von Partitionen) freigeben, die in Ihrem Cloud-Data-Lake im Delta Lake -Format gespeichert sind. Eine Delta Lake-Tabelle ist im Wesentlichen eine Sammlung von Parquet-Dateien, und es ist einfach, vorhandene Parquet-Tabellen bei Bedarf in Delta Lake zu integrieren. Der Datenanbieter entscheidet, welche Daten er freigeben möchte, und betreibt einen Freigabeserver, der das Delta Sharing-Protokoll implementiert und den Zugriff für Empfänger verwaltet. Wir haben einen Referenz-Freigabeserver als Open Source veröffentlicht; und wir stellen auf Databricks eine gehostete Version bereit, da wir davon ausgehen, dass andere Anbieter dies ebenfalls tun werden.

Als Datenempfänger benötigen Sie lediglich einen der vielen Delta-Sharing-Clients, der das Protokoll unterstützt. Wir haben Open-Source-Connectors für Pandas, Apache Spark, Rust und Python veröffentlicht und arbeiten mit Partnern an vielen weiteren.

Der eigentliche Austausch ist sorgfältig auf Effizienz ausgelegt, indem er die Funktionalität von Cloud-Speichersystemen und Delta Lake nutzt. Das Protokoll funktioniert wie folgt:

  1. Der Client des Empfängers authentifiziert sich beim Freigabeserver (über ein Bearer-Token oder eine andere Methode) und fordert die Abfrage einer bestimmten Tabelle an. Der Client kann auch Filter für die Daten angeben (z. B. „country=US“) als Hinweis, um nur eine Teilmenge der Daten zu lesen.
  2. Der Server überprüft, ob der Client auf die Daten zugreifen darf, protokolliert die Anfrage und bestimmt dann, welche Daten zurückgesendet werden sollen. Dies ist eine Teilmenge der Datenobjekte in S3 oder anderen Cloud-Speichersystemen, aus denen die Tabelle tatsächlich besteht.
  3. Zur Übertragung der Daten generiert der Server kurzlebige, vorab signierte URLs, die es dem Client ermöglichen, diese Parquet-Dateien direkt vom Cloud-Anbieter zu lesen, sodass die Übertragung parallel mit enormer Bandbreite erfolgen kann, ohne Streaming über den Sharing-Server. Dieses leistungsstarke Feature, das in allen großen Clouds verfügbar ist, macht das Teilen sehr großer Datasets schnell, günstig und zuverlässig.

Vorteile des Designs

Das Delta Sharing-Design bietet sowohl für Anbieter als auch für Verbraucher viele Vorteile:

  • Datenanbieter können ganz einfach eine ganze Tabelle oder nur eine Version oder Partition der Tabelle freigeben, da Clients nur auf eine bestimmte Teilmenge der darin enthaltenen Objekte zugreifen können.
  • Datenanbieter können Daten mithilfe der ACID-Transaktionen in Delta Lake zuverlässig in Echtzeit aktualisieren, und die Empfänger sehen immer eine konsistente Ansicht.
  • Datenempfänger müssen sich nicht auf derselben Plattform wie der Anbieter befinden oder überhaupt in der Cloud sein – Das Teilen funktioniert cloudübergreifend und sogar von der Cloud zu on-premises Nutzern.
  • Das Delta-Sharing-Protokoll ist für Clients sehr einfach zu implementieren, wenn sie bereits Parquet verstehen. Die Entwicklung der meisten unserer Prototyp-Implementierungen mit Open-Source-Engines und BI-Tools dauerte nur 1–2 Wochen.
  • Die Übertragung mithilfe des zugrunde liegenden Cloud-Systems ist schnell, kostengünstig, zuverlässig und parallelisierbar.

Ein offenes Ökosystem

Wie bereits erwähnt, freuen wir uns darauf, einen offenen Ansatz für das Data Sharing zu etablieren. Datenanbieter wie Nasdaq haben uns einhellig bestätigt, dass es zu schwierig ist, Daten an vielfältige Kunden zu liefern, die alle unterschiedliche Analytics-Tools verwenden.

„Wir unterstützen Delta Sharing und seine Vision eines offenen Protokolls, das das sichere Data Sharing und die Zusammenarbeit zwischen Organisationen vereinfachen wird.“ „Delta Sharing wird die Zusammenarbeit mit unseren Partnern verbessern, die Betriebskosten senken und mehr Nutzern den Zugriff auf die umfassende Daten-Suite von Nasdaq ermöglichen, um Einblicke zu gewinnen und Finanzstrategien zu entwickeln“, so Bill Dague, Head of Alternative Data, Nasdaq.

Mit Delta Sharing können Dutzende gängiger Systeme eine direkte Verbindung zu freigegebenen Daten herstellen, sodass jeder Nutzer sie verwenden kann, was die Reibungsverluste für alle Beteiligten reduziert. Wir arbeiten mit Dutzenden von Partnern zusammen, um den Delta Sharing-Standard zu definieren, und laden Sie ein, daran teilzunehmen.
Viele dieser Unternehmen haben ihre Unterstützung für den heutigen Launch zugesagt:

BI-Tools: Tableau, Qlik, Power BI, Looker
Analytics: AtScale, Dremio, Starburst, Microsoft Azure, Google BigQuery
Governance: Collibra, Immuta, Alation, Privacera
Datenanbieter: FactSet, Nasdaq, Precisely, Safegraph, Atlassian, AWS, Foursquare, ICE, Qandl, S&P, SequenceBio

Delta Sharing auf Databricks

Databricks-Kunden steht eine native Integration von Delta Sharing in unserem Unity Catalog zur Verfügung, die eine optimierte Erfahrung für die gemeinsame Nutzung von Daten sowohl innerhalb von als auch zwischen Organisationen bietet. Administratoren können Shares über eine neue CREATE SHARE SQL-Syntax oder REST-APIs verwalten und alle Zugriffe zentral auditieren. Empfänger werden die Daten von jeder beliebigen Plattform aus nutzen können. Registrieren Sie sich, um unserer Warteliste für Vorabzugriff und Updates beizutreten.

Roadmap

Diese erste Version von Delta Sharing ist nur ein start. Während wir das Projekt weiterentwickeln, planen wir, es auf das Teilen anderer Objekte zu erweitern, wie Streams, SQL-Ansichten oder beliebige Dateien wie Machine-Learning-Modelle. Wir sind davon überzeugt, dass die Zukunft des Data Sharings offen ist, und freuen uns, diesen Ansatz auf andere Teilen-Workflows auszuweiten.

Erste Schritte mit Delta Sharing

Um das Open-Source-Release von Delta Sharing auszuprobieren, folgen Sie den Anweisungen unter delta.io/sharing. Oder, wenn Sie Databricks-Kunde sind, registrieren Sie sich für Updates zu unserem Dienst. Wir freuen uns sehr auf Ihr Feedback!

Verpassen Sie keinen Beitrag von Databricks

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Was kommt als Nächstes?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

Five Simple Steps for Implementing a Star Schema in Databricks With Delta Lake

Produto

September 12, 2024/8 min de leitura

Cinco etapas simples para implementar um esquema de estrela na Databricks com Delta Lake