Update: Delta Sharing ist jetzt allgemein auf AWS und Azure verfügbar.
Erhalten Sie eine Vorschau auf das neue E-Book von O'Reilly mit einer Schritt-für-Schritt-Anleitung für den Einstieg in Delta Lake.
Data Sharing ist in der modernen Wirtschaft von entscheidender Bedeutung geworden, da Unternehmen Daten sicher mit ihren Kunden, Lieferanten und Partnern austauschen möchten. So möchte beispielsweise ein Einzelhändler Verkaufsdaten in Echtzeit für seine Lieferanten bereitstellen, oder ein Lieferant möchte seinen Echtzeit-Lagerbestand teilen. Bislang war das Data Sharing jedoch stark eingeschränkt, da die Lösungen für das Data Sharing an einen einzigen Anbieter gebunden sind. Dies führt zu Reibungsverlusten sowohl für Datenanbieter als auch für Datennutzer, die naturgemäß unterschiedliche Plattformen nutzen.
Heute starten wir ein neues Open-Source-Projekt, das das organisationsübergreifende Teilen vereinfacht: Delta Sharing, ein offenes Protokoll für den sicheren Echtzeitaustausch großer Datasets, das erstmals eine sichere produktübergreifende Data Sharing ermöglicht. Wir entwickeln Delta Sharing mit Partnern der weltweit führenden Software- und Datenanbieter.
Um zu verstehen, warum heutige Data Sharing-Lösungen zu Reibungsverlusten führen, betrachten wir einen Einzelhändler, der Daten mit einem Analysten bei einem seiner Lieferanten teilen möchte. Heute könnte der Einzelhändler eines von mehreren Cloud Data Warehouses nutzen, die ein Data Sharing anbieten, aber dann müsste der Analyst mit seinen IT-, Sicherheits- und Beschaffungsteams zusammenarbeiten, um dasselbe warehouse Produkt in seinem Unternehmen zu implementieren – ein Prozess, der Monate dauern kann. Darüber hinaus würde der Analysten, sobald das warehouse angewendet ist, als Erstes die Daten daraus in sein bevorzugtes Data Science-Tool, wie z. B. pandas oder Tableau, exportieren.
Mit Delta Sharing können sich Datennutzer über pandas, Tableau oder Dutzende anderer Systeme, die das offene Protokoll implementieren, direkt mit den freigegebenen Daten verbinden, ohne zuerst eine bestimmte Plattform bereitstellen zu müssen. Dadurch wird die Zugriffszeit von Monaten auf Minuten verkürzt und der Arbeitsaufwand für Datenanbieter, die so viele Nutzer wie möglich erreichen wollen, erheblich reduziert.
Wir arbeiten bei Delta Sharing mit einem dynamischen Ökosystem von Partnern zusammen, einschließlich der Produktteams der führenden Cloud-, BI- und Datenanbieter:
Delta-Sharing-Ökosystem
In diesem Beitrag erklären wir, wie Delta Sharing funktioniert und warum wir von einem offenen Ansatz für Data Sharing so begeistert sind.
Delta Sharing ist so konzipiert, dass es sowohl für Anbieter als auch für Nutzer einfach mit ihren bestehenden Daten und Workflows zu verwenden ist. Wir haben es mit vier Zielen vor Augen entworfen:
Delta Sharing ist ein einfaches REST-Protokoll, das den Zugriff auf einen Teil eines Cloud-Datasets sicher freigibt. Es nutzt moderne Cloud-Speichersysteme wie S3, ADLS oder GCS, um große Datensätze zuverlässig zu übertragen. Es sind zwei Parteien beteiligt: Datenanbieter und Empfänger.
Als Datenanbieter können Sie mit Delta Sharing vorhandene Tabellen oder Teile davon (z. B. bestimmte Tabellenversionen von Partitionen) freigeben, die in Ihrem Cloud-Data-Lake im Delta Lake -Format gespeichert sind. Eine Delta Lake-Tabelle ist im Wesentlichen eine Sammlung von Parquet-Dateien, und es ist einfach, vorhandene Parquet-Tabellen bei Bedarf in Delta Lake zu integrieren. Der Datenanbieter entscheidet, welche Daten er freigeben möchte, und betreibt einen Freigabeserver, der das Delta Sharing-Protokoll implementiert und den Zugriff für Empfänger verwaltet. Wir haben einen Referenz-Freigabeserver als Open Source veröffentlicht; und wir stellen auf Databricks eine gehostete Version bereit, da wir davon ausgehen, dass andere Anbieter dies ebenfalls tun werden.
Als Datenempfänger benötigen Sie lediglich einen der vielen Delta-Sharing-Clients, der das Protokoll unterstützt. Wir haben Open-Source-Connectors für Pandas, Apache Spark, Rust und Python veröffentlicht und arbeiten mit Partnern an vielen weiteren.
Der eigentliche Austausch ist sorgfältig auf Effizienz ausgelegt, indem er die Funktionalität von Cloud-Speichersystemen und Delta Lake nutzt. Das Protokoll funktioniert wie folgt:
Das Delta Sharing-Design bietet sowohl für Anbieter als auch für Verbraucher viele Vorteile:
Wie bereits erwähnt, freuen wir uns darauf, einen offenen Ansatz für das Data Sharing zu etablieren. Datenanbieter wie Nasdaq haben uns einhellig bestätigt, dass es zu schwierig ist, Daten an vielfältige Kunden zu liefern, die alle unterschiedliche Analytics-Tools verwenden.
„Wir unterstützen Delta Sharing und seine Vision eines offenen Protokolls, das das sichere Data Sharing und die Zusammenarbeit zwischen Organisationen vereinfachen wird.“ „Delta Sharing wird die Zusammenarbeit mit unseren Partnern verbessern, die Betriebskosten senken und mehr Nutzern den Zugriff auf die umfassende Daten-Suite von Nasdaq ermöglichen, um Einblicke zu gewinnen und Finanzstrategien zu entwickeln“, so Bill Dague, Head of Alternative Data, Nasdaq.
Mit Delta Sharing können Dutzende gängiger Systeme eine direkte Verbindung zu freigegebenen Daten herstellen, sodass jeder Nutzer sie verwenden kann, was die Reibungsverluste für alle Beteiligten reduziert. Wir arbeiten mit Dutzenden von Partnern zusammen, um den Delta Sharing-Standard zu definieren, und laden Sie ein, daran teilzunehmen.
Viele dieser Unternehmen haben ihre Unterstützung für den heutigen Launch zugesagt:
BI-Tools: Tableau, Qlik, Power BI, Looker
Analytics: AtScale, Dremio, Starburst, Microsoft Azure, Google BigQuery
Governance: Collibra, Immuta, Alation, Privacera
Datenanbieter: FactSet, Nasdaq, Precisely, Safegraph, Atlassian, AWS, Foursquare, ICE, Qandl, S&P, SequenceBio
Databricks-Kunden steht eine native Integration von Delta Sharing in unserem Unity Catalog zur Verfügung, die eine optimierte Erfahrung für die gemeinsame Nutzung von Daten sowohl innerhalb von als auch zwischen Organisationen bietet. Administratoren können Shares über eine neue CREATE SHARE SQL-Syntax oder REST-APIs verwalten und alle Zugriffe zentral auditieren. Empfänger werden die Daten von jeder beliebigen Plattform aus nutzen können. Registrieren Sie sich, um unserer Warteliste für Vorabzugriff und Updates beizutreten.
Diese erste Version von Delta Sharing ist nur ein start. Während wir das Projekt weiterentwickeln, planen wir, es auf das Teilen anderer Objekte zu erweitern, wie Streams, SQL-Ansichten oder beliebige Dateien wie Machine-Learning-Modelle. Wir sind davon überzeugt, dass die Zukunft des Data Sharings offen ist, und freuen uns, diesen Ansatz auf andere Teilen-Workflows auszuweiten.
Um das Open-Source-Release von Delta Sharing auszuprobieren, folgen Sie den Anweisungen unter delta.io/sharing. Oder, wenn Sie Databricks-Kunde sind, registrieren Sie sich für Updates zu unserem Dienst. Wir freuen uns sehr auf Ihr Feedback!
Produto
June 12, 2024/11 min de leitura
Produto
September 12, 2024/8 min de leitura


