Mit einem Nutzungswachstum von über 300 % im Jahresvergleich in zwei aufeinanderfolgenden Jahren ist Delta Sharing das am weitesten verbreitete offene Protokoll für das Teilen von Daten und KI. Führende Datenanbieter wie SAP, Walmart, Atlassian und LSEG nutzen Delta Sharing, um Daten mit ihren Partnern und Kunden über Clouds und Plattformen hinweg zu teilen. Wir freuen uns, heute bekannt zu geben, dass Databricks Delta Sharing erstklassige Unterstützung für das Apache-Iceberg-Format bietet.
Datenanbieter können jetzt Daten sicher und live von Databricks an jeden Client weitergeben, der die Apache Iceberg REST Catalog API unterstützt. Empfänger auf Plattformen wie Snowflake, Trino, Flink und Spark in allen Clouds können alle diese Funktion nutzen - und erweitern so das offene Ökosystem von Delta Sharing.
Darüber hinaus starten wir eine Private Preview, die es Datenanbietern ermöglicht, Delta Sharing zu verwenden, um Iceberg-Tabellen zu teilen, die von Katalogen außerhalb von Databricks verwaltet werden – einschließlich AWS Glue, Hive Metastore, Snowflake Horizon und mehr.
Gemeinsam können Sie alle neuen oder vorhandenen Tabellen (Delta oder Iceberg, verwaltet oder fremd) freigeben. Dies führt zu einer vollständig offenen Interoperabilität. Sie können Iceberg-Tabellen aus jedem externen Katalog importieren, sie über Databricks und Unity Catalog verwalten und sie dann an jeden Empfänger weitergeben – egal, ob dieser auf Databricks, einem Iceberg-Client oder einem Delta-Client arbeitet. So können Sie Unity Catalog als Ihre einheitliche Data-Governance-Schicht nutzen, die Ihnen einen zentralen Ort für das gesamte Teilen bietet.
In diesem Blogpost erklären wir, warum die offene Data Sharing wichtig ist. Außerdem werden wir uns in einer praxisnahen Demo damit befassen, wie Delta Sharing für Iceberg-Clients funktioniert.
Warum das wichtig ist: Offene vs. geschlossenes Teilen
Die meisten Data Sharing-Lösungen sind kein echtes Das Teilen – sie sind eine Falle. Sie sind grundsätzlich geschlossen und so konzipiert, dass sie eine Anbieterbindung gewährleisten, sodass Sie Daten nur mit anderen teilen können, die sich bereits in ihren geschlossenen Ökosystemen befinden. Das schränkt Ihre Möglichkeiten ein, erstickt Innovationen und führt zu einer massiven, sinnlosen Datenreplikation.
Delta Sharing ist der am weitesten verbreitete offene Standard für die sichere Data Sharing. Es wird von kategorieführenden Datenanbietern verwendet und ist für die Unterstützung verschiedener Clouds und Plattformen ausgelegt. Delta Sharing basiert auf drei Kernprinzipien:
Das Hinzufügen der Iceberg-Client-Unterstützung stärkt dieses Engagement. Damit können Sie eine Delta-Tabelle freigeben, während die Empfänger sie als native Iceberg-Tabelle nutzen. Das Teilen erfolgt über die Iceberg REST API, sodass Empfänger von jeder Iceberg-kompatiblen Plattform aus eine Verbindung herstellen können. Dadurch können Sie das Beste aus beiden Welten nutzen: Datenanbieter profitieren von erweiterten Delta Sharing-Features wie dem Teilen von Ansichten, während Empfänger native Iceberg-Tabellen über die Iceberg-REST-API erhalten.
Empfänger erhalten sicheren Live-Zugriff auf die Quelldaten. Dies beseitigt Silos und ermöglicht es Ihnen, Daten offen mit jedem zu teilen.
Dieses Feature ist ideal für Organisationen, die Daten extern mit Partnern und Kunden über Iceberg-Clients teilen müssen, z. B. mit solchen, die auf Snowflake arbeiten oder in Plattformen wie Trino, Flink oder Spark integriert sind. Unternehmen mit mehreren Geschäftsbereichen, die auf mehreren Plattformen tätig sind, profitieren ebenfalls, da sie einen nahtlosen, bidirektionalen Datenaustausch in Multi-Cloud- oder hybriden Umgebungen ermöglichen. Zu den Branchen, die diese Muster bereits nutzen, gehören das Gesundheitswesen, der Einzelhandel, die Finanzbranche, Ad-Tech und weitere.
Da wir an einen vollständig offenen Datenzugriff glauben, hören wir nicht damit auf, Daten für Iceberg-Clients freizugeben. Wir entwickeln jetzt die nächste Evolutionsstufe: Das Teilen von fremden Iceberg-Tabellen, die sich in externen Katalogen wie AWS Glue oder Snowflake Horizon befinden. Wir freuen uns, die Private Preview der Delta Sharing-Unterstützung für fremde Iceberg-Tabellen anzukündigen.
Sie fragen sich vielleicht: Warum sollte man eine Iceberg-Tabelle über Delta Sharing teilen, wenn sie sich in AWS Glue oder Snowflake befindet? Warum nicht direkt von dieser Plattform aus teilen?
Erstens erhalten Sie durch die Katalogisierung Ihrer externen Iceberg-Daten in Unity Catalog eine einheitliche Governance -Ebene in Unity Catalog, die Ihnen vollständige Transparenz und Governance über Ihren gesamten Datenbestand ermöglicht. Darüber hinaus können Sie mit Delta Sharing das Beste aus beiden Welten nutzen: Sie profitieren von den erstklassigen Freigabefunktionen von Delta Sharing, während Ihre Daten im Iceberg-Format bleiben. Dazu gehört beispielsweise die Möglichkeit, Ansichten über Delta Sharing für eine granulare Zugriffskontrolle freizugeben, was von der Iceberg IRC API nicht nativ unterstützt wird.
Mit dieser Private Preview ist das Databricks Lakehouse in beide Richtungen offen. Ihr Lakehouse kann Daten für das wachsende Iceberg-Ökosystem freigeben und Daten von diesem empfangen.
Diese Doppelfunktion bietet Ihnen:
Stellen Sie sich vor, Ihr Unternehmen, die Provider Corp, verwendet Databricks und Delta Lake zur Verwaltung von Kundendaten. Sie müssen täglich eine Liste der Produkt-Vertrieb sicher mit der Partner Inc teilen, die Snowflake verwendet und das Iceberg-Format bevorzugt.
Vor diesem Feature: Provider Corp musste die Daten manuell exportieren, in ein für Snowflake lesbares Format umwandeln, in den Cloud-Speicher des Partners uploaden und einen komplexen Synchronisierungsjob einrichten. Dies ist langsam, kostspielig, mit erheblichem Verwaltungsaufwand verbunden und birgt das Risiko, dass die Daten veralten.
Mit Delta Sharing für Iceberg-Clients:
Das macht das Data Sharing unmittelbar, sicher und völlig formatunabhängig.
In dieser Demo werden die Schritte zum Freigeben einer Tabelle und zum Lesen in Snowflake erläutert.
Erste Schritte
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Produto
June 12, 2024/11 min de leitura

