Direkt zum Hauptinhalt
Ankündigungen

Ankündigung der allgemeinen Verfügbarkeit von Delta Sharing

von Matei Zaharia, Celia Kung, Xiaotong Sun, Steve Mahoney, Itai Weiss, Sachin Thakur und Jay Bhankharia

Delta Sharing hat sich zu OpenSharing weiterentwickelt, dem ersten offenen, herstellerneutralen Protokoll für den sicheren Austausch von KI-Assets, einschließlich Agent Skills, KI-Modellen und unstrukturierten Daten. Lesen Sie die Ankündigung.

Heute freuen wir uns, bekannt zu geben, dass Delta Sharing auf AWS und Azure allgemein verfügbar (GA) ist. Mit dem GA-Release können Sie von Databricks das höchste Maß an Stabilität, Support und Enterprise-Bereitschaft für geschäftskritische Workloads auf der Databricks Lakehouse Platform erwarten.

In diesem Blog untersuchen wir, wie Unternehmen Delta Sharing nutzen, um den geschäftlichen Nutzen ihrer Daten zu maximieren, stellen einige der wichtigsten Funktionen des GA-Releases vor und zeigen, wie Sie mit Delta Sharing auf der Databricks Lakehouse Platform durchstarten können.

Kunden profitieren vom offenen Standard für den Datenaustausch aus dem Lakehouse

Der Datenaustausch ist in der digitalen Wirtschaft wichtig geworden, da Unternehmen Daten einfach und sicher mit ihren Kunden, Partnern, Lieferanten und internen Geschäftsbereichen (LOBs) austauschen möchten, um besser zusammenzuarbeiten und den Wert dieser Daten zu erschließen. Das Fehlen eines standardbasierten Protokolls für den Datenaustausch hat jedoch zu Lösungen geführt, die an einen einzelnen Anbieter oder ein kommerzielles Produkt gebunden sind, was das Risiko einer Anbieterabhängigkeit (Vendor Lock-in) birgt. Diese Herausforderungen unserer Kunden haben uns bei Databricks dazu bewogen, mit Delta Sharing eine offene Lösung für den Datenaustausch zu entwickeln.

Delta Sharing bietet eine offene Lösung für den sicheren Austausch von Live-Daten aus Ihrem Lakehouse mit jeder beliebigen Computing-Plattform. Datenempfänger müssen weder die Databricks Lakehouse Platform nutzen noch in derselben Cloud oder überhaupt in einer Cloud sein. Datenanbieter können vorhandene große Datensätze auf Basis der Formate Apache Parquet oder Delta Lake freigeben, ohne Datensätze in ein anderes System zu replizieren oder zu kopieren. Datenempfänger profitieren davon, dass sie immer Zugriff auf die neueste Version der Daten haben und die freigegebenen Daten mit den Tools ihrer Wahl abfragen, visualisieren, transformieren, einlesen oder anreichern können, was die Time-to-Value verkürzt. Da Governance und Sicherheit für viele Unternehmen oberste Priorität haben, ist Delta Sharing nativ in den Unity Catalog integriert. So können Sie die Nutzung der freigegebenen Daten auf einer einzigen Plattform verwalten, steuern, prüfen und verfolgen.

Delta Sharing – Ein offener Standard für den sicheren Austausch von Daten-Assets
Delta Sharing – Ein offener Standard für den sicheren Austausch von Daten-Assets

Seit dem Start von Delta Sharing in der Private Preview im letzten Jahr haben sich Hunderte von Kunden für Delta Sharing entschieden, und heute werden Petabytes an Daten über Delta Sharing ausgetauscht.

Nasdaq: „Delta Sharing hat uns geholfen, unseren Prozess zur Datenbereitstellung für große Datensätze zu optimieren. Dies ermöglicht es unseren Kunden, ihre eigene Compute-Umgebung zu nutzen, um aktuelle, kuratierte Daten mit minimalem Integrationsaufwand zu lesen, und erlaubt uns, unseren Katalog an einzigartigen, hochwertigen Datenprodukten kontinuierlich zu erweitern.“ – William Dague, Head of Alternative Data

Shell: „Wir sind uns bewusst, dass die Offenheit von Daten eine Schlüsselrolle bei der Erreichung der Netto-Null-Emissionsziele von Shell spielen wird. Delta Sharing bietet Shell ein standardisiertes, kontrolliertes und sicheres Protokoll, um große Datenmengen problemlos mit unseren Partnern zu teilen, um auf diese Ziele hinzuarbeiten, ohne dass unsere Partner dieselbe Plattform für den Datenaustausch nutzen müssen.“ – Bryce Bartmann, Chief Digital Technology Advisor

SafeGraph: „Als Datenunternehmen ist es für uns von entscheidender Bedeutung, unseren Kunden Zugang zu unseren Datensätzen zu geben. Die Databricks Lakehouse Platform mit Delta Sharing optimiert diesen Prozess erheblich und ermöglicht es uns, unabhängig von Cloud oder Plattform eine viel breitere Nutzerbasis sicher zu erreichen.“ – Felix Cheung, VP of Engineering

YipitData: „Mit Delta Sharing können unsere Kunden fast augenblicklich auf kuratierte Datensätze zugreifen und diese in die Analysetools ihrer Wahl integrieren. Der Dialog mit unseren Kunden verlagert sich von einem wenig wertschöpfenden, technischen Hin und Her bei der Datenintegration hin zu einer wertvollen analytischen Diskussion, mit der wir erfolgreiche Kundenerlebnisse schaffen. Während sich unsere Kundenbeziehungen weiterentwickeln, können wir über Delta Sharing nahtlos neue Datensätze bereitstellen und bestehende aktualisieren, um unsere Kunden über wichtige Trends in ihren Branchen auf dem Laufenden zu halten.“ – Anup Segu, Data Engineering Tech Lead

Pumpjack Dataworks: „Die Nutzung der leistungsstarken Funktionen von Delta Sharing von Databricks ermöglicht Pumpjack Dataworks ein schnelleres Onboarding, da der Export, Import und die Ummodellierung von Daten entfallen, was unseren Kunden sofortigen Nutzen bringt. Schnellere Ergebnisse bedeuten größere geschäftliche Chancen für unsere Kunden und deren Partner.“ – Corey Zwart, Chief Technology Officer

Was ist neu bei Delta Sharing mit GA?

Obwohl Delta Sharing im GA-Release eine Reihe fantastischer Funktionen bietet, sind im Folgenden einige der wichtigsten Features aufgeführt, die wir mit dieser Version ausliefern:

Nahtloser Datenaustausch von Databricks zu Databricks

Für Databricks-Kunden macht Delta Sharing den Datenaustausch im Lakehouse extrem einfach, effizient und sicher. Mit nur wenigen Klicks in der UI oder SQL-Befehlen können Datenanbieter ihre vorhandenen Daten ganz einfach für Empfänger auf Databricks freigeben, ohne die Daten zu replizieren. Beispielsweise kann ein Datenanbieter, der Databricks auf AWS nutzt, vorhandene Daten mit einem Empfänger teilen, der Databricks auf Azure nutzt, oder umgekehrt. Ausführliche Informationen finden Sie im Benutzerhandbuch. Beim Austausch von Databricks zu Databricks muss der Datenanbieter keine Token-Anmeldedaten für Empfänger verwalten, die Databricks nutzen. Die Freigabeverbindung wird sicher über die Databricks-Plattform hergestellt. Sie benötigen lediglich ein Databricks-Konto zur Anmeldung, den Rest übernimmt die Plattform. Neben dem kontoübergreifenden Datenaustausch ist der interne Datenaustausch ein weiterer wichtiger Anwendungsfall. Wenn Sie mehrere Unity Catalog-Metastores unter demselben Konto in verschiedenen Regionen haben, können Sie Daten mithilfe von Delta Sharing ganz einfach zwischen diesen Metastores austauschen, ohne Daten zu kopieren. Beispiel für einen SQL-Workflow aus Sicht eines Datenanbieters:

Beispiel für einen SQL-Workflow aus Sicht eines Datenempfängers:

Freigabe von Change Data Feed

Delta Sharing unterstützt jetzt die Freigabe von Change Data Feed (CDF). Zusätzlich zur Freigabe einer Tabelle kann ein Datenanbieter auch den CDF der Tabelle einschließen, sodass Empfänger Änderungen zwischen bestimmten Versionen oder Zeitstempeln der Tabelle abfragen können. Mit dieser Funktion können Empfänger nur die neuen Daten oder die inkrementellen Änderungen abfragen, anstatt jedes Mal die gesamte Tabelle. Ein Datenanbieter kann eine Tabelle ganz einfach mit CDF freigeben, und ein Datenempfänger kann Tabellenänderungen mit einer einfachen Syntax abfragen:

Erweiterte Sicherheitsfunktionen

Im GA-Release von Delta Sharing haben wir außerdem eine Reihe von Sicherheitsfunktionen eingeführt, um den Austausch noch sicherer zu machen. Ein Beispiel für diese Sicherheitsfunktionen ist die IP-Zugriffsliste (IP Access List). Datenanbieter können jetzt über offene Connectors eine IP-Zugriffsliste für jeden ihrer Empfänger konfigurieren. Dies stellt sicher, dass der Download von Anmeldedaten und der Datenzugriff nur von der Ziel-IP-Adresse aus initiiert werden können. Wir haben außerdem einige weitere Berechtigungen im Zusammenhang mit Delta Sharing hinzugefügt (z. B. CREATE SHARE, CREATE RECIPIENT) und das Konzept des Owners für Delta Sharing-Objekte wie Share und Recipient eingeführt. Mit diesen Primitiven bietet Delta Sharing auf Databricks ein flexibleres Modell zur Zugriffskontrolle, und auch Nicht-Admin-Benutzer können Freigabevorgänge durchführen.

Erste Schritte mit Delta Sharing auf Databricks

Sehen Sie sich die folgende Demo an, um mehr darüber zu erfahren, wie Sie mit Delta Sharing Live-Daten nahtlos aus Ihrem Lakehouse mit jeder beliebigen Computing-Plattform teilen können.

Wenn Sie bereits Databricks-Kunde sind, folgen Sie dieser Anleitung für die ersten Schritte (AWS | Azure). Lesen Sie die Versionshinweise, um mehr über die Inhalte dieses GA-Releases zu erfahren. Wenn Sie noch kein Databricks-Kunde sind, registrieren Sie sich für eine kostenlose Testversion mit einem Premium- oder Enterprise-Workspace.

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.