Direkt zum Hauptinhalt

Die drei wichtigsten Anwendungsfälle für den Datenaustausch mit Delta Sharing

Data Intelligence Platforms

Published: January 14, 2022

Produkt7 min de leitura

Update: Delta Sharing ist jetzt allgemein auf AWS und Azure verfügbar.

 

Das Data Sharing ist zu einer wesentlichen Komponente für die Steigerung des Geschäftswerts geworden, da Unternehmen jeder Größe Daten sicher mit ihren Kunden, Lieferanten und Partnern austauschen möchten. Laut einer aktuellen Gartner-Umfrage werden Organisationen, die das Data Sharing fördern, ihre Mitbewerber bei den meisten Geschäftswertmetriken übertreffen.

Die bestehenden Data Sharing-Lösungen weisen verschiedene Herausforderungen auf, die den Datenaustausch innerhalb oder zwischen Organisationen einschränken und verhindern, dass der wahre Wert von Daten ausgeschöpft wird. In den letzten 30 Jahren gab es Data Sharing-Lösungen in zwei Formen: eigenentwickelte Lösungen oder kommerzielle Lösungen von Drittanbietern. Bei eigenentwickelten Lösungen basierte der Data Sharing auf Legacy-Technologien wie SFTP und REST-APIs, deren Verwaltung, Wartung oder skalieren mit neuen Datenanforderungen schwierig geworden ist. Kommerzielle Lösungen für das Data Sharing hingegen ermöglichen nur den Austausch von Daten mit anderen, die dieselbe Plattform nutzen, was das Data Sharing einschränkt und kostspielig sein kann.

Diese Herausforderungen haben uns bei Databricks dazu bewogen, die Zukunft des Data Sharing als offen zu überdenken. Auf dem Data + AI Summit 2021 haben wir Delta Sharing angekündigt, das weltweit erste offene Protokoll für den sicheren und skalierbaren Echtzeit-Datenaustausch. Unsere Vision hinter Delta Sharing ist es, eine Lösung für das Data Sharing zu entwickeln, die die sichere Live-Datenfreigabe zwischen Organisationen vereinfacht, unabhängig von der Plattform, auf der die Daten gespeichert oder genutzt werden. Mit Delta Sharing können Organisationen große vorhandene Datasets, die auf den Formaten Apache Parquet und Delta Lake basieren, einfach freigeben, ohne Daten verschieben zu müssen. Dies gibt Datenteams die Flexibilität, die freigegebenen Daten mit den Tools ihrer Wahl abzufragen (Query), zu visualisieren und anzureichern.

Delta-Sharing-Ökosystem
Delta-Sharing-Ökosystem

Seit dem Start der privaten Preview haben wir ein enormes Engagement von Kunden aus allen Branchen festgestellt, die zusammenarbeiten und eine zweckmäßige und für alle offene Lösung für Data Sharing entwickeln. Kunden haben bereits Petabytes an Daten mit Delta Sharing geteilt. Auch das Partner-Ökosystem von Delta Sharing ist seit der Ankündigung gewachsen. Sowohl kommerzielle als auch Open Source-Clients wie PowerBI, Pandas und Apache Spark™ verfügen über integrierte Delta-Sharing-Konnektoren, und viele weitere werden in Kürze veröffentlicht.

In Gesprächen mit unseren Kunden haben wir drei gängige Anwendungsfälle identifiziert: Datenkommerzialisierung, Data Sharing mit externen Partnern und Kunden und Data Sharing zwischen Geschäftsbereichen. In diesem Blogpost gehen wir auf die wichtigsten Anwendungsfälle ein und teilen einige der Erkenntnisse, die wir von unseren Kunden hören.

Anwendungsfall 1: Datenkommerzialisierung

Kundenbeispiel: Ein Anbieter von Finanzdaten war daran interessiert, betriebliche Ineffizienzen bei seinen alten Datenbereitstellungs-Channels zu reduzieren und es den Endkunden zu erleichtern, nahtlos auf große neue Datasets zuzugreifen.

Herausforderungen

Der Datenanbieter hat kürzlich neue, große Text-Datasets eingeführt, wobei regelmäßig Daten im Terabyte-Bereich erzeugt werden. Die Bereitstellung eines schnellen und einfachen Zugriffs auf diese großen Datasets war für den Datenanbieter eine ständige Herausforderung, da die Datasets für die Datenempfänger nur schwer in großen Mengen zu erfassen waren. Mit der aktuellen Lösung musste der Anbieter Daten auf externe SFTP-Server replizieren, was viele potenzielle Fehlerquellen aufwies und die Latenz erhöhte.

Auf der Empfängerseite war die Aufnahme und Verwaltung dieser Daten aufgrund ihrer Größe und ihrer Scales nicht einfach. Datenempfänger mussten eine Infrastruktur für die Ingestion einrichten, was zusätzlich Genehmigungen von IT- und Datenbankadministratoren erforderte und zu Verzögerungen von Wochen oder länger führte, bevor der Endnutzer die Daten nutzen konnte.

Wie Delta Sharing hilft

Mit Delta Sharing kann der Datenanbieter jetzt große Datensätze nahtlos freigeben und die Skalierbarkeitsprobleme mit den SFTP-Servern überwinden. Auf diese großen, terabytegroßen Text-Datasets, die in Batches auf SFTP extrahiert werden mussten, kann jetzt über Delta Sharing in Echtzeit zugegriffen werden. Der Anbieter kann nun einfach den Zugriff für die Datenempfänger gewähren und verwalten, anstatt die Daten zu replizieren, wodurch Komplexität und Latenz reduziert werden. Mit der verbesserten Skalierbarkeit verzeichnet der Datenanbieter einen deutlichen Anstieg der Kundenakzeptanz, da die Datenkonsumenten Zugriff auf Live-Daten haben, anstatt die Datensätze regelmäßig abrufen zu müssen.

Anwendungsfall 2: Data Sharing für externe Partner/Kunden

Kundenbeispiel: Ein großer Einzelhändler musste Produktdaten (z. B. Verkaufszahlen für Müsli-Artikelnummern) einfach für Partner freigeben, ohne sich mit diesen auf derselben Data Sharing- oder Cloud-Computing-Plattform zu befinden. Der Einzelhändler wollte partitionierte Datasets basierend auf Artikelnummern erstellen, damit Partner in Echtzeit einfach auf die relevanten Daten zugreifen können.

Herausforderungen

Der Einzelhändler nutzte selbst entwickelte SFTP und APIs, um Daten mit Partnern auszutauschen, was unüberschaubar geworden war. Die Wartung und der Betrieb dieser Lösung erforderten erhebliche Entwicklungsressourcen. Der Einzelhändler prüfte andere Data Sharing, aber diese erforderten, dass seine Partner auf derselben Plattform sein mussten, was für alle Beteiligten aufgrund von Kostenerwägungen und des betrieblichen Aufwands der Datenreplikation über verschiedene Regionen hinweg nicht machbar war.

Wie Delta Sharing hilft

Für den Einzelhändler war Delta Sharing eine vielversprechende Möglichkeit, Daten effizient über Cloud-Plattformen hinweg zu verwalten und zu teilen, ohne sie über Regionen hinweg replizieren zu müssen. Mithilfe von Delta Sharing konnte der Einzelhändler Data Shares für seine über 100 Partner einfach verwalten, erstellen und prüfen. Für jeden Partner kann der Einzelhändler einfach Partitionen erstellen und die Daten sicher freigeben, ohne auf derselben Datenplattform sein zu müssen. Delta Sharing erleichtert nicht nur die Verwaltung der Freigaben, sondern minimiert auch die Kosten, da der Datenanbieter nur die Data-Egress-Kosten vom zugrunde liegenden Cloud-Anbieter zu tragen hat und keine compute charges für das Data Sharing zahlen muss.

Anwendungsfall 3: Interne Data Sharing mit dem Geschäftsbereich

Kundenbeispiel: Ein Hersteller möchte, dass Data Scientists in seinen mehr als 15 Abteilungen und Tochtergesellschaften Zugriff auf berechtigungsgesteuerte Daten haben, um Vorhersagemodelle zu erstellen. Der Hersteller möchte dies aufgrund der Datensensibilität mit starken Governance-, Kontroll- und Audit-Funktionen umsetzen.

Herausforderungen

Der Hersteller verfügt über viele Data-Lake-Bereitstellungen, was es für Teams im gesamten Unternehmen schwierig macht, sicher und effizient auf die Daten zuzugreifen. Die Verwaltung all dieser Daten im gesamten Unternehmen erfolgt auf maßgeschneiderte Weise, ohne strenge Kontrollen über Berechtigungen und Governance. Zudem sind viele dieser Datasets Petabytes groß, was Bedenken hinsichtlich der skalierbaren Freigabe dieser Daten aufwirft. Das Management zögerte, Daten ohne die richtigen Datenzugriffskontrollen und Governance zu teilen. Infolgedessen verpasste der Hersteller einzigartige Gelegenheiten, Mehrwert zu erschließen und den Data Science-Teams weitere einzigartige Einblicke zu ermöglichen.

Wie Delta Sharing hilft

Mit Delta Sharing hat der Hersteller jetzt die Möglichkeit, Daten über verschiedene interne Entitäten hinweg zu verwalten und freizugeben, ohne sie verschieben zu müssen. Mit Delta Sharing kann der Hersteller den Zugriff auf freigegebene Daten an einer zentralen Stelle gewähren, nachverfolgen und prüfen. Ohne diese großen Datensätze verschieben zu müssen, braucht sich der Hersteller nicht um die Verwaltung verschiedener Dienste zur Replikation der Daten zu kümmern. Mit Delta Sharing konnte der Hersteller Daten viel schneller als erwartet sicher freigeben, was unmittelbare Vorteile mit sich brachte, da die Endbenutzer mit einzigartigen Datasets arbeiten konnten, die zuvor isoliert waren. Der Hersteller freut sich auch darauf, den integrierten Delta Sharing-Connector mit PowerBI zu nutzen, dem Tool seiner Wahl für die Datenvisualisierung.

Erste Schritte mit Delta Sharing

Delta Sharing vereinfacht die Datenfreigabe für andere Organisationen, unabhängig davon, welche Datenplattformen diese verwenden. Wir freuen uns, die erste Lösung vorzustellen, die eine offene und sichere Lösung ohne herstellerspezifische Abhängigkeiten bietet, mit der Datenteams Daten einfach organisationsübergreifend teilen und Datenschutz, Sicherheit und Compliance verwalten können.

Um Delta Sharing auf Databricks auszuprobieren, wenden Sie sich an Ihren Databricks Account Executive oder registrieren Sie sich, um Early Access zu erhalten. Für viele unserer Kunden hat Governance bei dem Teilen von Daten höchste Priorität. Delta Sharing ist nativ in Unity Catalog integriert, was es Kunden ermöglicht, differenzierte Governance- und Sicherheitskontrollen hinzuzufügen und Daten einfach und sicher intern oder extern freizugeben. Sobald Sie Unity Catalog in Ihrem Databricks-Account aktiviert haben, probieren Sie die nachstehenden Schnellstart-Notebooks aus, um mit Delta Sharing auf Databricks zu starten:

  1. Erstellung einer Freigabe und Gewährung von Zugriff für einen Datenempfänger
  2. Verbindung mit einer Freigabe und Zugriff auf die Daten

 

Um die Open-Source-Version von Delta Sharing auszuprobieren, befolgen Sie die Anweisungen unter delta.io/sharing.

Haben Sie Interesse, am Open-Source-Projekt Delta Sharing mitzuwirken?

Wir freuen uns über Ihr Feedback zum Delta Sharing-Projekt sowie über Ideen oder Beiträge für neue Features. Engagieren Sie sich in der Delta-Sharing-Community, indem Sie den Anweisungen hier folgen.

Verpassen Sie keinen Beitrag von Databricks

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Was kommt als Nächstes?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks