Minimieren Sie die Kosten und die Komplexität der cloudübergreifenden Datenfreigabe
von Tianyi Huang, Giselle Goicochea, Philip Jones und Harshal Brahmbhatt
Delta Sharing hat sich zu OpenSharing weiterentwickelt, dem ersten offenen, herstellerneutralen Protokoll für den sicheren Austausch von AI-Assets, einschließlich Agenten-Skills, AI-Modellen und unstrukturierten Daten. Lesen Sie die Ankündigung.
Besonderer Dank gilt Phillip Jones, Senior Product Manager, und Harshal Brahmbhatt, Systems Engineer bei Cloudflare, für ihre Beiträge zu diesem Blog.
Unternehmen aller Branchen möchten ihre Daten und AI-Assets auf einheitliche Weise austauschen, unabhängig von Clouds oder Regionen. Viele Unternehmen tun sich jedoch nach wie vor schwer damit, Daten mit Kunden, Teams und Partnern zu teilen. Sie sehen sich mit Plattformkompatibilitätsproblemen und -einschränkungen, hohen Egress-Kosten sowie mangelnder Governance und Sicherheit konfrontiert. Databricks und die Linux Foundation haben Delta Sharing als ersten offenen Ansatz für den sicheren Datenaustausch entwickelt. Kunden nutzen Delta Sharing, um Daten einfach und sicher über Plattformen, Clouds und Regionen hinweg auszutauschen, ohne dass eine Replikation erforderlich ist.
Heute freuen wir uns, die Public Preview von Delta Sharing mit Cloudflare R2-Integration anzukündigen. Sie unterstützt Kunden beim Datenaustausch über Clouds und Regionen hinweg, um Egress-Kosten zu sparen. Databricks unterstützt jetzt Delta Sharing über Cloudflare R2, das verteilte Object-Storage-Angebot von Cloudflare ohne Egress-Gebühren. Gemeinsame Kunden können nun von wegfallenden Egress-Gebühren profitieren, ohne kostspielige Replikation über Regionen hinweg und ohne Vendor-Lock-in.
Databricks ist eine Partnerschaft mit Cloudflare eingegangen, um Unternehmen dabei zu helfen, ihre Daten auf einheitliche Weise mit Kunden und Partnern zu teilen, unabhängig von Cloud oder Region. Cloudflare R2 ist ein von Cloudflare angebotener verteilter Speicher ohne Egress-Gebühren, der es Kunden ermöglicht, die aktuellsten Datensätze mit ihren Partnern, Lieferanten und Geschäftsbereichen zu teilen, ohne Kompromisse bei Sicherheit und Datenschutz einzugehen.
Matthew Prince, Mitbegründer und CEO von Cloudflare, erklärte den Wert der Partnerschaft: „Die Kombination aus dem riesigen globalen Netzwerk und dem gebührenfreien Speicher von Cloudflare sowie den leistungsstarken Sharing- und Verarbeitungsfunktionen von Databricks bietet unseren gemeinsamen Kunden die schnellsten, sichersten und kostengünstigsten Funktionen für den weltweiten Datenaustausch.“
Durch die Nutzung von Delta Sharing mit Cloudflare R2 haben Kunden nun die volle Kontrolle darüber, wohin sie ihre Daten und AI (Live-Datensätze, Modelle und Notebooks) verschieben und wie sie diese nutzen. Sie können die neuesten Versionen über Plattformen, Clouds und Regionen hinweg austauschen – ohne Replikation, ohne Egress-Kosten, ohne Vendor-Lock-in und ohne Kompromisse bei Sicherheit und Governance.
„Die Kombination aus dem riesigen globalen Netzwerk und dem gebührenfreien Speicher von Cloudflare sowie den leistungsstarken Sharing- und Verarbeitungsfunktionen von Databricks bietet unseren gemeinsamen Kunden die schnellsten, sichersten und kostengünstigsten Funktionen für den weltweiten Datenaustausch.“ — Matthew Prince, CEO & Mitbegründer von Cloudflare
„Delta Sharing bietet das erste offene Protokoll für den Datenaustausch über verschiedene Computing-Plattformen, Clouds und Regionen hinweg. Wir freuen uns darauf, wie dies den offenen Austausch vorantreiben und all unseren Kunden helfen wird, einfacher zusammenzuarbeiten“, erklärte Matei Zaharia, Mitbegründer und CTO bei Databricks, über die Partnerschaft mit Cloudflare.
„Delta Sharing bietet das erste offene Protokoll für den Datenaustausch über verschiedene Computing-Plattformen, Clouds und Regionen hinweg. Wir freuen uns darauf, wie dies den offenen Austausch vorantreiben und all unseren Kunden helfen wird, einfacher zusammenzuarbeiten.“ — Matei Zaharia, Mitbegründer und CTO bei Databricks
In den letzten 15 Jahren hat sich die Finanzbranche durch die Einführung der Blockchain-Technologie und die branchenübergreifende Nutzung von Kryptowährungen grundlegend verändert. Diese Entwicklung hat eine ständig wachsende Menge an Transaktionsdaten aus öffentlichen Blockchains hervorgebracht, die Investoren und Tradern wichtige Echtzeit-Erkenntnisse liefern.
Allium ist ein Databricks-Kunde, der eine einfache Datenplattform mit schnellen und präzisen Blockchain-Daten bereitstellt. Sie helfen Kunden – von Finanzinstituten bis hin zu Krypto-Unternehmen –, das volle Potenzial ihrer Daten auszuschöpfen. Allium bietet eine dedizierte Dateninfrastruktur und Produkte wie verwaltete Blockchain-Datenbanken, angereicherte Datenschemata und Echtzeit-Benachrichtigungsfunktionen. Sie sind führend in diesem Bereich und bedienen 15 Blockchains, darunter EVMs und Bitcoin, über 100 Schemata und mehr als 250 TB an Daten, um Krypto-Anwendungen aller Art zu unterstützen – von der Buchhaltung und Wirtschaftsprüfung für Trader bis hin zur Filterung von Wash-Trading für NFT-Marktplätze. Allium holt seine Kunden dort ab, wo sie sind – in ihrer eigenen Datenumgebung. Dies führte im letzten Quartal zu einem monatlichen Datentransfer von mehr als 1 PB, und dieses Volumen steigt nach der jüngsten Krypto-Erholung, die durch den ETF-Optimismus angeheizt wurde, weiter an.
Während der massive Anstieg des Datentransfervolumens zum schnellen Geschäftswachstum von Allium beigetragen hat, stellte er das Unternehmen auch vor eine große finanzielle Herausforderung: Wie lässt sich eine kosteneffiziente Datenspeicher- und Sharing-Lösung aufbauen, die den Anforderungen der Kunden entspricht? Konkret: Wie können sie Daten mit ihren Kunden an jedem beliebigen Ort – über Clouds und Regionen hinweg – teilen und gleichzeitig die teuren Egress-Kosten der Cloud-Anbieter minimieren?
Vor der Einführung der gemeinsamen Lösung aus Delta Sharing und Cloudflare R2 hatte Allium andere Plattformen implementiert, diese jedoch als unerschwinglich teuer empfunden. Die geschätzten Kosten beliefen sich auf 53.800 $ monatlich für einen Egress von 1 Petabyte, was sich auf etwa 645.000 $ jährlich summierte.
„Wir haben anfangs das Replikationssystem von Snowflake genutzt, aber es fehlte uns an Kontrolle und es war teuer. Bei Snowflake müssen wir Daten in die jeweilige Region replizieren, um sie dort bereitzustellen. Dadurch entstehen automatisch hohe Speicherkosten sowie Egress-Kosten. Diese Ausgaben steigen bei jeder operativen Schemaänderung, was bei unserer Größenordnung häufig vorkommt, exponentiell an“, erklärt Ethan Chan, Mitbegründer und CEO von Allium.
„Bei Snowflake müssen wir Daten in die jeweilige Region replizieren, um sie dort bereitzustellen. Dadurch entstehen automatisch hohe Speicherkosten sowie Egress-Kosten. Diese Ausgaben steigen bei jeder operativen Schemaänderung, was bei unserer Größenordnung häufig vorkommt, exponentiell an.“ — Ethan Chan, Mitbegründer und CEO von Allium
Die Kombination aus Delta Sharing und Cloudflare R2 bietet Allium eine kostengünstige und sichere Datenschnittstelle, ohne dass kostspielige und komplexe Replikationen oder ein Vendor-Lock-in erforderlich sind. Allium hat nun dank der Multi-Cloud-Unterstützung von Delta Sharing die Kontrolle darüber, wohin sie ihre Daten verschieben und wie sie diese nutzen, und hat ihren Cloud-Speicher mit Cloudflare R2 konsolidiert, um ihre Data-Sharing-Plattform der nächsten Generation aufzubauen.
Chan erklärt: „Die Kombination aus Delta Sharing und Cloudflare R2 ermöglicht es uns, Daten zuverlässig und kostengünstig an unsere Kunden zu liefern. Wir stellen unseren Kunden Blockchain-Daten von höchster Qualität in ihrer bevorzugten Umgebung bereit und minimieren gleichzeitig unsere Speicher- und Egress-Kosten, wodurch wir bis zu 645.000 $ pro Jahr einsparen. Zudem gibt uns dies die nötige Kontrolle und Sicherheit, um unsere Angebote nachhaltig zu skalieren.“
Allium nutzt diese Integration zur Maximierung der Kosteneinsparungen (siehe Diagramm unten), indem die Blockchain-Daten mithilfe von Delta UniForm (Delta Lake Universal Format) persistent gespeichert werden – eine nahtlose Methode zur Vereinheitlichung von Parquet-Tabellenformaten ohne zusätzliche Kopien. Allium aktiviert Apache Iceberg- und Delta-Connectors, die die in Cloudflare R2 gespeicherten Daten lesen. Sie implementieren außerdem Delta Sharing, um ihre Daten nahtlos und sicher über Regionen und Plattformen hinweg auszutauschen – und das alles ohne Egress-Kosten für ausgehende Transfers.
„Die Kombination aus Delta Sharing und Cloudflare R2 ermöglicht es uns, Daten zuverlässig und kostengünstig an unsere Kunden zu liefern. Wir stellen unseren Kunden Blockchain-Daten von höchster Qualität in ihrer bevorzugten Umgebung bereit und minimieren gleichzeitig unsere Speicher- und Egress-Kosten, wodurch wir bis zu 645.000 $ pro Jahr einsparen.“ — Ethan Chan, Mitbegründer und CEO von Allium

Allium hat vor Kurzem sein Produktangebot erweitert, um seine Ethereum Realtime Data zu teilen, die jetzt auf dem Databricks Marketplace gelistet sind. Dieser Datensatz unterstützt Nutzer im Kryptowährungsbereich beim Teilen wertvoller Erkenntnisse über die Dynamik von Ethereum. Er ist käuflich erwerbbar und enthält verschiedene Details zur Blockchain von Ethereum, darunter Smart Contracts, NFT- und dezentrale Finanzmärkte (DeFi) und mehr.
Ein weiteres Beispiel für einen Kundentyp, der von der Nutzung von Delta Sharing und Cloudflare R2 profitieren kann, ist ein Datenaggregator, der ein häufig verwendetes „Hub-and-Spoke“-Architekturmuster nutzt. Ein Datenaggregator ist darauf spezialisiert, Daten aus verschiedenen Quellen zu sammeln und zu einem einheitlichen, konsistenten Datensatz zusammenzuführen. Ein „Hub-and-Spoke“-Szenario für den Datenaustausch ist als One-to-Many definiert, bei dem eine Organisation Daten mit vielen Kunden teilt. Diese Datenaggregatoren sind darauf spezialisiert, Datensätze zu sammeln, zusammenzuführen und mit verschiedenen Kunden über unterschiedliche Regionen, Clouds und Plattformen hinweg zu teilen. Diese Organisationen stehen jedoch vor einer gemeinsamen Herausforderung: Wie lässt sich der Datenaustausch kostengünstig und vorhersehbar skalieren? Idealerweise können sie von Skaleneffekten profitieren, sodass bei steigender Kundenzahl die Kosten für das Teilen nur geringfügig steigen. Darüber hinaus möchten sie nicht davon abhängig sein, dass ihre Kunden zur Kosteneinsparung eine Datenreplikation einführen, sondern die Kostenkontrolle durch einen vorhersagbaren Ansatz selbst in der Hand behalten.
Zu den Branchen, die typischerweise Datenaggregatoren nutzen, gehören Finanzdienstleistungen, das Gesundheitswesen und die Life Sciences sowie Medien und Unterhaltung. Das Teilen von Daten trägt dazu bei, geschäftskritische Anforderungen wie Entscheidungsfindung, Marktanalysen, Forschung und die Unterstützung des allgemeinen Geschäftsbetriebs voranzutreiben. Beispielsweise spielen Datenaggregatoren eine entscheidende Rolle beim Betrieb verschiedener Finanzanwendungen und -dienste wie Budgetierungs-Apps, Investmentplattformen, Kreditlösungen und mehr, indem sie sicher auf die Finanzinformationen der Nutzer zugreifen und diese analysieren. In der folgenden Tabelle finden Sie einige branchenspezifische Anwendungsfälle.
| Branche | Anwendungsfall für Datenaggregatoren | Details zum Anwendungsfall |
|---|---|---|
| Medien und Unterhaltung | Inhaltsarchivierung | Aggregatoren können genutzt werden, um Inhalte systematisch zu archivieren. Dies erleichtert es Medienunternehmen, ihre Inhalte mit Partnern und Kunden zu teilen, damit diese auf historische Inhalte zugreifen und sie für neue Zielgruppen oder Plattformen wiederverwenden können. |
| Finanzdienstleistungen | Bonitätsprüfung und Risikobewertung | Datenaggregatoren bieten Einblicke in das Finanzverhalten der Nutzer, wie z. B. Ausgabenmuster, Einkommensniveau und Schuldenverpflichtungen. Diese Informationen werden geteilt und können von Kreditgebern und Finanzinstituten genutzt werden, um das Kreditrisiko zu bewerten und Kreditentscheidungen auf der Grundlage der Gesamtbonität zu treffen. |
| Gesundheitswesen und Life Sciences | Kommerzielle Effektivität | Datenaggregatoren im Gesundheitswesen können klinische Verschreibungsdaten für Krankenhäuser, Gesundheitsdienstleister, Pharmaunternehmen und Forschungseinrichtungen zur Analyse und vielfältigen Nutzung bereitstellen. Dies könnte die Identifizierung neuer Märkte, die Messung der Dynamik von Vertriebskanälen oder Kaufmuster in Apotheken oder Krankenhäusern umfassen. |
Die Kosten für den Cloud-Datenexport (Egress-Kosten) skalieren im Allgemeinen proportional zur Menge der aus dem freigegebenen Datensatz abgefragten Daten. Das folgende Diagramm zeigt, dass mit der Anzahl der Abfragen (und dem Datenvolumen) auch die Egress-Kosten steigen. Kunden können diesen Ansatz nutzen, um verschiedene Speicherlösungen zu vergleichen und das Kosten-Nutzen-Verhältnis der Lösung von Cloudflare R2 zu quantifizieren, bei der keine Egress-Kosten anfallen. Wie das folgende Diagramm verdeutlicht, kann die Lösung von Cloudflare R2 im Vergleich zu anderen Cloud-Speicherlösungen zu erheblichen Einsparungen führen.
Basierend auf Standard-Preisannahmen zeigt die folgende Analyse beispielsweise, dass Datenbestände, deren Datenübertragungsaktivitäten monatlich 26 % über verschiedene Clouds hinweg oder 85 % über Regionen hinweg überschreiten, von erheblichen monatlichen Einsparungen sowohl bei den Speicher- als auch bei den Egress-Kosten profitieren können.1

Delta Sharing und Cloudflare R2 sind jetzt in der Public Preview verfügbar. Um die gemeinsame Lösung zu implementieren, müssen Sie nicht alle Ihre Daten zu Cloudflare R2 migrieren (siehe den entsprechenden Blogbeitrag Architecting Global Data Collaboration with Delta Sharing). Sie müssen die freigegebenen Daten nur einmal in drei einfachen Schritten nach R2 replizieren (siehe Diagramm unten):

Weitere Einzelheiten finden Sie in der technischen Dokumentation. Sie können unserem Team auch Feedback unter datacollaboration@databricks.com senden.
Durch die Nutzung von Delta Sharing mit Cloudflare R2 profitieren Sie nun von einem neuen Ansatz zur plattform-, cloud- und regionsübergreifenden Freigabe von Daten und KI – ohne Egress-Kosten, ohne Vendor-Lock-in und ohne Kompromisse bei Sicherheit und Governance.
Erfahren Sie mithilfe der neuesten Ressourcen mehr darüber, wie Sie Delta Sharing in Ihre Strategie zur Datenzusammenarbeit integrieren können:
1 Die Berechnung der Kosteneinsparungen basierte auf der Annahme, dass monatlich 10 % der Daten aktualisiert werden und die Daten zu Freigabezwecken nach Cloudflare R2 repliziert werden, während die Originalkopie in S3 verbleibt.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.