

Was ist Delta Lake?
Delta Lake ist ein formatoffener Speicher-Layer, der die in Ihrem Data Lake für Leistung, Sicherheit und Zuverlässigkeit sorgt – sei es im Streaming- oder im Batch-Betrieb. Dabei ersetzt Delta Lake vorhandene Datensilos durch ein zentrales Repository für strukturierte, teilstrukturierte und unstrukturierte Daten und bildet so die Grundlage für ein kostengünstiges und hochgradig skalierbares Lakehouse.

Hochwertige und zuverlässige Daten
Implementieren Sie eine belastbare Single Source of Truth für alle Ihre Daten (inklusive Echtzeit-Streams). So können Ihre Teams jederzeit mit den aktuellsten Daten arbeiten. Dank Unterstützung für ACID-Transaktionen und Schemaerzwingung bietet Delta Lake das Mehr an Zuverlässigkeit, das herkömmlichen Data Lakes fehlt. So können Sie aussagekräftige Erkenntnisse aus Ihren Daten unternehmensweit skalieren, Analysen und weitere Datenprojekte direkt für Ihren Data Lake ausführen und die Time-to-Insight sage und schreibe um den Faktor 50 beschleunigen.

Offener und sicherer Datenaustausch
Delta Sharing ist das branchenweit erste offene Protokoll für die sichere Datenfreigabe. Mit Delta Sharing wird der Datenaustausch mit anderen Organisationen zum Kinderspiel – ganz gleich, wo die Daten gespeichert sind. Die native Integration mit dem Unity-Katalog gestattet organisationsübergreifend das zentrale Verwalten und Auditing freigegebener Daten. So können Sie Datenbestände vertrauensvoll mit Lieferanten und Partnern teilen, damit Unternehmensabläufe besser koordiniert und Sicherheits- und Compliance-Anforderungen zuverlässig erfüllt werden. Die Integration mit führenden Lösungen und Plattformen ermöglichen es Ihnen, freigegebene Daten aus den Tools Ihrer Wahl zu visualisieren, abzufragen und anzureichern und eine ordnungsgemäße Governance zu gewährleisten.

Performance in Lichtgeschwindigkeit
Dank Apache Spark™ unter der Haube liefert Delta Lake Skalierung und Verarbeitung in rasanter Geschwindigkeit. Und weil Delta Lake mit leistungsstarken Funktionen optimiert wurde – beispielsweise einer Indizierung –, werden ETL-Workloads nach Angaben unserer Kunden jetzt um bis zu 48 % schneller ausgeführt.

Offen und agil
Alle Daten in Delta Lake werden im offenen Apache Parquet-Format gespeichert. So können die Daten von jedem kompatiblen Reader gelesen werden. Auch die APIs sind offen und kompatibel mit Apache Spark. Mit Delta Lake auf Databricks erhalten Sie Zugang zu einem riesigen Open-Source-Ökosystem und vermeiden technologische Abhängigkeiten Ihrer Daten von proprietären Formaten („Lock-in“).

Automatisiertes und vertrauenswürdiges Data Engineering
Mit Delta Live Tables wird das Data Engineering zum Kinderspiel: Noch nie war es so einfach, Daten-Pipelines für aktuelle und hochwertige Daten in Delta Lake zu erstellen und zu verwalten. Delta Live Tables unterstützt Data-Engineering-Teams beim Erstellen des Lakehouse-Unterbaus. Die Lösung vereinfacht die ETL-Entwicklung und -Verwaltung durch deklarative Pipeline-Entwicklung, höhere Datenzuverlässigkeit und einen Produktionsbetrieb im Cloud-Maßstab.

Sicherheit und Governance im großen Maßstab
Delta Lake erlaubt eine hochdifferenzierte Zugriffssteuerung für die Daten-Governance – eine Funktionalität, die bei Data Lakes normalerweise nicht gegeben ist – und trägt so zur Risikominderung bei. Daten in Ihrem Data Lake können schnell und sorgfältig geändert werden, um Regelungen wie etwa die DSGVO einzuhalten und durch Audit-Protokollierung eine bessere Daten-Governance zu gewährleisten. Diese Funktionen sind in Databricks als Bestandteil des Unity-Katalogs – des ersten Multicloud-Datenkatalogs für das Lakehouse – nativ integriert und erweitert.
Anwendungsfälle

BI für Ihre Daten
Führen Sie Business-Intelligence-Workloads direkt auf Ihrem Data Lake aus, um neue Echtzeitdaten sofort für die Abfrage durch Data Analysts bereitzustellen und aktuellste Erkenntnisse zu Ihrem Unternehmen zu gewinnen. Mit Delta Lake können Sie eine Multicloud-Lakehouse-Architektur betreiben, die Data-Warehousing-Leistung zum günstigen Data-Lake-Preis bietet. Profitieren Sie von einem bis zu 6-mal besseren Preis-Leistungs-Verhältnis für SQL-Workloads im Vergleich zu herkömmlichen Cloud-Data-Warehouses.

Batch und Streaming zusammenführen
Vergessen Sie komplexe und redundante Systeme oder betriebliche Herausforderungen: Führen Sie Batch- und Streaming-Operationen ganz unkompliziert auf derselben vereinfachten Architektur aus. In Delta Lake ist eine Tabelle sowohl Batch-Tabelle als auch Streaming-Quelle und -Senke. Ob Erfassung von Streaming-Daten, zeitlich versetzter Batch-Abgleich oder interaktive Abfragen: Alles funktioniert von Anfang an erwartungsgemäß und mit direkter Integration in Spark Structured Streaming.

Gesetzliche Anforderungen erfüllen
Delta Lake beseitigt sämtliche Probleme beim Erfassen fehlerhaft formatierter Daten, beim Compliance-bedingten Löschen von Daten und beim Ändern von Daten für die Datenänderungserfassung (Change Data Capture, CDC). Dank Unterstützung von ACID-Transaktionen an Ihrem Data Lake sorgt Delta Lake dafür, dass jede Operation entweder vollständig abgeschlossen oder – für spätere Wiederholungen – vollständig zurückgenommen wird, ohne dass neue Daten-Pipelines erstellt werden müssten. Außerdem zeichnet Delta Lake alle vergangenen Transaktionen an Ihrem Data Lake auf. Das macht den Zugriff auf frühere Versionen Ihrer Daten zum Kinderspiel und erlaubt die zuverlässige Erfüllung von Compliance-Standards wie DSGVO und CCPA.
Netzwerk zur Datenaufnahme
Schnelles und zuverlässiges Einlesen von Daten aus allen Anwendungen, Datenbanken und Dateispeichern in Delta Lake – dank nativer Konnektoren
Kunden

„Dank Databricks konnten wir unsere Time-to-Market deutlich reduzieren und bekamen genau die Analysefunktionen und den betrieblichen Schub, die wir brauchten, um den aktuellen Anforderungen im Gesundheitswesen gerecht zu werden.“
– Peter James, Chief Architect, Healthdirect Australia

„Allein durch den Einsatz von Databricks und Delta Lake konnten wir Daten bereits umfassend demokratisieren und gleichzeitig die Kosten für die Ausführung von Produktions-Workloads um 60 % senken. So haben wir mehrere Millionen Dollar eingespart.“
– Steve Pulec, Chief Technology Officer, YipitData

„Delta Lake bietet ACID-Funktionen, mit denen sich der Betrieb von Daten-Pipelines vereinfachen lässt. Dadurch konnten wir die Zuverlässigkeit der Pipelines und die Datenkonsistenz verbessern. Gleichzeitig ermöglichen Funktionen wie Caching und Auto-Indizierung einen effizienten und leistungsstarken Zugriff auf die Daten.“
– Lara Minor, Senior Enterprise Data Manager, Columbia Sportswear

„Dank Delta Lake konnten wir die Verwaltung unserer Daten-Pipelines verschlanken. Das hat zur Senkung der Betriebskosten beigetragen und gleichzeitig die Time-to-Insight für nachgelagerte Analytik und Data Science beschleunigt.“
– Parijat Dey, Assistant Vice President of Digital Transformation and Technology, Viacom18