Direkt zum Hauptinhalt

Delta Live Tables

Zuverlässige Datenpipelines leicht gemacht

Delta Live Tables (DLT) ist ein deklaratives ETL-Framework für die Databricks Lakehouse-Plattform, die Datenteams dabei hilft, Streaming- und Batch-ETL kostengünstig zu vereinfachen. Definieren Sie einfach die Transformationen, die mit Ihren Daten durchgeführt werden sollen, und lassen Sie DLT-Pipelines automatisch die Orchestrierung von Aufgaben, das Cluster-Management, das Monitoring, die Datenqualität und die Fehlerbehandlung verwalten.

DLT flow

data ingestion

Effiziente Datenaufnahme

Der Aufbau produktionsbereiter ETL-Pipelines im Lakehouse beginnt mit der Datenaufnahme. DLT ermöglicht eine einfache und effiziente Datenaufnahme für Ihr gesamtes Team – vom Data Engineer und Python-Entwickler bis hin zum Data Scientist und SQL-Analysten. Laden Sie mit DLT Daten aus jeder Datenquelle, die von Apache Spark™ in Databricks unterstützt wird. 

„Ich liebe Delta Live Tables, weil es über die Fähigkeiten von Auto Loader hinausgeht und das Lesen von Dateien noch einfacher macht. Ich war positiv überrascht, als wir in 45 Minuten eine Streaming-Pipeline einrichten konnten.“

– Kahveh Saramout, Senior Data Engineer bei Labelbox

data transformation

Intelligente, kostengünstige Datentransformationen

Aus nur wenigen Codezeilen ermittelt DLT die effizienteste Methode zum Erstellen und Ausführen Ihrer Streaming- oder Batch-Datenpipelines und optimiert dabei das Preis-Leistungs-Verhältnis (fast das Vierfache der Databricks-Baseline) bei gleichzeitiger Minimierung der Komplexität.

„Mit Delta Live Tables ist es unserem Team gelungen, beim Verwalten der Daten [im Umfang von mehreren Billionen Datensätzen] viel Zeit und Aufwand einzusparen und unsere Kompetenzen im Bereich KI-Engineering fortlaufend zu verbessern. Databricks revolutioniert die ETL- und Data-Warehouse-Märkte.“

– Dan Jeavons, General Manager Data Science bei Shell

simple pipeline

Einfache Einrichtung und Verwaltung von Pipelines

DLT- Pipelines vereinfachen die ETL-Entwicklung, indem sie praktisch die gesamte inhärente betriebliche Komplexität automatisieren. Mit DLT-Pipelines können sich Engineers auf die Bereitstellung hochwertiger Daten konzentrieren, anstatt Pipelines zu betreiben und zu verwalten. DLT verarbeitet folgende Aspekte automatisch:

„Komplexe Architekturen wie dynamische Schemaverwaltung und zustandsorientierte/zustandslose Transformationen waren mit einer klassischen Multi-Cloud-Data-Warehouse-Architektur schwierig zu implementieren. Sowohl Data Scientists als auch Data Engineers können solche Änderungen jetzt mithilfe skalierbarer Delta Live Tables ohne Einstiegshürden durchführen.“

– Sai Ravuru, Senior Manager of Data Science and Analytics bei JetBlue

dlt tco graph

Stream-Verarbeitungs-Engine der nächsten Generation

Spark Structured Streaming ist die Kerntechnologie, die das Streaming von DLT-Pipelines ermöglicht und eine einheitliche API für die Batch- und Stream-Verarbeitung bietet. DLT-Pipelines nutzen die inhärente Latenz von weniger als einer Sekunde von Spark Structured Streaming und bieten ein rekordverdächtiges Preis-Leistungs-Verhältnis. Obwohl Sie mit Spark Structured Streaming manuell Ihre eigenen leistungsstarken Streaming-Pipelines erstellen können, bieten DLT-Pipelines aufgrund des automatisch verwalteten Betriebsaufwands möglicherweise eine schnellere Wertschöpfung, eine bessere fortlaufende Entwicklungsgeschwindigkeit und niedrigere Gesamtbetriebskosten.

„Wir mussten nichts tun, damit DLT skaliert. Wir geben dem System mehr Daten und es passt sich an. Ohne großen Aufwand haben wir die Gewissheit, dass es mit allem zurechtkommt, was wir von ihm verlangen.“

– Dr. Chris Inkpen, Global Solutions Architect bei Honeywell

DLT-Pipelines im Vergleich zum eigenverantwortlichen Erstellen von Spark Structured Streaming-Pipelines

Spark Structured Streaming pipelines

DLT pipelines

Ausführung auf der Databricks Lakehouse-Plattform
Unterstützt durch die Spark Structured Streaming-Engine
Integration mit Unity Catalog
Orchestrierung mit Databricks Workflows
Datenaufnahme aus Dutzenden von Quellen – vom Cloud-Speicher bis hin zu Message Buses
Datenflussorchestrierung

Manuell

Automatisiert

Datenqualitätsprüfungen und -sicherung

Manuell

Automatisiert

Fehlerbehandlung und Fehlerbehebung

Manuell

Automatisiert

CI/CD und Versionskontrolle

Manuell

Automatisiert

Compute-Autoscaling

Grundlegend

Lakehouse Platform Architecture

Einheitliche Data Governance und Datenspeicherung

Das Ausführen von DLT-Pipelines auf Databricks bedeutet, dass Sie von den grundlegenden Komponenten der Lakehouse-Plattform – Unity Catalog und Delta Lake – profitieren. Ihre Rohdaten werden mit Delta Lake optimiert, dem einzigen Open-Source-Speicher-Framework, das von Grund auf für Streaming- und Batch-Daten entwickelt wurde. Unity Catalog bietet Ihnen eine detaillierte, integrierte Steuerung all Ihrer Daten- und KI-Assets mit einem konsistenten Modell für die Erkennung, den Zugriff und die gemeinsame Nutzung von Daten in allen Clouds. Unity Catalog bietet auch native Unterstützung für Delta Sharing, das branchenweit erste offene Protokoll für den einfachen und sicheren Datenaustausch mit anderen Unternehmen.

„Wir freuen uns unglaublich über die Integration von Delta Live Tables mit Unity Catalog. Diese Integration wird uns helfen, Data Governance für unsere DLT-Pipelines zu rationalisieren und zu automatisieren und unsere Sicherheitsanforderungen bei vertraulichen Daten zu erfüllen, während wir Millionen von Ereignissen in Echtzeit erfassen. Dies eröffnet eine Welt voller Potenzial und Verbesserungen für unsere Geschäftsanwendungsfälle im Zusammenhang mit Risikomodellierung und Betrugserkennung.“

– Yue Zhang, Staff Software Engineer bei Block

FAQs

DLT-Pipelines bestehen aus den beiden Grundbausteinen Streaming-Tabellen und materialisierte Ansichten. Sie basieren auf den zuverlässigen Standards von Delta Tables und Spark Structured Streaming. 

Ressourcen