Wir freuen uns, bekannt zu geben, dass Lakeflow, die einheitliche Data Engineering-Lösung von Databricks, jetzt allgemein verfügbar ist. Sie umfasst erweiterte Ingestion-Konnektoren für gängige Datenquellen, eine neue "IDE für Data Engineering", die das Erstellen und Debuggen von Datenpipelines vereinfacht, und erweiterte Funktionen für die Operationalisierung und Überwachung von ETL.
Auf dem Data + AI Summit im letzten Jahr haben wir Lakeflow vorgestellt – unsere Vision für die Zukunft des Data Engineerings – eine End-to-End-Lösung, die drei Kernkomponenten umfasst:
Durch die Vereinheitlichung des Data Engineerings eliminiert Lakeflow die Komplexität und die Kosten, die mit dem Zusammenfügen verschiedener Tools verbunden sind, sodass sich die Datenteams auf die Wertschöpfung für das Unternehmen konzentrieren können. Lakeflow Designer, der neue KI-gestützte Visual Pipeline Builder, ermöglicht es jedem Benutzer, Data Pipelines in Produktionsqualität zu erstellen, ohne Code zu schreiben.
Es war ein ereignisreiches Jahr, und wir freuen uns sehr, Ihnen die Neuerungen mitzuteilen, da Lakeflow die allgemeine Verfügbarkeit erreicht.
In jeder Branche ist die Fähigkeit eines Unternehmens, durch Analysen und KI einen Mehrwert aus seinen Daten zu ziehen, sein Wettbewerbsvorteil. Daten werden in allen Bereichen des Unternehmens genutzt – um 360°-Ansichten von Kunden und neue Kundenerlebnisse zu schaffen, neue Einnahmequellen zu erschließen, Abläufe zu optimieren und Mitarbeiter zu befähigen. Wenn Unternehmen ihre eigenen Daten nutzen möchten, erhalten sie ein Flickwerk von Tools. Data Engineers haben es schwer, die Komplexität von Data-Engineering-Aufgaben zu bewältigen und gleichzeitig in fragmentierten Tool-Stacks zu navigieren, die schmerzhaft zu integrieren und kostspielig zu warten sind.
Eine zentrale Herausforderung ist die Data Governance – fragmentierte Tools erschweren die Durchsetzung von Standards, was zu Lücken in Bezug auf Discovery, Lineage und Observability führt. Eine aktuelle Studie von The Economist ergab, dass "die Hälfte der Data Engineers angibt, dass Governance mehr Zeit in Anspruch nimmt als alles andere". In derselben Umfrage wurden Data Engineers gefragt, was den größten Nutzen für ihre Produktivität bringen würde, und sie nannten "die Vereinfachung der Datenquellenverbindungen für die Ingestion von Daten", "die Verwendung einer einzigen, einheitlichen Lösung anstelle von mehreren Tools" und "eine bessere Visibility in Datenpipelines, um Probleme zu finden und zu beheben" als die wichtigsten Maßnahmen.
Lakeflow hilft Datenteams, diese Herausforderungen zu meistern, indem es eine End-to-End-Data-Engineering-Lösung auf der Data Intelligence Platform bereitstellt. Databricks-Kunden können Lakeflow für jeden Aspekt des Data Engineerings nutzen – Ingestion, Transformation und Orchestrierung. Da all diese Funktionen als Teil einer einzigen Lösung verfügbar sind, wird keine Zeit für komplexe Tool-Integrationen aufgewendet und es entstehen keine zusätzlichen Kosten für die Lizenzierung externer Tools.
Darüber hinaus ist Lakeflow in die Data Intelligence Platform integriert, was einheitliche Möglichkeiten zur Bereitstellung, Steuerung und Beobachtung aller Daten- und KI-Anwendungsfälle mit sich bringt. Für die Governance beispielsweise ist Lakeflow in Unity Catalog integriert, die einheitliche Governance-Lösung für die Data Intelligence Platform. Durch Unity Catalog erhalten Data Engineers vollständige Visibility und Kontrolle über jeden Teil der Datenpipeline, sodass sie leicht verstehen können, wo Daten verwendet werden, und Probleme beheben können, sobald sie auftreten.
Ob es sich um die Versionierung von Code, die Bereitstellung von CI/CD-Pipelines, die Sicherung von Daten oder die Beobachtung von Echtzeit-Betriebsmetriken handelt, Lakeflow nutzt die Data Intelligence Platform, um einen einzigen und konsistenten Ort für die Verwaltung von End-to-End-Data-Engineering-Anforderungen bereitzustellen.
Im vergangenen Jahr haben wir eine starke Akzeptanz von Lakeflow Connect erlebt, wobei über 2.000 Kunden unsere Ingestion-Konnektoren nutzen, um einen Mehrwert aus ihren Daten zu ziehen. Ein Beispiel ist Porsche Holding Salzburg, die bereits die Vorteile der Verwendung von Lakeflow Connect zur Vereinheitlichung ihrer CRM-Daten mit Analysen zur Verbesserung des Kundenerlebnisses sieht.
"Die Verwendung des Salesforce-Konnektors von Lakeflow Connect hilft uns, eine kritische Lücke für Porsche von der Geschäftsseite in Bezug auf Benutzerfreundlichkeit und Preis zu schließen. Auf der Kundenseite sind wir in der Lage, ein völlig neues Kundenerlebnis zu schaffen, das die Bindung zwischen Porsche und dem Kunden durch eine einheitliche und nicht fragmentierte Customer Journey stärkt." — Lucas Salzburger, Projektmanager, Porsche Holding Salzburg
Heute erweitern wir die Breite der unterstützten Datenquellen mit weiteren integrierten Konnektoren für eine einfache, zuverlässige Ingestion. Die Konnektoren von Lakeflow sind für eine effiziente Datenextraktion optimiert, einschließlich der Verwendung von Change Data Capture (CDC)-Methoden, die für die jeweilige Datenquelle angepasst sind.
Diese verwalteten Konnektoren umfassen jetzt Unternehmensanwendungen, Dateiquellen, Datenbanken und Data Warehouses, die in verschiedenen Release-Stadien eingeführt werden:
Darüber hinaus sehen wir häufig den Anwendungsfall, dass Kunden Echtzeit-Ereignisdaten erfassen, typischerweise mit einer Message-Bus-Infrastruktur, die außerhalb ihrer Datenplattform gehostet wird. Um diesen Anwendungsfall auf Databricks zu vereinfachen, kündigen wir Zerobus an, eine Lakeflow Connect-API, die es Entwicklern ermöglicht, Ereignisdaten mit sehr hohem Durchsatz (100 MB/s) und nahezu in Echtzeit (weniger als 5 Sekunden) direkt in ihr Lakehouse zu schreiben. Diese optimierte Ingestion-Infrastruktur bietet Leistung in der Größenordnung und ist mit der Databricks Platform vereinheitlicht, sodass Sie sofort umfassendere Analyse- und KI-Tools nutzen können.
"Joby ist in der Lage, unsere Fertigungsagenten mit Zerobus zu nutzen, um Gigabytes pro Minute an Telemetriedaten direkt in unser Lakehouse zu übertragen und so die Zeit bis zu den Erkenntnissen zu verkürzen – alles mit Databricks Lakeflow und der Data Intelligence Platform." — Dominik Müller, Factory Systems Lead, Joby Aviation Inc.
Nachdem wir DLT jahrelang mit Tausenden von Kunden über Petabytes von Daten betrieben und weiterentwickelt haben, haben wir alles, was wir gelernt haben, in einen neuen offenen Standard umgesetzt: Spark Declarative Pipelines. Dies ist die nächste Evolutionsstufe in der Pipeline-Entwicklung – deklarativ, skalierbar und offen.
Und heute freuen wir uns, die allgemeine Verfügbarkeit von Lakeflow Declarative Pipelines bekannt zu geben, die die Leistungsfähigkeit von Spark Declarative Pipelines auf die Databricks Data Intelligence Platform bringen. Es ist zu 100 % Quellcode-kompatibel mit dem offenen Standard, sodass Sie Pipelines einmal entwickeln und überall ausführen können. Es ist außerdem zu 100 % abwärtskompatibel mit DLT-Pipelines, sodass bestehende Benutzer die neuen Funktionen übernehmen können, ohne etwas umschreiben zu müssen. Lakeflow Declarative Pipelines sind eine vollständig verwaltete Erfahrung auf Databricks: Hands-off Serverless Compute, tiefe Integration mit Unity Catalog für einheitliche Governance und eine speziell entwickelte IDE für Data Engineering.
Die neue IDE für Data Engineering ist eine moderne, integrierte Umgebung, die entwickelt wurde, um die Pipeline-Entwicklung zu optimieren. Sie beinhaltet

"Der neue Editor bringt alles an einem Ort zusammen – Code, Pipeline-Graph, Ergebnisse, Konfiguration und Troubleshooting. Kein Jonglieren mehr mit Browser-Tabs oder Verlust des Kontexts. Die Entwicklung fühlt sich fokussierter und effizienter an. Ich kann die Auswirkungen jeder Codeänderung direkt sehen. Ein Klick führt mich zur exakten Fehlerzeile, was das Debugging beschleunigt. Alles ist miteinander verbunden – Code mit Daten, Code mit Tabellen, Tabellen mit dem Code. Das Umschalten zwischen Pipelines ist einfach, und Funktionen wie automatisch konfigurierte Utility-Ordner reduzieren die Komplexität. So sollte Pipeline-Entwicklung funktionieren." — Chris Sharratt, Data Engineer, Rolls-Royce
Lakeflow Declarative Pipelines sind jetzt die einheitliche Möglichkeit, skalierbare, gesteuerte und kontinuierlich optimierte Pipelines auf Databricks zu erstellen – egal, ob Sie im Code arbeiten oder visuell über den Lakeflow Designer, eine neue No-Code-Erfahrung, die es Datenexperten mit allen technischen Fähigkeiten ermöglicht, zuverlässige Datenpipelines zu erstellen.
Databricks Workflows wird seit langem als vertrauenswürdige Lösung für die Orchestrierung unternehmenskritischer Workflows eingesetzt, wobei Tausende von Kunden sich auf unsere Plattform verlassen, um Pipelines mit über 110 Millionen Jobs pro Woche auszuführen. Mit der allgemeinen Verfügbarkeit von Lakeflow entwickeln wir Workflows zu Lakeflow Jobs weiter und vereinheitlichen diesen ausgereiften, nativen Orchestrator mit dem Rest des Data-Engineering-Stacks.

Mit Lakeflow Jobs können Sie jeden Prozess auf der Data Intelligent Platform mit einer wachsenden Anzahl von Funktionen orchestrieren, darunter:
"Mit Serverless Lakeflow Jobs haben wir eine 3- bis 5-fache Verbesserung der Latenz erreicht. Was früher 10 Minuten dauerte, dauert jetzt nur noch 2–3 Minuten, was die Verarbeitungszeiten deutlich verkürzt. Dies hat es uns ermöglicht, schnellere Feedbackschleifen für Spieler und Trainer bereitzustellen, um sicherzustellen, dass sie die Erkenntnisse, die sie benötigen, nahezu in Echtzeit erhalten, um fundierte Entscheidungen zu treffen." — Bryce Dugar, Data Engineering Manager, Cincinnati Reds
Als Teil der Vereinheitlichung von Lakeflow bietet Lakeflow Jobs End-to-End-Observability in jeder Schicht des Datenlebenszyklus, von der Dateningestion über die Transformation bis hin zur komplexen Orchestrierung. Ein vielfältiges Toolset ist auf jeden Überwachungsbedarf zugeschnitten: Visuelle Überwachungstools bieten Suche, Status und Tracking auf einen Blick, Debugging-Tools wie Query Profiles helfen bei der Optimierung der Leistung, Alerts und Systemtabellen helfen bei der Aufdeckung von Problemen und bieten historische Einblicke, und Data Quality Expectations erzwingen Regeln und gewährleisten hohe Standards für Ihre Data-Pipeline-Anforderungen.
Lakeflow Connect, Lakeflow Declarative Pipelines und Lakeflow Jobs sind ab heute für jeden Databricks-Kunden allgemein verfügbar. Erfahren Sie hier mehr über Lakeflow und besuchen Sie die offizielle Dokumentation, um mit Lakeflow für Ihr nächstes Data-Engineering-Projekt zu beginnen.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
