Data Engineering
Millionen Produktions-Workloads werden täglich auf Databricks ausgeführt
Nehmen Sie Batch- und Streaming-Daten auf einfache Weise in die Databricks Lakehouse-Plattform auf und transformieren Sie sie. Orchestrieren Sie zuverlässige Produktionsabläufe, während Databricks Ihre Infrastruktur automatisch in großem Maßstab verwaltet. Steigern Sie die Produktivität Ihrer Teams mit integrierten Datenqualitätstests und Support für Best Practices für die Softwareentwicklung.
Batch und Streaming zusammenführen
Beseitigen Sie die Trennung von Datenbeständen und führen Sie sie auf einer Plattform mit einer einzigen und einheitlichen API zusammen, um Batch- und Streaming-Daten in großem Maßstab zu erfassen, zu transformieren und schrittweise zu verarbeiten.
Auf die Wertschöpfung aus Daten konzentrieren
Databricks verwaltet automatisch Ihre Infrastruktur und die operativen Komponenten Ihrer Produktionsabläufe, sodass Sie sich auf die Wertschöpfung und nicht auf die Tools konzentrieren können.
Die Tools Ihrer Wahl verbinden
Eine offene Lakehouse-Plattform zum Verbinden und Verwenden Ihrer bevorzugten Data Engineering-Tools für Datenaufnahme, ETL/ELT und Orchestrierung.
Auf der Lakehouse-Plattform entwickelt
Die Lakehouse-Plattform bietet die beste Grundlage für die Entwicklung und die gemeinsame Nutzung vertrauenswürdiger Datenbestände, die zentral verwaltet werden, zuverlässig und blitzschnell sind.
„Für uns wird Databricks zum Allzweck-Tool für unsere gesamte ETL-Arbeit. Je mehr wir mit der Lakehouse-Plattform arbeiten, desto einfacher ist sie sowohl für Benutzer als auch für Plattformadministratoren.“
Wie funktioniert es?
Vereinfachte Datenaufnahme
Automatisierte ETL-Verarbeitung
Zuverlässige Workflow-Orchestrierung
Durchgängige Beobachtbarkeit und Überwachung
Datenverarbeitungs-Engine der nächsten Generation
Grundlage von Governance, Zuverlässigkeit und Leistung

Vereinfachte Datenaufnahme
Nehmen Sie Daten in Ihre Lakehouse-Plattform auf und betreiben Sie Ihre Analytics-, KI- und Streaming-Anwendungen von einem Ort aus. Auto Loader verarbeitet Dateien, die im Cloud-Speicher landen, inkrementell und automatisch in geplanten oder kontinuierlichen Jobs, ohne dass Statusinformationen verwaltet werden müssten. Neue Dateien werden effizient überwacht, ohne sie in einem Verzeichnis auflisten zu müssen, wobei das System bis in den Milliardenbereich skaliert. Außerdem kann Auto Loader das Schema automatisch aus den Quelldaten ableiten und im Laufe der Zeit an aufkommende Änderungen anpassen. Der Befehl COPY INTO erleichtert Analysten die Batch-Dateiaufnahme in Delta Lake über SQL.
„Wir konnten eine Produktivitätssteigerung von 40 % beim Data Engineering verzeichnen – die Zeit, die für die Entwicklung neuer Ideen benötigt wird, wurde von Tagen auf Minuten reduziert und die Verfügbarkeit und Genauigkeit unserer Daten erhöht.“
– Shaun Pearce, Chief Technology Officer, Gousto

Automatisierte ETL-Verarbeitung
Nach der Erfassung müssen Rohdaten transformiert werden, um sie für Analytics und KI aufzubereiten. Databricks bietet mit Delta-Live-Tables (DLT) leistungsstarke ETL-Funktionen für Data Engineers, Data Scientists und Analysten. DLT ist das erste Framework, das in der Lage ist, mithilfe eines einfachen deklarativen Ansatzes ETL- und ML-Pipelines für Batch- oder Streaming-Daten zu erstellen und gleichzeitig betriebliche Komplexitäten wie Infrastrukturmanagement, Aufgabenorchestrierung, Fehlerbehandlung und Wiederherstellung sowie Leistungsoptimierung zu automatisieren. Mit DLT können Engineers ihre Daten auch als Code behandeln und Best Practices für die Softwareentwicklung wie Tests, Überwachung und Dokumentation anwenden, um zuverlässige Pipelines auch in großer Zahl bereitzustellen.

Zuverlässige Workflow-Orchestrierung
Databricks Workflows ist der vollständig verwaltete Orchestrierungsservice für alle Ihre Daten, Analytics und KI und nativ in Ihrer Lakehouse-Plattform vorhanden. Orchestrieren Sie verschiedene Workloads für den gesamten Lebenszyklus, einschließlich Delta-Live-Tables und Jobs für SQL, Spark, Notebooks, dbt, ML-Modelle und mehr. Die tiefgreifende Integration in die zugrunde liegende Lakehouse-Plattform stellt sicher, dass Sie zuverlässige Produktions-Workloads in jeder Cloud erstellen und ausführen und gleichzeitig eine umfassende und zentralisierte, für Endbenutzer jedoch niederschwellige Überwachung bieten.
„Unsere Mission ist es, die Art und Weise zu verändern, wie wir den Planeten mit Energie versorgen. Unsere Kunden im Energiesektor benötigen Daten, Beratungsdienste und Forschung, um diese Transformation zu erreichen. Databricks Workflows gibt uns die Geschwindigkeit und Flexibilität, um die Erkenntnisse zu liefern, die unsere Kunden benötigen.“
— Yanyan Wu, Vice President of Data, Wood Mackenzie

Durchgängige Beobachtbarkeit und Überwachung
Die Lakehouse-Plattform bietet Ihnen Transparenz über den gesamten Daten- und KI-Lebenszyklus, sodass Data Engineers und Betriebsteams den Zustand ihrer Produktionsabläufe in Echtzeit sehen, die Datenqualität verwalten und historische Trends verstehen können. In Databricks Workflows können Sie auf Datenflussdiagramme und Dashboards zugreifen, die den Zustand und die Leistung Ihrer Produktionsaufträge und Delta Live Tables-Pipelines verfolgen. Ereignisprotokolle werden auch als Delta Lake Tables angezeigt, sodass Sie Leistungs-, Datenqualitäts- und Zuverlässigkeits-Metrics aus jedem Blickwinkel überwachen und visualisieren können.

Datenverarbeitungs-Engine der nächsten Generation
Databricks Data Engineering basiert auf Photon. Photon ist die mit Apache Spark-APIs kompatible Next-Generation-Engine, die ein rekordverdächtiges Preis-Leistungs-Verhältnis bietet und gleichzeitig automatisch auf Tausende von Knoten skalierbar ist. Spark Structured Streaming implementiert eine zentrale und einheitliche API für die Batch- und Stream-Verarbeitung, sodass Streaming im Lakehouse ganz einfach eingeführt werden kann, ohne Code ändern oder neue Kompetenzen erwerben zu müssen.
Modernste Data-Governance, Zuverlässigkeit und Leistung
Data Engineering auf Databricks bedeutet, dass Sie von den grundlegenden Komponenten der Lakehouse-Plattform – Unity Catalog und Delta Lake – profitieren. Ihre Rohdaten sind für Delta Lake optimiert, ein Open-Source-Speicherformat, das durch ACID-Transaktionen zuverlässig ist und skalierbare Metadatenbearbeitung mit blitzschneller Leistung bietet. In Kombination mit Unity Catalog erhalten Sie eine detaillierte Governance für alle Ihre Daten- und KI-Assets. So wird die Art und Weise, wie Sie Governance durchsetzen, mit einem einheitlichen Modell vereinfacht, um Daten über Clouds hinweg zu entdecken, darauf zuzugreifen und sie zu teilen. Unity Catalog bietet auch native Unterstützung für Delta Sharing, das branchenweit erste offene Protokoll für den einfachen und sicheren Datenaustausch mit anderen Unternehmen.
Zu Databricks migrieren
Sind die Datensilos, die langsame Leistung und die hohen Kosten für Altsysteme wie Hadoop und Enterprise Data Warehouses müde? Holen Sie sich eine einzige moderne Plattform für alle Ihre Daten-, Analytics- und KI-Anwendungsfälle.
Integrationen
Bieten Sie Ihren Datenteams maximale Flexibilität – nutzen Sie Partner Connect und ein Ökosystem aus Technologiepartnern, um nahtlos beliebte Data Engineering-Tools zu integrieren. Sie können beispielsweise geschäftskritische Daten mit Fivetran aufnehmen, sie mit dbt transformieren und Ihre Pipelines mit Apache Airflow orchestrieren.
Datenaufnahme und ETL
+ jeder sonstige Apache Spark™-kompatible Client