Direkt zum Hauptinhalt

Data Engineering

Millionen Produktions-Workloads werden täglich auf Databricks ausgeführt

data-engineering-header

Nehmen Sie Batch- und Streaming-Daten auf einfache Weise in die Databricks Lakehouse-Plattform auf und transformieren Sie sie. Orchestrieren Sie zuverlässige Produktionsabläufe, während Databricks Ihre Infrastruktur automatisch in großem Maßstab verwaltet. Steigern Sie die Produktivität Ihrer Teams mit integrierten Datenqualitätstests und Support für Best Practices für die Softwareentwicklung.

Operate from First Principles

Batch und Streaming zusammenführen

Beseitigen Sie die Trennung von Datenbeständen und führen Sie sie auf einer Plattform mit einer einzigen und einheitlichen API zusammen, um Batch- und Streaming-Daten in großem Maßstab zu erfassen, zu transformieren und schrittweise zu verarbeiten.

Raise the Bar

Auf die Wertschöpfung aus Daten konzentrieren

Databricks verwaltet automatisch Ihre Infrastruktur und die operativen Komponenten Ihrer Produktionsabläufe, sodass Sie sich auf die Wertschöpfung und nicht auf die Tools konzentrieren können.

We Put the Company First

Die Tools Ihrer Wahl verbinden

Eine offene Lakehouse-Plattform zum Verbinden und Verwenden Ihrer bevorzugten Data Engineering-Tools für Datenaufnahme, ETL/ELT und Orchestrierung.

multicloud

Auf der Lakehouse-Plattform entwickelt

Die Lakehouse-Plattform bietet die beste Grundlage für die Entwicklung und die gemeinsame Nutzung vertrauenswürdiger Datenbestände, die zentral verwaltet werden, zuverlässig und blitzschnell sind.

„Für uns wird Databricks zum Allzweck-Tool für unsere gesamte ETL-Arbeit. Je mehr wir mit der Lakehouse-Plattform arbeiten, desto einfacher ist sie sowohl für Benutzer als auch für Plattformadministratoren.“

– Hillevi Crognale, Engineering Manager, YipitData

Wie funktioniert es?

demarketecture

Vereinfachte Datenaufnahme

Automatisierte ETL-Verarbeitung

Zuverlässige Workflow-Orchestrierung

Durchgängige Beobachtbarkeit und Überwachung

Datenverarbeitungs-Engine der nächsten Generation

Grundlage von Governance, Zuverlässigkeit und Leistung

dataIngestion

Vereinfachte Datenaufnahme

Nehmen Sie Daten in Ihre Lakehouse-Plattform auf und betreiben Sie Ihre Analytics-, KI- und Streaming-Anwendungen von einem Ort aus. Auto Loader verarbeitet Dateien, die im Cloud-Speicher landen, inkrementell und automatisch in geplanten oder kontinuierlichen Jobs, ohne dass Statusinformationen verwaltet werden müssten. Neue Dateien werden effizient überwacht, ohne sie in einem Verzeichnis auflisten zu müssen, wobei das System bis in den Milliardenbereich skaliert. Außerdem kann Auto Loader das Schema automatisch aus den Quelldaten ableiten und im Laufe der Zeit an aufkommende Änderungen anpassen. Der Befehl COPY INTO erleichtert Analysten die Batch-Dateiaufnahme in Delta Lake über SQL.

„Wir konnten eine Produktivitätssteigerung von 40 % beim Data Engineering verzeichnen – die Zeit, die für die Entwicklung neuer Ideen benötigt wird, wurde von Tagen auf Minuten reduziert und die Verfügbarkeit und Genauigkeit unserer Daten erhöht.“
– Shaun Pearce, Chief Technology Officer, Gousto

automated-etl-processing

Automatisierte ETL-Verarbeitung

Nach der Erfassung müssen Rohdaten transformiert werden, um sie für Analytics und KI aufzubereiten. Databricks bietet mit Delta-Live-Tables (DLT) leistungsstarke ETL-Funktionen für Data Engineers, Data Scientists und Analysten. DLT ist das erste Framework, das in der Lage ist, mithilfe eines einfachen deklarativen Ansatzes ETL- und ML-Pipelines für Batch- oder Streaming-Daten zu erstellen und gleichzeitig betriebliche Komplexitäten wie Infrastrukturmanagement, Aufgabenorchestrierung, Fehlerbehandlung und Wiederherstellung sowie Leistungsoptimierung zu automatisieren. Mit DLT können Engineers ihre Daten auch als Code behandeln und Best Practices für die Softwareentwicklung wie Tests, Überwachung und Dokumentation anwenden, um zuverlässige Pipelines auch in großer Zahl bereitzustellen.

reliable-workflow

Zuverlässige Workflow-Orchestrierung

Databricks Workflows ist der vollständig verwaltete Orchestrierungsservice für alle Ihre Daten, Analytics und KI und nativ in Ihrer Lakehouse-Plattform vorhanden. Orchestrieren Sie verschiedene Workloads für den gesamten Lebenszyklus, einschließlich Delta-Live-Tables und Jobs für SQL, Spark, Notebooks, dbt, ML-Modelle und mehr. Die tiefgreifende Integration in die zugrunde liegende Lakehouse-Plattform stellt sicher, dass Sie zuverlässige Produktions-Workloads in jeder Cloud erstellen und ausführen und gleichzeitig eine umfassende und zentralisierte, für Endbenutzer jedoch niederschwellige Überwachung bieten.

„Unsere Mission ist es, die Art und Weise zu verändern, wie wir den Planeten mit Energie versorgen. Unsere Kunden im Energiesektor benötigen Daten, Beratungsdienste und Forschung, um diese Transformation zu erreichen. Databricks Workflows gibt uns die Geschwindigkeit und Flexibilität, um die Erkenntnisse zu liefern, die unsere Kunden benötigen.“

— Yanyan Wu, Vice President of Data, Wood Mackenzie

observability

Durchgängige Beobachtbarkeit und Überwachung

Die Lakehouse-Plattform bietet Ihnen Transparenz über den gesamten Daten- und KI-Lebenszyklus, sodass Data Engineers und Betriebsteams den Zustand ihrer Produktionsabläufe in Echtzeit sehen, die Datenqualität verwalten und historische Trends verstehen können. In Databricks Workflows können Sie auf Datenflussdiagramme und Dashboards zugreifen, die den Zustand und die Leistung Ihrer Produktionsaufträge und Delta Live Tables-Pipelines verfolgen. Ereignisprotokolle werden auch als Delta Lake Tables angezeigt, sodass Sie Leistungs-, Datenqualitäts- und Zuverlässigkeits-Metrics aus jedem Blickwinkel überwachen und visualisieren können.

next-generation

Datenverarbeitungs-Engine der nächsten Generation

Databricks Data Engineering basiert auf Photon. Photon ist die mit Apache Spark-APIs kompatible Next-Generation-Engine, die ein rekordverdächtiges Preis-Leistungs-Verhältnis bietet und gleichzeitig automatisch auf Tausende von Knoten skalierbar ist. Spark Structured Streaming implementiert eine zentrale und einheitliche API für die Batch- und Stream-Verarbeitung, sodass Streaming im Lakehouse ganz einfach eingeführt werden kann, ohne Code ändern oder neue Kompetenzen erwerben zu müssen.

state-of-the-art

Modernste Data-Governance, Zuverlässigkeit und Leistung

Data Engineering auf Databricks bedeutet, dass Sie von den grundlegenden Komponenten der Lakehouse-Plattform – Unity Catalog und Delta Lake – profitieren. Ihre Rohdaten sind für Delta Lake optimiert, ein Open-Source-Speicherformat, das durch ACID-Transaktionen zuverlässig ist und skalierbare Metadatenbearbeitung mit blitzschneller Leistung bietet. In Kombination mit Unity Catalog erhalten Sie eine detaillierte Governance für alle Ihre Daten- und KI-Assets. So wird die Art und Weise, wie Sie Governance durchsetzen, mit einem einheitlichen Modell vereinfacht, um Daten über Clouds hinweg zu entdecken, darauf zuzugreifen und sie zu teilen. Unity Catalog bietet auch native Unterstützung für Delta Sharing, das branchenweit erste offene Protokoll für den einfachen und sicheren Datenaustausch mit anderen Unternehmen.

Zu Databricks migrieren

Sind die Datensilos, die langsame Leistung und die hohen Kosten für Altsysteme wie Hadoop und Enterprise Data Warehouses müde? Holen Sie sich eine einzige moderne Plattform für alle Ihre Daten-, Analytics- und KI-Anwendungsfälle.

Zu Databricks migrieren

Integrationen

Bieten Sie Ihren Datenteams maximale Flexibilität – nutzen Sie Partner Connect und ein Ökosystem aus Technologiepartnern, um nahtlos beliebte Data Engineering-Tools zu integrieren. Sie können beispielsweise geschäftskritische Daten mit Fivetran aufnehmen, sie mit dbt transformieren und Ihre Pipelines mit Apache Airflow orchestrieren.

Datenaufnahme und ETL

fivetran
dbt
arcion
matillion
informatica
confluent
qlikq
airbyte
prophecy
streamsets
alteryx
snaplogic

Kundenberichte

comcast
hsbc
laliga
atlassian
columbia
comcast
hsbc
laliga
atlassian
columbia
comcast

Mehr entdecken

Delta

Delta Lake

Partner Connect

Workflows

Unity

Delta Live Tables

icon-orange-Collaborative-min

Delta-Freigabe

Ähnliche Inhalte