Data Engineering

Millionen Produktions-Workloads werden täglich auf Databricks ausgeführt

Hintergrundbild

Nehmen Sie Batch- und Streaming-Daten auf einfache Weise in die Databricks Lakehouse-Plattform auf und transformieren Sie sie. Orchestrieren Sie zuverlässige Produktionsabläufe, während Databricks Ihre Infrastruktur automatisch in großem Maßstab verwaltet. Steigern Sie die Produktivität Ihrer Teams mit integrierten Datenqualitätstests und Support für Best Practices für die Softwareentwicklung.

Batch und Streaming zusammenführen

Beseitigen Sie die Trennung von Datenbeständen und führen Sie sie auf einer Plattform mit einer einzigen und einheitlichen API zusammen, um Batch- und Streaming-Daten in großem Maßstab zu erfassen, zu transformieren und schrittweise zu verarbeiten.

Auf die Wertschöpfung aus Daten konzentrieren

Databricks verwaltet automatisch Ihre Infrastruktur und die operativen Komponenten Ihrer Produktionsabläufe, sodass Sie sich auf die Wertschöpfung und nicht auf die Tools konzentrieren können.

Die Tools Ihrer Wahl verbinden

Eine offene Lakehouse-Plattform zum Verbinden und Verwenden Ihrer bevorzugten Data Engineering-Tools für Datenaufnahme, ETL/ELT und Orchestrierung.

Auf der Lakehouse-Plattform entwickelt

Die Lakehouse-Plattform bietet die beste Grundlage für die Entwicklung und die gemeinsame Nutzung vertrauenswürdiger Datenbestände, die zentral verwaltet werden, zuverlässig und blitzschnell sind.

Hintergrundbild

Wie funktioniert es?

Vereinfachte Datenaufnahme

Automatisierte ETL-Verarbeitung

Zuverlässige Workflow-Orchestrierung

Durchgängige Beobachtbarkeit und Überwachung

Datenverarbeitungs-Engine der nächsten Generation

Grundlage von Governance, Zuverlässigkeit und Leistung

Vereinfachte Datenaufnahme

Nehmen Sie Daten in Ihre Lakehouse-Plattform auf und betreiben Sie Ihre Analytics-, KI- und Streaming-Anwendungen von einem Ort aus. Auto Loader verarbeitet inkrementell und automatisch Dateien, die im Cloud-Speicher landen, ohne dass Statusinformationen verwaltet werden müssen, in geplanten oder kontinuierlichen Jobs. Er verfolgt neue Dateien effizient (Skalierung auf Milliarden), ohne sie in einem Verzeichnis auflisten zu müssen, und kann das Schema auch automatisch aus den Quelldaten ableiten und im Laufe der Zeit weiterentwickeln. Der Befehl COPY INTO erleichtert Analysten die Batch-Dateiaufnahme in Delta Lake über SQL.

Mehr Informationen

Data Ingestion Code Graphic

Automatisierte ETL-Verarbeitung

Automatisierte ETL-Verarbeitung

Nach der Aufnahme müssen Rohdaten transformiert werden, damit sie für Analytics und KI bereit sind. Databricks bietet mit Delta Live Tables (DLT) leistungsstarke ETL-Funktionen für Data Engineers, Data Scientists und Analysten. DLT ist das erste Framework, das einen einfachen deklarativen Ansatz verwendet, um ETL- und ML-Pipelines auf Batch- oder Streaming-Daten zu erstellen und gleichzeitig betriebliche Komplexitäten wie Infrastrukturmanagement, Aufgabenorchestrierung, Fehlerbehandlung und Wiederherstellung sowie Leistungsoptimierung zu automatisieren. Mit DLT können Engineers ihre Daten auch als Code behandeln und Best Practices für die Softwareentwicklung wie Tests, Überwachung und Dokumentation anwenden, um zuverlässige Pipelines in großem Maßstab bereitzustellen.

Mehr Informationen

Zuverlässige Workflow-Orchestrierung

Databricks Workflows is the fully managed orchestration service for all your data, analytics and AI that is native to your Lakehouse Platform. Orchestrate diverse workloads for the full lifecycle including Delta Live Tables and Jobs for SQL, Spark, notebooks, dbt, ML models and more. Deep integration with the underlying Lakehouse Platform ensures you will create and run reliable production workloads on any cloud while providing deep and centralized monitoring with simplicity for end users.

Mehr Informationen

Zuverlässige Workflow-Orchestrierung

Durchgängige Beobachtbarkeit und Überwachung

Durchgängige Beobachtbarkeit und Überwachung

Die Lakehouse-Plattform bietet Ihnen Transparenz über den gesamten Daten- und KI-Lebenszyklus, sodass Data Engineers und Betriebsteams den Zustand ihrer Produktionsabläufe in Echtzeit sehen, die Datenqualität verwalten und historische Trends verstehen können. In Databricks Workflows können Sie auf Datenflussdiagramme und Dashboards zugreifen, die den Zustand und die Leistung Ihrer Produktionsaufträge und Delta Live Tables-Pipelines verfolgen. Ereignisprotokolle werden auch als Delta Lake Tables angezeigt, sodass Sie Leistungs-, Datenqualitäts- und Zuverlässigkeits-Metrics aus jedem Blickwinkel überwachen und visualisieren können.

Datenverarbeitungs-Engine der nächsten Generation

Databricks Data Engineering wird von Photon unterstützt, der Engine der nächsten Generation, die mit Apache Spark-APIs kompatibel ist und ein rekordverdächtiges Preis-/Leistungsverhältnis bietet und gleichzeitig automatisch auf Tausende von Knoten skalierbar ist. Spark Structured Streaming bietet eine einzige und einheitliche API für die Batch- und Stream-Verarbeitung, sodass Streaming im Lakehouse ganz einfach eingeführt werden kann, ohne Code zu ändern oder neue Fähigkeiten zu erlernen.

Mehr Informationen

Datenverarbeitungs-Engine der nächsten Generation

Modernste Data-Governance, Zuverlässigkeit und Leistung

Modernste Data-Governance, Zuverlässigkeit und Leistung

Data Engineering auf Databricks bedeutet, dass Sie von den grundlegenden Komponenten der Lakehouse-Plattform – Unity Catalog und Delta Lake – profitieren. Ihre Rohdaten sind für Delta Lake optimiert, ein Open-Source-Speicherformat, das durch ACID-Transaktionen zuverlässig ist und skalierbare Metadatenbearbeitung mit blitzschneller Leistung bietet. In Kombination mit Unity Catalog erhalten Sie eine detaillierte Governance für alle Ihre Daten- und KI-Assets. So wird die Art und Weise, wie Sie Governance durchsetzen, mit einem einheitlichen Modell vereinfacht, um Daten über Clouds hinweg zu entdecken, darauf zuzugreifen und sie zu teilen. Unity Catalog bietet auch native Unterstützung für Delta Sharing, das branchenweit erste offene Protokoll für den einfachen und sicheren Datenaustausch mit anderen Unternehmen.

Live Tables
Lakehouse Plateform
Workflows

Zu Databricks migrieren

Tired of the data silos, slow performance and high costs associated with legacy systems like Hadoop and enterprise data warehouses? Migrate to the Databricks Lakehouse: the modern platform for all your data, analytics and AI use cases.

Zu Databricks migrieren

Integrationen

Bieten Sie Ihren Datenteams maximale Flexibilität – nutzen Sie Partner Connect und ein Ökosystem aus Technologiepartnern, um nahtlos beliebte Data Engineering-Tools zu integrieren. Sie können beispielsweise geschäftskritische Daten mit Fivetran aufnehmen, sie mit dbt transformieren und Ihre Pipelines mit Apache Airflow orchestrieren.

Datenaufnahme und ETL

+ jeder sonstige Apache Spark™-kompatible Client

Kundenberichte

ADP
Kundenbericht Asurion

Kundenbericht

Shell Logo
„Wir von ADP migrieren unsere Personalverwaltungsdaten in einen integrierten Datenspeicher im Lakehouse. Dank Delta Live Tables konnte unser Team Qualitätskontrollen integrieren und durch die deklarativen APIs und die Unterstützung von Batch- und Echtzeitdaten allein mit SQL Zeit und Aufwand bei der Verwaltung unserer Daten sparen.“

– Jack Berkowitz, CDO, ADP

yipitdata
Kundenbericht Asurion

Kundenbericht

Shell Logo
„Databricks Workflows ermöglicht es unseren Analysten, Datenpipelines einfach zu erstellen, auszuführen, zu überwachen und zu reparieren, ohne eine Infrastruktur verwalten zu müssen. Dies ermöglicht ihnen volle Autonomie bei der Gestaltung und Verbesserung von ETL-Prozessen, die für unsere Kunden unverzichtbare Einblicke liefern. Wir freuen uns, unsere Airflow-Pipelines auf Databricks Workflows umzustellen.“

— Anup Segu, Senior Software Engineer, YipitData

Kann's
losgehen?

Einstiegshandbücher

AWSAzureGCP

Ähnliche Inhalte

Alle Ressourcen, die Sie brauchen. Alle an einem Ort. Bild

Alle Ressourcen, die Sie brauchen. Alle an einem Ort.

In der Ressourcenbibliothek finden Sie E-Books und Videos zu den Vorteilen von Data Engineering in Databricks.

Kann's
losgehen?

Einstiegshandbücher

AWSAzureGCP