Direkt zum Hauptinhalt

Data Engineering

Produktionsreife Datenpipelines für Analytics und KI

dataIngestion

Erfassen Sie Batch- und Streaming-Daten in einfacher Weise auf der Databricks Data Intelligence Platform. Orchestrieren Sie zuverlässige Produktionsabläufe, während Databricks Ihre Infrastruktur automatisch umfassend verwaltet und Ihnen einheitliche Governance bietet. Beschleunigen Sie Innovation, indem Sie die Produktivität Ihres Teams mit einer integrierten, KI-gesteuerten Intelligence-Engine steigern, die Ihre Daten und Ihre Pipelines versteht.

„Wir sind in der Lage, enorme Mengen an strukturierten und unstrukturierten Daten aus unterschiedlichen Systemen zu erfassen, zu standardisieren und daraus dann ML-Modelle zu erstellen, die Warnhinweise und Empfehlungen liefern, mit denen wir die Beschäftigten in unseren Call Centern, Filialen und online unterstützen.“

– Kate hopkins, Vice president, AT&T
AT&T logo

Verwandte Produkte

Operate from First Principles

Belastbare Daten aus zuverlässigen Pipelines

Dank der integrierten Datenqualitätsprüfung und der bewährten Zuverlässigkeit der Plattform können Datenteams sicherstellen, dass für nachgelagerte Anwendungsfälle vorgesehene Daten korrekt, vollständig und aktuell sind.

Raise the Bar

Optimales Preis-Leistungs-Verhältnis

Die serverlose Lakehouse-Architektur mit Data Intelligence automatisiert die komplexen Vorgänge, die die Grundlage für den Aufbau und die Ausführung von Pipelines bilden. Dadurch werden Unwägbarkeiten und manueller Aufwand bei Optimierungen vermieden.

We Put the Company First

Demokratisierter Datenzugriff

Die Lösung wurde zur Unterstützung von Datenanwendern bei der Verwaltung von Batch- oder Streaming-Pipelines zur Aufnahme, Transformation und Orchestrierung von Daten entwickelt – unabhängig von ihren jeweiligen technischen Fertigkeiten, ihrer bevorzugten Oberfläche und dem erforderlichen Feinschliff. Und das alles auf einer einheitlichen Plattform.

multicloud

Entwickeln auf der Data Intelligence Platform

Die Data Intelligence Platform stellt eine optimale Grundlage für Aufbau und Freigabe vertrauenswürdiger Datenbestände mit zentraler Governance bereit – zuverlässig und blitzschnell.

demarketecture

Verwaltete Datenpipelines

Daten müssen erfasst und transformiert werden, um sie für Analysen und KI aufzubereiten. Mit Delta-Live-Tables (DLT) bietet Databricks leistungsstarke Datenpipeline-Funktionen für Data Engineers, Data Scientists und Analysten. DLT ist das erste Framework, das mithilfe eines einfachen, deklarativen Ansatzes Datenpipelines für Batch- oder Streaming-Daten erstellt. Gleichzeitig automatisiert es komplexe betriebliche Aufgaben wie Infrastrukturmanagement, Orchestrierung, Fehlerbehandlung, Wiederherstellung und Leistungsoptimierung. Mit DLT können Engineers ihre Daten als Code behandeln und Best Practices der Softwareentwicklung anwenden: Tests, Monitoring und Dokumentation. So lassen sich zuverlässige Pipelines in großer Zahl bereitstellen.

„[Dank DLT] kooperiert das Team jetzt wunderbar. Tag für Tag profitieren neue Storys und Workloads von der Pipeline.“

– Dr. Chris Inkpen, Global Solutions Architect, Honeywell Energy & Environmental Solutions

honeywell logo

dataIngestion

Vereinheitlichte Workflow-Orchestrierung

Databricks Workflows bietet eine einfache und zugleich verlässliche Orchestrierungslösung für Daten und KI auf der Data Intelligence Platform. Mit Databricks Workflows können Sie mehrstufige Workflows definieren, um ETL-Pipelines, ML-Trainingsworkflows und mehr zu implementieren. Die Lösung bietet optimierte Steuerungsmöglichkeiten und unterstützt verschiedene Aufgabentypen und Triggeroptionen. Als plattformeigener Orchestrator bietet Databricks Workflows außerdem fortschrittliche Funktionen für Monitoring, Visualisierung der Workflow-Ausführung und Warnungen bei Problemen. Optionen für Serverless Compute ermöglichen die Nutzung einer intelligenten Skalierung sowie eine effiziente Taskausführung.

„Mit Databricks Workflows ist der technische Aufwand geringer, und das hat immer schnellere und einfachere Implementierungen zur Folge. Es ist einfach bequemer, alles an einem zentralen Ort zu haben.“

— Ivo van de Grift, Data Team Tech Lead, Ahold Delhaize (Etos)

ahold delhaize logo

automated-etl-processing

Powered by Data Intelligence

DatabricksIQ ist die Data-Intelligence-Engine, die KI in alle Bereiche der Data Intelligence Platform einbringt, um die Produktivität von Data Engineers durch Tools wie Databricks Assistant zu steigern. Mithilfe von generativer KI und eines umfassenden Verständnisses Ihrer Databricks-Umgebung kann Databricks Assistant SQL- oder Python-Code generieren oder aufschlüsseln, Probleme erkennen und Lösungsvorschläge geben. DatabricksIQ erfasst außerdem Ihre Pipelines und kann sie mithilfe von intelligenter Orchestrierung und Ablaufverwaltung so optimieren, dass Sie Serverless Compute nutzen können.

reliable-workflow

Die Streaming-Engine der nächsten Generation

Apache Spark™ Structured Streaming ist die beliebteste Open-Source-Streaming-Engine weltweit. Sie wird von vielen Unternehmen im Open-Source-Bereich genutzt und ist die grundlegende Technologie für Streaming-Datenpipelines auf Databricks, dem wohl geeignetsten Umfeld für die Ausführung von Spark-Workloads. Spark Structured Streaming implementiert eine zentrale, einheitliche API für die Batch- und Stream-Verarbeitung, sodass Streaming-Daten-Workloads bequem implementiert werden können, ohne Code ändern oder neue Kompetenzen erwerben zu müssen. Wechseln Sie unkompliziert zwischen fortlaufender und getriggerter Verarbeitung, um Optimierungen wahlweise mit Blick auf die Latenz oder die Kosten vorzunehmen.

observability

Modernste Data Governance, Zuverlässigkeit und Leistung

Data Engineering auf Databricks bedeutet, dass Sie von den grundlegenden Komponenten der Data Intelligence Platform – Unity Catalog und Delta Lake – profitieren. Ihre Rohdaten sind für Delta Lake optimiert, ein Open-Source-Speicherformat, das durch ACID-Transaktionen Zuverlässigkeit garantiert und skalierbare Metadatenbearbeitung mit rasanter Performance verknüpft. In Kombination mit Unity Catalog erhalten Sie differenzierte Governance für alle Ihre Daten- und KI-Assets. So wird die Art und Weise, wie Sie Governance durchsetzen, mit einem einheitlichen Modell vereinfacht, um Daten cloudübergreifend zu entdecken, abzurufen und zu teilen. Zudem bietet Unity Catalog native Unterstützung für Delta Sharing, das branchenweit erste offene Protokoll für den einfachen und sicheren Datenaustausch mit anderen Unternehmen.

Integrationen

Machen Sie sich ein offenes Ökosystem mit Technologiepartnern zunutze, um eine nahtlose Integration mit branchenführenden Data-Engineering-Tools zu ermöglichen.

Datenaufnahme und ETL

fivetran
dbt
arcion
matillion
informatica
confluent
qlikq
airbyte
prophecy
streamsets
alteryx
snaplogic

Kunden

„Immer wieder stellen wir fest, dass wir selbst bei den scheinbar anspruchsvollsten Fragen einen Data Engineer ohne jeglichen Datenkontext auf eine Datenpipeline ansetzen können und dann im Handumdrehen die benötigten Antworten erhalten.“
– Barb MacLean, Senior Vice President, Coastal Community Bank

Blog lesen

„Delta Live Tables hat unser Entwicklungstempo erheblich beschleunigt. Früher mussten wir komplizierte ETL-Prozesse nutzen, um aus Rohdaten aufbereitete Informationen zu gewinnen. Heute haben wir nur ein einfaches Notebook, das diese Aufgabe erledigt, und dann transformieren wir die Daten mit Delta Live Tables nach Bedarf in die Silber- oder Goldschicht.“
– Advait Raje, Teamleiter Data Engineering, Trek Bicycle

Blog lesen

„Wir verwenden Databricks Workflows als standardmäßiges Orchestrierungstool für ETL und die Automatisierung von etwa 300 Jobs, von denen ca. 120 regelmäßig ausgeführt werden sollen.“
– Robert Hamlet, Lead Data Engineer, Enterprise Data Services, Cox Automotive

Blog lesen

„Unser Bestreben, das Preis-Leistungs-Verhältnis zu optimieren, wurde von Databricks voll und ganz erfüllt. Die Data Intelligence Platform hat uns geholfen, Kosten zu senken, ohne Abstriche bei der Verarbeitung gemischter Workloads machen zu müssen. So können wir den Daten- und KI-Betrieb heute und auch in Zukunft optimieren.“
– Mohit Saxena, Mitbegründer und Group CTO, InMobi

Blog lesen

FAQ

Als Data Engineering bezeichnet man die Verarbeitung von Rohdaten aus einer Datenquelle, damit sie für einen nachgelagerten Anwendungsfall – wie Datenanalyse, Business Intelligence (BI) oder Machine-Learning-Modelle (ML) – in geeigneter Weise gespeichert und organisiert werden können. Anders ausgedrückt: Es geht darum, Daten so aufzubereiten, dass aus ihnen ein Mehrwert generiert werden kann. Ein Beispiel für ein gängiges Data-Engineering-Muster ist ETL (Extrahieren, Transformieren, Laden). Hierbei wird eine Datenpipeline definiert, die Daten aus einer Datenquelle extrahiert, sie transformiert und dann in ein Zielsystem wie beispielsweise ein Data Warehouse lädt (also dort speichert).