Die Datenaufnahme ist der erste Schritt im Daten-Engineering-Lebenszyklus. Sie umfasst die Erfassung von Daten aus unterschiedlichen Quellen – etwa Datenbanken, SaaS-Anwendungen, Datei-Quellen, APIs oder IoT-Geräten – und das Überführen dieser Daten in ein zentrales Repository wie ein Data Lake, ein Data Warehouse oder ein Lakehouse. Damit können Organisationen ihre Daten bereinigen und vereinheitlichen, um Analytics und KI für datengestützte Entscheidungen zu nutzen.
Traditionell erfolgte die Datenaufnahme über eine Kombination aus maßgeschneiderten Skripten, Open-Source-Frameworks wie Apache NiFi und Kafka sowie verwalteten Lösungen von Cloud-Anbietern wie AWS Glue, Google Cloud Dataflow und Azure Data Factory. Diese Methoden erfordern oft erheblichen Engineering-Aufwand für Betrieb und Wartung, insbesondere im Umgang mit Schema-Evolution, Datenkonsistenz und Echtzeitverarbeitung im großen Maßstab. Viele Unternehmen verlassen sich auch auf separate Aufnahme-, Transformations- und Orchestrierungswerkzeuge, was die Komplexität erhöht und Datensilos begünstigt.
Im Gegensatz zu ETL (Extrahieren, Transformieren, Laden), bei dem Daten vor dem Laden transformiert werden, verschiebt die Datenaufnahme Rohdaten direkt in ein Zielsystem. Das ermöglicht schnelleren Zugriff und mehr Flexibilität.
Die Methoden der Datenzufuhr variieren je nach Anwendungsfall und ermöglichen die Datenerfassung in geplanten Chargen, kontinuierlichen Streams oder einer Kombination aus beidem.
Verschiedene Datenstrukturen erfordern spezifische Aufnahme- und Verarbeitungstechniken:
Die Werkzeuge zur Datenaufnahme reichen von Open-Source-Optionen wie Apache NiFi und Kafka, die für Flexibilität und Anpassungsfähigkeit bekannt sind, bis hin zu kommerziellen Plattformen wie der Databricks Data Intelligence Platform, die Aufnahme, Transformation und Orchestrierung auf einer Plattform vereint.
Databricks Lakeflow ist eine einheitliche, intelligente Lösung für Datenengineering, die auf der Data Intelligence Plattform aufbaut. Sie deckt die Aufnahme, Transformation und Orchestrierung Ihrer Daten ab.
Als Teil von Lakeflow bietet Lakeflow Connect Konnektoren zu unterschiedlichsten Datenquellen. So lassen sich strukturierte und unstrukturierte Daten aus Unternehmensanwendungen, Dateien und Datenbanken flexibel, einfach und effizient aufnehmen.
Lakeflow Connect ermöglicht die Datenaufnahme aus einer Vielzahl verschiedener Datenquellen:
Effektive Aufnahme-Tools optimieren die Datenverarbeitung mit Funktionen wie:
Open-Source-Tools bieten Flexibilität und Kontrolle, erfordern jedoch oft mehr Einrichtung, was sie ideal für technische Teams macht. Databricks kombiniert Open-Source-Grundlagen mit einem umfangreichen Partnernetzwerk. Die Databricks Data Intelligence Platform bietet verwaltete Datenaufnahme mit integrierter Governance und Automatisierung, was die Betriebskosten und die Komplexität reduziert.
Die Datenaufnahme ist in der Regel der erste Schritt in der Datenverarbeitung von der Sammlung bis zur Analyse und führt zu weiteren sequenziellen Operationen. Ihr Hauptzweck der Datenaufnahme besteht darin, Rohdaten aus mehreren Quellen zu erfassen und in Systeme wie Data Lakes, Data Warehouses oder Lakehouses zu übertragen. Die meisten Organisationen benötigen zusätzliche Schritte über die Aufnahme hinaus, da Rohdaten meist noch verfeinert werden müssen, bevor sie für Analysen und Entscheidungsprozesse nutzbar sind. Datenaufnahme bedeutet, Daten aus verschiedenen Quellen schnell und flexibel verfügbar zu machen, ohne ihr Format anzupassen – als Basis für nachgelagerte Verarbeitungsschritte.
Datenaufnahme bringt Rohdaten aus verschiedenen Quellen in ein Repository, ohne sie zu transformieren, und stellt den unmittelbaren Zugriff auf unveränderte Daten sicher.
ETL umfasst das Extrahieren von Daten, deren Transformation zur Erfüllung spezifischer Anforderungen sowie das Laden in ein Zielsystem. Im Mittelpunkt steht dabei die Datenvorbereitung für Analysen. (Erfahren Sie mehr über den Unterschied zwischen ETL und ELT.)
Datenpipelines bilden die vollständige Abfolge des Verschiebens transformierter Daten zur weiteren Verarbeitung ab. Eine Pipeline umfasst mehrere aufeinanderfolgende Schritte, die über Datenaufnahme und ETL hinausgehen – darunter Validierungstests, Entfernung von Duplikaten, Ausführung von Machine-Learning-Algorithmen sowie die Verarbeitung von Streaming-Daten.
Die Datenzufuhr ist ideal für Szenarien, n denen schneller Zugriff auf Rohdaten und nahezu Echtzeit-Einblicke benötigt werden. ETL ist die richtige Wahl, wenn vorbereitete und strukturierte Daten für Business Intelligence, Analysen oder standardisierte Berichte gebraucht werden. Datenpipelines bieten einen breiteren Rahmen für die Steuerung komplexer Workflows und Integration mehrere Schritte zu einem kohärenten Prozess.
In modernen Architekturen ergänzen sich Datenaufnahme und ETL häufig. Zum Beispiel können Daten zuerst in ein Lakehouse aufgenommen werden, wo ETL-Prozesse sie später für tiefere Analysen und Berichte aufbereiten, während eine breitere Datenpipeline den gesamten Workflow automatisiert, von der Aufnahme bis zum Machine Learning und zur Analyse. Databricks Lakeflow integriert diese Prozesse und schafft einen einheitlichen Workflow für Flexibilität und umfassendes Datenmanagement.
Die Einführung grundlegender Best Practices hilft, effiziente, zuverlässige und gut verwaltete Aufnahmeworkflows zu gewährleisten:
Sobald die Aufnahmeprozesse etabliert sind, ermöglicht kontinuierliche Optimierung die Anpassung an veränderte Geschäftsanforderungen und eine effektive Verwaltung wachsender Datenvolumen.
