Datenaufnahme

Was ist Datenaufnahme?

Die Datenaufnahme ist der erste Schritt im Daten-Engineering-Lebenszyklus. Sie umfasst die Erfassung von Daten aus unterschiedlichen Quellen – etwa Datenbanken, SaaS-Anwendungen, Datei-Quellen, APIs oder IoT-Geräten – und das Überführen dieser Daten in ein zentrales Repository wie ein Data Lake, ein Data Warehouse oder ein Lakehouse. Damit können Organisationen ihre Daten bereinigen und vereinheitlichen, um Analytics und KI für datengestützte Entscheidungen zu nutzen.
Traditionell erfolgte die Datenaufnahme über eine Kombination aus maßgeschneiderten Skripten, Open-Source-Frameworks wie Apache NiFi und Kafka sowie verwalteten Lösungen von Cloud-Anbietern wie AWS Glue, Google Cloud Dataflow und Azure Data Factory. Diese Methoden erfordern oft erheblichen Engineering-Aufwand für Betrieb und Wartung, insbesondere im Umgang mit Schema-Evolution, Datenkonsistenz und Echtzeitverarbeitung im großen Maßstab. Viele Unternehmen verlassen sich auch auf separate Aufnahme-, Transformations- und Orchestrierungswerkzeuge, was die Komplexität erhöht und Datensilos begünstigt.
Im Gegensatz zu ETL (Extrahieren, Transformieren, Laden), bei dem Daten vor dem Laden transformiert werden, verschiebt die Datenaufnahme Rohdaten direkt in ein Zielsystem. Das ermöglicht schnelleren Zugriff und mehr Flexibilität.

Ähnliche Themen erkunden

Das Big Book of Data Engineering

Best Practices für Data Engineers im KI-Zeitalter

Jetzt lesen

O’Reilly technical guide about ETL pipelines

Erste Schritte mit ETL

Informieren Sie sich über ETL-Pipelines – mit diesem technischen Leitfaden von O'Reilly.

Jetzt lesen

Databricks Data Intelligence Platform entdecken

ETL, Data Warehousing, BI und KI beschleunigen.

Jetzt lesen

Welche Arten von Dateneingabe gibt es?

Die Methoden der Datenzufuhr variieren je nach Anwendungsfall und ermöglichen die Datenerfassung in geplanten Chargen, kontinuierlichen Streams oder einer Kombination aus beidem.

Inkrementelle Batch-Aufnahme: Erfasst Daten in festgelegten Intervallen. Ideal für periodische Aktualisierungen und Szenarien, in denen Echtzeitdaten keine zentrale Rolle spielen.
Streaming-Aufnahme: Erfasst Daten schrittweise in Echtzeit. Geeignet für Anwendungen, die schnellen Zugriff erfordern, etwa IoT-Monitoring.
Hybride Aufnahme: Verbindet Batch- und Streaming-Verfahren. Unterstützt sowohl geplante Updates als auch Echtzeit-Feeds und ist damit optimal für Szenarien, die statische Aktualisierungen und dynamisches Tracking kombinieren.

Welche Arten von Daten können aufgenommen werden?

Verschiedene Datenstrukturen erfordern spezifische Aufnahme- und Verarbeitungstechniken:

Unstrukturierte Daten: Daten ohne vordefiniertes Format, z. B. Textdateien, Bilder und Videos, erfordern oft spezialisierte Werkzeuge zur Verarbeitung und werden in der Regel über Batch- oder Hybridmethoden aufgenommen.
Halbstrukturierte Daten: Daten mit einer gewissen Struktur, wie JSON oder XML, eignen sich sowohl für Batch- als auch für Streaming-Aufnahmen und bieten Flexibilität beim Umgang mit sich verändernden Attributen.
Strukturierte Daten: Daten, die in einem definierten Schema organisiert sind (z.B. Datenbanken, Tabellenkalkulationen); sie lassen sich schnell über Batch- oder Streaming-Verfahren integrieren und eignen sich besonders für Analysen und Reporting.

Wichtige Tools und Funktionen zur Datenaufnahme

Beliebte Tools

Die Werkzeuge zur Datenaufnahme reichen von Open-Source-Optionen wie Apache NiFi und Kafka, die für Flexibilität und Anpassungsfähigkeit bekannt sind, bis hin zu kommerziellen Plattformen wie der Databricks Data Intelligence Platform, die Aufnahme, Transformation und Orchestrierung auf einer Plattform vereint.

Databricks Lakeflow ist eine einheitliche, intelligente Lösung für Datenengineering, die auf der Data Intelligence Plattform aufbaut. Sie deckt die Aufnahme, Transformation und Orchestrierung Ihrer Daten ab.
Als Teil von Lakeflow bietet Lakeflow Connect Konnektoren zu unterschiedlichsten Datenquellen. So lassen sich strukturierte und unstrukturierte Daten aus Unternehmensanwendungen, Dateien und Datenbanken flexibel, einfach und effizient aufnehmen.
Lakeflow Connect ermöglicht die Datenaufnahme aus einer Vielzahl verschiedener Datenquellen:

Verwaltete Konnektoren: Erfassen Sie Daten über integrierte Konnektoren für Software-as-a-Service (SaaS)-Anwendungen und Datenbanken.
Standard-Konnektoren: Erfassen Sie Daten aus Cloud-Objektspeichern und Streaming-Quellen wie Kafka mithilfe von Entwickler-Tools.
Dateien: Nehmen Sie Dateien auf, die sich in Ihrem lokalen Netzwerk befinden, auf ein Volume hochgeladen wurden oder aus einem Internetstandort heruntergeladen wurden.

Wesentliche Fähigkeiten

Effektive Aufnahme-Tools optimieren die Datenverarbeitung mit Funktionen wie:

Schema-Evolution: Passt sich automatisch an Änderungen in Datenstrukturen an, wodurch manuelle Eingriffe reduziert werden.
Verfolgung der Datenherkunft: Unterstützt die Rückverfolgung von Datenquellen und erfüllt Governance- und Compliance-Anforderungen.
Fehlerbehandlung und Überwachung: Identifiziert und behebt Probleme in Echtzeit, um zuverlässige Datenpipelines zu gewährleisten.
Skalierbarkeit: Hält die Leistung stabil, auch wenn Datenmengen wachsen – entscheidend für groß angelegte Operationen.
Datenintegration: Ermöglicht eine nahtlose Integration mit Data Lakes und Warehouses, was eine einheitliche Datenverwaltung ermöglicht.

Open Source vs. kommerzielle Lösungen

Open-Source-Tools bieten Flexibilität und Kontrolle, erfordern jedoch oft mehr Einrichtung, was sie ideal für technische Teams macht. Databricks kombiniert Open-Source-Grundlagen mit einem umfangreichen Partnernetzwerk. Die Databricks Data Intelligence Platform bietet verwaltete Datenaufnahme mit integrierter Governance und Automatisierung, was die Betriebskosten und die Komplexität reduziert.

Datenaufnahme vs. ETL vs. Datenpipelines

Die Datenaufnahme ist in der Regel der erste Schritt in der Datenverarbeitung von der Sammlung bis zur Analyse und führt zu weiteren sequenziellen Operationen. Ihr Hauptzweck der Datenaufnahme besteht darin, Rohdaten aus mehreren Quellen zu erfassen und in Systeme wie Data Lakes, Data Warehouses oder Lakehouses zu übertragen. Die meisten Organisationen benötigen zusätzliche Schritte über die Aufnahme hinaus, da Rohdaten meist noch verfeinert werden müssen, bevor sie für Analysen und Entscheidungsprozesse nutzbar sind. Datenaufnahme bedeutet, Daten aus verschiedenen Quellen schnell und flexibel verfügbar zu machen, ohne ihr Format anzupassen – als Basis für nachgelagerte Verarbeitungsschritte.

Was ist der Unterschied zwischen Datenaufnahme und ETL?

Datenaufnahme bringt Rohdaten aus verschiedenen Quellen in ein Repository, ohne sie zu transformieren, und stellt den unmittelbaren Zugriff auf unveränderte Daten sicher.
ETL umfasst das Extrahieren von Daten, deren Transformation zur Erfüllung spezifischer Anforderungen sowie das Laden in ein Zielsystem. Im Mittelpunkt steht dabei die Datenvorbereitung für Analysen. (Erfahren Sie mehr über den Unterschied zwischen ETL und ELT.)
Datenpipelines bilden die vollständige Abfolge des Verschiebens transformierter Daten zur weiteren Verarbeitung ab. Eine Pipeline umfasst mehrere aufeinanderfolgende Schritte, die über Datenaufnahme und ETL hinausgehen – darunter Validierungstests, Entfernung von Duplikaten, Ausführung von Machine-Learning-Algorithmen sowie die Verarbeitung von Streaming-Daten.

Wann welcher Ansatz sinnvoll ist

Die Datenzufuhr ist ideal für Szenarien, n denen schneller Zugriff auf Rohdaten und nahezu Echtzeit-Einblicke benötigt werden. ETL ist die richtige Wahl, wenn vorbereitete und strukturierte Daten für Business Intelligence, Analysen oder standardisierte Berichte gebraucht werden. Datenpipelines bieten einen breiteren Rahmen für die Steuerung komplexer Workflows und Integration mehrere Schritte zu einem kohärenten Prozess.

Integration von Datenaufnahme und ETL

In modernen Architekturen ergänzen sich Datenaufnahme und ETL häufig. Zum Beispiel können Daten zuerst in ein Lakehouse aufgenommen werden, wo ETL-Prozesse sie später für tiefere Analysen und Berichte aufbereiten, während eine breitere Datenpipeline den gesamten Workflow automatisiert, von der Aufnahme bis zum Machine Learning und zur Analyse. Databricks Lakeflow integriert diese Prozesse und schafft einen einheitlichen Workflow für Flexibilität und umfassendes Datenmanagement.

Was sind die Vorteile und Herausforderungen der Datenaufnahme?

Vorteile

Echtzeit-Einblicke: Ermöglicht den Zugriff auf aktuelle Daten für zeitnahe Entscheidungen – entscheidend für alle Prozesse, die auf stets frische Informationen angewiesen sind.
Verbesserte Skalierbarkeit: Unterstützt effizient wachsende Datenvolumen aus verschiedenen Quellen und passt sich an wachsende organisatorische Bedürfnisse an.
Verbesserte KI-Modelle: Kontinuierliche Updates erhöhen die Genauigkeit von KI-Modellen, was für Anwendungen wie vorausschauende Wartung und Kundensegmentierung unerlässlich ist.
Zentralisierter Zugang: Reduziert die Notwendigkeit wiederholter Datenextraktionen und ermöglicht es Teams in verschiedenen Abteilungen, Daten effizient zu nutzen.

Herausforderungen

Datenkonsistenz: Die Sicherstellung einheitlicher Qualität aus verschiedenen Quellen erfordert robuste Validierungsmechanismen.
Latenzmanagement: Die Sicherstellung geringer Latenz bei der Echtzeit-Datenaufnahme kann ressourcenintensiv sein und erfordert eine zuverlässige Infrastruktur.
Integrationskomplexität: Die Zusammenführung von Daten aus verschiedenen Quellen erfordert spezialisierte Tools und Fachwissen, um Formate abzugleichen und Schema-Unstimmigkeiten zu beheben.

Best Practices für die Datenaufnahme

Eine starke Grundlage schaffen

Die Einführung grundlegender Best Practices hilft, effiziente, zuverlässige und gut verwaltete Aufnahmeworkflows zu gewährleisten:

Automatisieren Sie das Monitoring und die Handhabung von Fehlern: Automatisierte Monitoring-Prozesse erkennen und beheben Datenqualitätsprobleme in Echtzeit, sichern die Datenzuverlässigkeit und reduzieren Ausfallzeiten.
Optimieren Sie für Effizienz: Verwenden Sie inkrementelle Aufnahmemethoden, um redundante Datenübertragungen zu vermeiden, und konzentrieren Sie sich auf neue oder aktualisierte Datensätze, um Zeit und Ressourcen zu sparen.
Binden Sie Governance frühzeitig ein: Richten Sie Aufnahmepipelines nach Governance-Frameworks wie dem Unity Catalog aus, um Compliance sicherzustellen, den Zugriff zu schützen und die Nachverfolgbarkeit der Datenherkunft zu vereinfachen.

Laufende Optimierung

Sobald die Aufnahmeprozesse etabliert sind, ermöglicht kontinuierliche Optimierung die Anpassung an veränderte Geschäftsanforderungen und eine effektive Verwaltung wachsender Datenvolumen.

Strategische Planung für Skalierbarkeit: Bewerten Sie regelmäßig Datenquellen, Aufnahmefrequenzen sowie Anforderungen an Batch- oder Streaming-Aufnahmen, um das Wachstum der Organisation zu unterstützen und neue Ziele wie Echtzeitanalysen oder Archivierung zu erreichen.
Sicherstellen von Datenqualität und -konsistenz: Führen Sie während des Aufnahmeprozesses Validierungsprüfungen durch, um die Datenqualität zu gewährleisten, und verwenden Sie Governance-Tools. Nutzen Sie Governance-Tools, um die Datenhandhabung zu standardisieren und einheitliche Qualitätsstandards teamübergreifend durchzusetzen.
Kontinuierliche Überwachung und Feinabstimmung: Richten Sie Alarme für Latenz, Schemaänderungen und andere Störungen der Datenaufnahme ein, damit Teams schnell reagieren und Konfigurationen anpassen können, um die Leistung zu maximieren und Verzögerungen zu minimieren.

Zurück zum Glossar