Datentransformation

Was ist Datentransformation?

Als Datentransformation bezeichnet man den Prozess der Umwandlung von Rohdaten, die aus Datenquellen extrahiert wurden, in verwertbare Datasets. Datenpipelines umfassen oft mehrere Datentransformationen, die ungeordnete Informationen in saubere, hochwertige und belastbare Daten umwandeln, mit denen Unternehmen betriebliche Anforderungen erfüllen und aussagekräftige Erkenntnisse gewinnen können. Der Prozess der Datentransformation ist ein zentraler Bestandteil des Data Engineering.

Ähnliche Themen erkunden

Das große Buch des Data Engineering. 2. Ausgabe

Entdecken Sie topaktuelle technische Anleitungen für den Aufbau von Echtzeit-Datenpipelines.

JETZT HERUNTERLADEN

Erste Schritte mit ETL

Lernen Sie mehr über ETL-Pipelines – mit dieser Vorschau des O'Reilly-Leitfadens.

JETZT HERUNTERLADEN

Lakehouse-Grundlagen

Absolvieren Sie dieses kostenlose On-Demand-Training, um sich in Sachen Lakehouse fit zu machen.

Jetzt loslegen

Warum ist die Datentransformation wichtig?

Bei der Datentransformation werden Datasets so manipuliert, dass sie von Geschäftsdatenanwendungen genutzt werden können. Das ist wesentlich, um aus den Rohdaten einen Mehrwert zu generieren: Es müssen Erkenntnisse gewonnen werden, die für Unternehmensentscheidungen genutzt werden können. Die Transformation stellt Unternehmen die Daten bereit, die sie brauchen, um die eigene Vergangenheit, Gegenwart und Zukunft besser verstehen und Chancen agil nutzen zu können.

Datentransformation und ETL

Die Transformation von Daten ist ein Herzstück von ETL (Extract, Transform, Load). Mit ETL können Data Engineers Daten aus verschiedenen Quellen extrahieren, sie in eine verarbeitungsfähige und belastbare Ressource umwandeln und sie in die Systeme laden, auf die dann die Endbenutzer zugreifen, um geschäftliche Probleme zu lösen. In der Transformationsphase werden die Daten – oft nach einem bestimmten Schema – bereinigt, gemappt und transformiert.

Beispiele für Datentransformationen

Verschiedene Arten der Transformation können verwendet werden, um die Qualität und Integrität von Daten zu gewährleisten. Die Bandbreite reicht dabei von der Datendeduplizierung, die die Datenqualität und -leistung durch das Entfernen doppelter Daten verbessert, über die Datenoptimierung, wobei die Qualität durch das Herausfiltern irrelevanter Daten erhöht wird, bis hin zur Datenintegration, bei der verschiedene Datentypen in derselben Struktur zusammengeführt werden. Informationen zu weiteren Datentransformationsarten und zugehörigen Definitionen finden Sie im nächsten Abschnitt.

Datentransformationsarten

Der Datentransformationsprozess kann mithilfe verschiedener Techniken durchgeführt werden, die von den Daten und dem Ziel der Transformation abhängen. Hierzu gehören u. a.:

Bucketing/Binning: Unterteilung einer numerischen Reihe in kleinere „Buckets“ oder „Bins“. Dies geschieht durch die Umwandlung numerischer Merkmale in Kategoriemerkmale unter Verwendung von Schwellenwerten.

Datenaggregation: Verfahren zur Zusammenfassung von Daten, damit diese besser für Berichte und Visualisierungen verwendet werden können. Die Aggregation kann mit verschiedenen Methoden erfolgen, z. B. als Summe, Durchschnitt oder Median von Werten über Zeit, Raum oder andere Dimensionen.

Datenbereinigung: Prozess der Verbesserung der Datenrichtigkeit und -qualität durch Löschen fehlerhafter, unvollständiger oder veralteter Informationen.

Datendeduplizierung: Komprimierungsverfahren, bei dem doppelte vorhandene Daten ermittelt und entfernt werden, um den Datenübertragungsprozess zu beschleunigen.

Datenableitung: Erstellen von Regeln, um nur die benötigten Informationen aus der Datenquelle zu extrahieren.

Datenanreicherung: Verfahren zur Anreicherung vorhandener Daten mithilfe externer Datenquellen, um ein Datenfeld zu erweitern oder fehlende Datenfelder zu ergänzen.

Datenfilterung: Verfeinerung der Daten, um irrelevante Daten zu entfernen und nur die wirklich benötigten Informationen anzuzeigen.

Datenintegration: Zusammenführen verschiedener Datentypen in derselben Struktur. Bei der Datenintegration werden unterschiedliche Daten standardisiert, um als Ganzes analysiert werden zu können.

Datenverknüpfung: Vorgang, bei dem mehrere Datenbanktabellen mit einem gemeinsamen Datenfeld zu einem einzigen Dataset zusammengeführt werden.

Datenaufteilung: Unterteilung einer einzelnen Spalte in mehrere Spalten zu dem Zweck, die Daten zu analysieren. Dies kann für die Analyse großer Datenmengen nützlich sein, die über einen längeren Zeitraum zusammengetragen wurden.

Datenzusammenfassung: Form der Datenaggregation, bei der verschiedene geschäftliche Kennzahlen durch die Berechnung von Summenwerten erstellt werden.

Datenvalidierung: Sicherstellung der Datenqualität durch Erstellen automatischer Regeln, die Lösungen für bestimmte Datenprobleme generieren.

Formatrevision: Änderung von Formaten zur Behebung von Problemen im Zusammenhang mit Feldern, die unterschiedliche Datentypen enthalten.

Schlüsselumstrukturierung: Prozess, bei dem Schlüssel mit integrierten Bedeutungen in generische Schlüssel (Zufallszahlen, die auf die Informationen in der Quelldatenbank verweisen) geändert werden, um eine Verlangsamung des Datensystems zu vermeiden.

Leistungsoptimierungen bei der Datentransformation

Der Datentransformationsprozess kann sowohl zeit- als auch ressourcenaufwendig sein. Daher ist bei der Transformation eine optimale Performance entscheidend, um Kosten zu senken und Zeit einzusparen. Für die Leistungsoptimierung gibt es folgende Techniken:

Datenverdichtung
Partitionierung
Optimierung der Dateigröße
Überspringen und Beschneiden von Daten
Daten-Caching

Weitere Informationen zum Optimieren der Datentransformationsleistung finden Sie in unserem umfassenden Leitfaden.

Tools für die Datentransformation

Die Datentransformation ist entscheidend für die Erstellung verlässlicher Daten, aus denen Unternehmen Erkenntnisse gewinnen können. Allerdings stellen die Datentransformation und der gesamte ETL-Prozess große Herausforderungen dar – von Aufbau und Wartung zuverlässiger Datenpipelines bis hin zur Verwaltung der Datenqualität in zunehmend komplexen Pipelinearchitekturen. Mit Datenumwandlungstools lässt sich die Transformation effizienter und demokratischer gestalten und der ETL-Lebenszyklus vereinfachen.

Datentransformation auf der Data-Intelligence-Plattform

Databricks bietet essenzielle Tools für die Implementierung und Orchestrierung von Datentransformationen und ETL auf der Data-Intelligence-Plattform.

DLT unterstützt Data-Engineering-Teams beim unkomplizierten Entwickeln und Verwalten zuverlässiger Batch- und Streaming-Datenpipelines, die auf der Data-Intelligence-Plattform qualitativ hochwertige Daten liefern. DLT bietet automatische Datenqualitätstests, senkt die Streaming-Kosten durch effiziente automatische Skalierung von Rechenressourcen und bietet umfassende Transparenz für Überwachung und Beobachtbarkeit von Pipelines.

Databricks Workflows ist ein vollständig integrierter Managed Service für die Orchestrierung. Hiermit können Datenteams Datenpipelines besser automatisieren und orchestrieren. Workflows hilft Anwendern beim einfachen Definieren, Verwalten und Überwachen von Multitask-Workflows für ETL-, Analyse- und Machine-Learning-Pipelines zur Steigerung der Produktivität. Dabei lässt sich Workflows nahtlos in dbt integrieren. dbt ist ein Tool, mit dem alle Mitarbeiter im Datenteam sicher zu produktionsreifen Datenpipelines beitragen können. Außerdem trägt es zur Beschleunigung und zur Verbesserung der Sicherheit der Transformation bei.

Zusätzliche Ressourcen

Zurück zum Glossar