Was ist ein gerichteter azyklischer Graph (DAG)?

Verstehen Sie, wie DAGs Abhängigkeiten und Ausführungsabläufe in Datenpipelines, Workflow-Orchestrierung und verteiltem Rechnen modellieren.

von Databricks-Mitarbeiter

Verstehen Sie, was gerichtete azyklische Graphen (DAGs) sind und wie sie Aufgabenabhängigkeiten ohne Zirkelbezüge darstellen.
Erfahren Sie, wie DAGs eine effiziente Workflow-Orchestrierung in Systemen wie Apache Airflow und Datenverarbeitungs-Frameworks ermöglichen.
Entdecken Sie, warum DAGs für die Optimierung der parallelen Ausführung, die Sicherstellung der korrekten Aufgabenreihenfolge und die Verwaltung komplexer Datenpipelines unerlässlich sind.

Ein gerichteter azyklischer Graph (auch bekannt als DAG, engl. directed acyclic graph) ist ein grundlegendes Konzept im Data Engineering, in der Analytics und in der KI. Er bietet eine strukturierte Möglichkeit, Tasks, Abhängigkeiten und Informationsflüsse abzubilden. Unabhängig davon, ob Sie eine Datenpipeline bauen, einen Machine-Learning-Workflow orchestrieren oder Kausalzusammenhänge untersuchen: DAGs liefern eine einfache und verlässliche Methode, um darzustellen, wie Schritte zusammenhängen und in welcher Reihenfolge sie ausgeführt werden sollten.

Ein DAG ist ein Graphentyp mit drei definierenden Eigenschaften: Er ist gerichtet, azyklisch und besteht aus Knoten, die durch Kanten verbunden sind. Zusammen stellen diese Eigenschaften sicher, dass die Arbeit in eine Richtung fließt, ohne Schleifen zu bilden. Dadurch eignen sich DAGs besonders gut, um Prozesse zu beschreiben, die in einer kontrollierten Reihenfolge ablaufen müssen.

Wofür steht DAG?

Gerichtet bezieht sich auf die Richtung von Beziehungen. In einem DAG zeigt jede Kante von einem Knoten zu einem anderen und markiert damit einen Informationsfluss oder eine Abhängigkeit. Wenn Aufgabe B von Aufgabe A abhängt, zeigt die Kante von A nach B.
Azyklisch bedeutet, dass der Graph keine Zyklen enthält. Ein Zyklus entsteht, wenn eine Folge von Kanten am Ende wieder zum Ausgangspunkt zurückführt. Es ist essenziell, Zyklen zu verhindern. Ohne diese Regel könnte ein Workflow endlos laufen oder widersprüchliche Abhängigkeiten erzeugen.
Graph bezeichnet die mathematische Struktur, die aus Knoten (auch Vertices genannt) und Kanten besteht. Knoten repräsentieren Tasks oder Datenobjekte. Kanten beschreiben Beziehungen, zum Beispiel, welcher Schritt stattfinden muss, bevor ein anderer beginnen kann.

Wenn diese drei Eigenschaften zusammenkommen, wird ein DAG zu einem leistungsstarken Werkzeug, um Ordnung, Einschränkungen und den Ablauf in Prozessen beliebiger Komplexität präzise auszudrücken.

DAG als Datenstruktur

In der Graphentheorie ist ein gerichteter azyklischer Graph ein formales Konstrukt, mit dem sich Abhängigkeiten modellieren lassen. Knoten repräsentieren Entitäten. Kanten repräsentieren gerichtete Beziehungen. Da Kanten immer nach vorne zeigen und niemals Schleifen bilden, stellen DAGs sicher, dass ein Workflow vorankommt.

DAGs unterscheiden sich von:

Ungerichtete Graphen, die Beziehungen ohne Richtung abbilden
Zyklische Graphen, die Schleifen erzeugen können
Allgemeine Graphen, die keine Strukturbeschränkungen haben

Diese mathematische Grundlage unterstützt praktische Anwendungen in der Informatik, von Compilern bis zur Projektplanung.

DAG im Kontext von Data Engineering

Im Data Engineering hat sich der Begriff DAG von seinen mathematischen Wurzeln zu einer praxisnahen Beschreibung von Workflows entwickelt. Wenn von einem „Pipeline-DAG“ die Rede ist, ist damit meist der Graph gemeint, der definiert, wie Daten durch eine Reihe von Aufgaben fließen und dabei transformiert werden.

Oft wird „DAG“ synonym zu „Pipeline“ verwendet. Technisch gesehen ist der DAG jedoch die Darstellung der Logik der Pipeline, nicht die Pipeline selbst.

DAGs tauchen auch in anderen Kontexten auf. Zum Beispiel:

Tools zur Workflow-Orchestrierung verwenden DAGs, um die Reihenfolge und Ausführung von Tasks zu bestimmen.
In der Forschung zur kausalen Inferenz werden DAGs eingesetzt, um Ursache und Wirkung zu modellieren.

Diese Bedeutungen sind durch eine gemeinsame Struktur miteinander verbunden, unterscheiden sich aber in ihrem Zweck.

Wie DAGs funktionieren: Struktur und Ausführung

DAGs sind eine klare Methode, um komplexe Arbeit in überschaubare Teile aufzuteilen und die korrekte Reihenfolge der Tasks sicherzustellen.

Kernkomponenten eines DAG

Ein typischer Data-Engineering-DAG umfasst mehrere Kernelemente:

Knoten stellen Tasks dar, wie z. B. die Datenaufnahme, die Ausführung einer Transformation oder das Training eines Modells.
Kanten repräsentieren Abhängigkeiten. Eine Kante von Task A zu Task B bedeutet, dass B erst starten kann, wenn A abgeschlossen ist.
Start- und Endpunkte markieren, wo die Arbeit beginnt und endet.
Parallele Branches ermöglichen die gleichzeitige Ausführung von Tasks ohne gemeinsame Abhängigkeiten.
Metadaten und Logs verfolgen Status, Verlauf und Ergebnisse zur Beobachtbarkeit und Debugging.

Diese Struktur ermöglicht es Teams zu visualisieren, wie sich Daten bewegen und wie die Arbeit von einem Schritt zum nächsten voranschreitet.

Abhängigkeiten und Tasksequenzierung

Abhängigkeiten definieren die Ausführungsreihenfolge innerhalb eines DAG. Wenn ein Task vorgelagerte Abhängigkeiten hat, müssen diese Tasks abgeschlossen sein, bevor der nachgelagerte Task beginnen kann.

DAGs-Unterstützung:

Sequenzielle Ausführung, wenn Tasks voneinander abhängig sind
Parallele Ausführung, wenn Tasks unabhängig sind
Topologische Sortierung, bei der Knoten so sortiert werden, dass jeder Task nach seinen Abhängigkeiten erscheint

Wenn eine Abhängigkeit fehlt oder falsch ist, kann der DAG nicht ausgeführt werden. Dieser integrierte Schutzmechanismus verhindert, dass Tasks in der falschen Reihenfolge ausgeführt werden.

Ausführungsablauf und Schedule

DAGs können auf unterschiedliche Weise getriggert werden:

Manuelle Ausführungen, nützlich für die Entwicklung
Zeitbasierte Schedules, wie stündliche oder tägliche Aktualisierungen
Ereignisgesteuerte Trigger, deren Ausführung durch externe Änderungen ausgelöst wird

Während der Ausführung werden Tasks gemäß ihren Abhängigkeiten ausgeführt. Planungssysteme umfassen in der Regel:

Wiederholungslogik zur Behandlung von temporären Fehlern
Richtlinien zur Fehlerbehandlung zum Umgang mit Ausfällen
Backfilling, bei dem historische Datenperioden erneut ausgeführt werden
Idempotenzprinzipien, die sicherstellen, dass wiederholte Ausführungen die gleichen Ergebnisse liefern

Diese Funktionen helfen dabei, zuverlässige Datenpipelines zu betreiben, selbst bei großen Workloads oder instabilen Upstream-Systemen.

DAG-Anwendungen im Daten-Engineering

DAGs bilden das Rückgrat vieler Data-Engineering-Workflows. Sie schaffen Klarheit, Struktur und Zuverlässigkeit für Prozesse, die über längere Zeiträume hinweg konsistent laufen müssen.

ETL- und ELT-Datenpipelines

ETL-Workflows (Extract, Transform, Load) lassen sich natürlich als DAGs abbilden. Jede Phase hängt von der vorherigen ab:

Extract: Tasks erfassen Daten aus verschiedenen Quellen
Transform: Tasks bereinigen, validieren und formen die Daten
Load: Tasks schreiben Daten in Tabellen oder Speicherziele

DAGs unterstützen auch die inkrementelle Verarbeitung, Change Data Capture und andere Muster, die eine saubere Sequenzierung erfordern.

Workflows zur Datentransformation

In analytischen Umgebungen werden Daten oft stufenweise transformiert. Diese Transformationen können Daten vom Rohdatenspeicher in kuratierte Präsentationsschichten überführen.

DAGs helfen Teams:

Abhängigkeiten zwischen Tabellen verstehen
zu visualisieren, wie Zwischen-Datasets miteinander verbunden sind
Herkunft für Auditierbarkeit nachzuvollziehen
modulare Transformationen mit wiederverwendbaren Bausteinen aufzubauen

Diese Transparenz ist besonders wertvoll, wenn Teams ihre Datenmodelle skalieren.

Machine-Learning-Pipeline

ML-Workflows profitieren von DAGs, weil sie aus vielen miteinander verknüpften Phasen bestehen, etwa:

Datenaufbereitung
feature engineering
Model Training
Validierung und Evaluierung
Bereitstellung und Batch- oder Echtzeit-Serving

Jeder Schritt baut auf Ergebnissen vorheriger Schritte auf. DAGs stellen sicher, dass diese Pipelines reproduzierbar und nachverfolgbar sind.

Echtzeit- und Streaming-Workflows

Obwohl DAGs oft mit der Stapelverarbeitung in Verbindung gebracht werden, gelten sie auch für Echtzeitarchitekturen:

Micro-Batch-Frameworks nutzen intern die DAG-Ausführung
Ereignisgesteuerte Systeme triggern DAG-Tasks, sobald Daten eintreffen
Hybride Systeme kombinieren Streaming- und Batch-Muster

Diese Anwendungsfälle zeigen, wie DAGs Konsistenz über verschiedene Verarbeitungsmodi hinweg ermöglichen.

Effektive DAGs erstellen: Best Practices

Das Entwerfen eines klaren, wartbaren DAGs erfordert eine durchdachte Planung. Das Ziel ist es, ein Gleichgewicht zwischen Struktur und Einfachheit zu finden.

Entwerfen modularer und wartbarer DAGs

Effektive DAGs folgen einigen Prinzipien:

Einzelne Verantwortlichkeit für jeden Task
Modulare Komponenten, die wiederverwendet werden können
Klare Namenskonventionen
Dokumentation, die Absicht und Verhalten erklärt

Übermäßig große Tasks verringern die Sichtbarkeit. Extrem granulare Tasks erzeugen unnötige Komplexität. Ein ausgewogener Ansatz sorgt dafür, dass Pipelines lesbar und skalierbar bleiben.

Abhängigkeiten und Komplexität steuern

Das Abhängigkeitsmanagement ist entscheidend. Zu den Best Practices gehören:

Minimierung unnötiger Abhängigkeiten
Vermeidung tief verschachtelter Ketten
Verwendung von Fan-Out-Mustern zur Parallelisierung unabhängiger Arbeit
Verwendung von Fan-in-Mustern zur Konsolidierung von Ergebnissen
Entwerfen von bedingten Pfaden für optionale Aufgaben

Klare Abhängigkeiten verkürzen Laufzeiten und erleichtern Troubleshooting.

Fehlerbehandlungs- und Wiederherstellungsstrategien

Robuste DAGs beinhalten Mechanismen zur Erkennung und Behebung von Ausfällen:

Wiederholungsrichtlinien, oft mit exponentiellem Backoff
Fehlerisolierung, damit ein einzelner Task nicht das gesamte System stoppt
Alerts und Benachrichtigungen
Checkpointing, das den Fortschritt erfasst und eine Wiederaufnahme unterstützt
Tests vor der Produktion zur Validierung der Logik und der Datenannahmen

Diese Strategien halten Pipelines stabil und resilient.

Häufige Anti-Muster, die es zu vermeiden gilt

Häufige Fallstricke sind:

DAGs mit übermäßigen Abhängigkeiten, die die Ausführung verlangsamen
Problemumgehungen, die eine zirkuläre Logik einführen
Monolithische Tasks, die die Komplexität verbergen
Schwache Fehlerbehandlung
Schlechtes Task-Design, das zu Leistungsproblemen führt

Das frühzeitige Erkennen dieser Muster hilft, die Qualität der Pipeline aufrechtzuerhalten.

DAG-Visualisierung und Monitoring

Die visuelle Darstellung eines DAGs macht seine Struktur intuitiv verständlich. Monitoring der Ausführung gewährleistet die Zuverlässigkeit der Systeme.

Lesen und Interpretieren von DAG-Diagrammen

DAG-Diagramme zeigen typischerweise:

Knoten als Kästen oder Kreise
Kanten als Pfeile
Farben oder Symbole, die den Tasksstatus anzeigen
Ausführungspfade, die einen parallelen oder sequenziellen Ablauf zeigen

Diese Visualisierungen helfen Teams, Engpässe zu identifizieren, die Ausführungslaufzeit nachzuvollziehen und den kritischen Pfad zu finden.

Monitoring der DAG-Ausführung

Sobald ein DAG mit der Ausführung beginnt, wird die Beobachtbarkeit unerlässlich. Monitoring-Tools bieten:

Echtzeit-Taskstatus
Performance-Metriken
Logs und Fehlermeldungen
Historische Trends über Ausführungen hinweg

Diese Einblicke unterstützen die Optimierung, Fehlerbehebung und Kapazitätsplanung.

Verwendung von DAGs für die Datenherkunft

Da DAGs Transformationen und Abhängigkeiten abbilden, unterstützen sie von Natur aus die Datenherkunft:

Daten von der Quelle bis zur Ausgabe nachverfolgen
Auswirkungen von Änderungen an einer Datenquelle verstehen
Pflege von Audit-Trails zur Compliance
Verbesserung der Transparenz bei der Fehlerbehebung

Datenherkunft hilft Teams, das Vertrauen in ihre Daten sicherzustellen.

Erste Schritte mit DAGs

Sie benötigen keine fortgeschrittene Mathematik oder Graphentheorie, um mit DAGs zu arbeiten. Einige grundlegende Konzepte sind ausreichend.

Voraussetzungen und Grundlagenwissen

Bevor Sie Ihren ersten DAG erstellen, sollten Sie Folgendes verstehen:

Grundlagen von Datenpipelines
Grundlegende Programmierkonzepte (Python, SQL oder Scala)
Funktionsweise von Abhängigkeiten und Schedule
Prinzipien des zuverlässigen Workflow-Designs

Diese liefern Kontext, sind aber keine strengen Anforderungen.

Erstellung Ihres ersten DAG

Ein erster einfacher DAG könnte 3 bis 5 Tasks umfassen. Zu Beginn:

Definieren Sie die Tasks eindeutig.
Identifizieren Sie Abhängigkeiten zwischen ihnen.
Testen Sie jede Task unabhängig.
Verbinden Sie die Tasks in einer DAG-Struktur.
Führen Sie den Workflow aus und überprüfen Sie seine Ausführung.
Iterieren und Komplexität nach Bedarf hinzufügen.

Klein anzufangen reduziert die kognitive Belastung und schafft Vertrauen.

Tools und Frameworks für die Arbeit mit DAGs

Viele Orchestrierungs- und Workflow-Tools verwenden DAGs im Hintergrund. Verschiedene Plattformen bieten visuelle Baukästen, per Code definierte Abläufe oder Kombinationen aus beidem.

Berücksichtigen Sie bei der Auswahl eines Tools Folgendes:

Anwenderfreundlichkeit
Integration in Ihre Datenumgebung
Observability-Features
Debugging-Unterstützung
Skalierbarkeit für zukünftiges Wachstum

Das richtige Tool hängt von Ihrem Use Case und Ihren betrieblichen Anforderungen ab.

DAGs über das Data Engineering hinaus

DAGs kommen in der Informatik, der Forschung und in verteilten Systemen vor. Diese zusätzlichen Anwendungen erklären, warum DAGs so weit verbreitet sind.

DAGs in der kausalen Inferenz und Forschung

In wissenschaftlichen Bereichen veranschaulichen DAGs Ursache-Wirkungs-Beziehungen. Forscher verwenden sie, um:

Störfaktoren zu identifizieren
Mediation und Selektionsverzerrung zu verstehen
Studiendesigns zu planen
über Interventionen nachzudenken

Diese Diagramme dienen als konzeptionelle Karten und nicht als Ausführungs-Workflows.

DAGs in der Computerwissenschaft und in Algorithmen

DAGs unterstützen verschiedene Rechenkonzepte:

Compiler-Optimierung
Verläufe der Versionskontrolle
Algorithmen zur Taskplanung
Topologische Sortierung
Erreichbarkeitsanalyse

Ihre azyklische Eigenschaft stellt deterministisches Verhalten auch in komplexen Systemen sicher.

DAGs in Blockchain und verteilten Systemen

Einige Distributed-Ledger-Technologien verwenden DAGs anstelle von herkömmlichen Ketten. Diese Struktur kann Folgendes ermöglichen:

parallele Transaktionsverarbeitung,
schnellere Bestätigungszeiten,
höhere Skalierbarkeit.

Diese Systeme bleiben ein aufstrebendes Forschungs- und Entwicklungsgebiet.

Die Entwicklung und Zukunft von DAGs im Datenbereich

DAGs sind für das moderne Data Engineering unverzichtbar geworden, weil sie Struktur, Zuverlässigkeit und Klarheit schaffen.

Wie DAGs für das Data Engineering essenziell wurden

Mit dem Wachstum der Workloads, weg von einfachen Skripten hin zu verteilten Cloud-Systemen, stieg der Bedarf an leistungsfähigeren Koordinations-Tools. DAGs boten:

deterministische Ausführung,
Transparenz
Modularität,
skalierbare Orchestrierung.

Der Wandel hin zu inkrementellen, streaming- und KI-gesteuerten Workloads hat die Bedeutung eines formellen Abhängigkeitsmanagements verstärkt.

Aufkommende Trends bei DAG-basierten Workflows

Mehrere Trends prägen die Zukunft von DAGs:

Deklarative Definitionen, die sich auf gewünschte Ergebnisse statt auf bestimmte Schritte konzentrieren
KI-gestützte DAG-Erstellung, die Teams dabei hilft, effiziente Workflows zu entwerfen
Serverless und ereignisgesteuerte Ausführung, die den Infrastrukturaufwand reduziert
Einheitliche Batch- und Streaming-Architekturen, die mehrere Verarbeitungsmodi kombinieren
Konvergenz von Data-Engineering-, ML- und Analytics-Workflows

Diese Entwicklungen deuten darauf hin, dass sich DAGs weiterentwickeln und gleichzeitig ein grundlegendes Organisationsprinzip bleiben werden.

Fazit

Gerichtete azyklische Graphen (DAGs) sind eine der wichtigsten Strukturen in modernen Datensystemen. Sie definieren, wie Arbeit fließt, stellen die korrekte Reihenfolge der Tasks sicher und bieten ein klares, visuelles Framework für zuverlässige Pipelines. Von Batch-ETL-Workflows über Machine-Learning-Pipelines bis hin zu Echtzeit-Architekturen helfen DAGs Teams, Prozesse modular, nachvollziehbar und resilient zu gestalten.

Indem man mit kleinen, einfachen DAGs beginnt und schrittweise die Komplexität erhöht, kann jeder lernen, effektive Workflows zu erstellen. Da Daten- und KI-Ökosysteme weiter wachsen, werden DAGs ein wichtiges Werkzeug bleiben, um Arbeit im benötigten Maßstab zu organisieren und auszuführen.

Wenn Sie Ihr Verständnis vertiefen möchten, lohnt es sich, Tools und Frameworks zu erkunden, die DAG-basierte Orchestrierung unterstützen und mit der Erstellung Ihrer eigenen Workflows experimentieren.

Häufig gestellte Fragen

Was ist der Unterschied zwischen einem DAG und einem regulären Workflow?

Ein regulärer Workflow modelliert Abhängigkeiten möglicherweise nicht explizit oder verhindert Schleifen. Ein DAG erzwingt eine strikte Reihenfolge und garantiert, dass keine Zyklen auftreten. Dadurch wird die Ausführung vorhersehbar und sicher.

Können DAGs bedingte Logik und Verzweigungen verarbeiten?

Ja. DAGs können Verzweigungen, optionale Pfade und Regeln enthalten, die bestimmen, ob eine Task ausgeführt wird. Einige Systeme unterstützen auch die dynamische DAG-Generierung zur Laufzeit.

Was passiert, wenn ein Task in einer DAG fehlschlägt?

Das Verhalten hängt von der Konfiguration ab. Viele Systeme ermöglichen Wiederholungsversuche, Fehlerrichtlinien und Benachrichtigungen. Fehler können je nach Design isoliert bleiben oder sich kaskadenartig fortsetzen.

Woher weiß ich, ob mein Workflow einen DAG benötigt?

Wenn ein Prozess Abhängigkeiten hat, zuverlässig laufen muss oder aus mehreren aufeinander aufbauenden Schritten besteht, ist ein DAG in der Regel sinnvoll. Einfache einstufige Jobs erfordern möglicherweise keinen.

Was ist der Unterschied zwischen Workflow-DAGs und kausalen DAGs?

Workflow-DAGs repräsentieren die Ausführungsreihenfolge. Kausale DAGs repräsentieren Ursache-Wirkungs-Beziehungen. Sie haben eine gemeinsame Struktur, unterstützen aber unterschiedliche Ziele.

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Alle Blogs anzeigen