Qu'est-ce qu'un graphe acyclique orienté (DAG) ?

Comprendre comment les DAG modélisent les dépendances et les flux d'exécution dans les pipelines de données, l'orchestration des flux de travail et le calcul distribué

par Équipe Databricks

Comprendre ce que sont les graphes acycliques orientés (DAG) et comment ils représentent les dépendances entre les tâches sans références circulaires.
Apprendre comment les DAG permettent une orchestration efficace des flux de travail dans des systèmes comme Apache Airflow et les frameworks de traitement de données.
Découvrir pourquoi les DAG sont essentiels pour optimiser l'exécution parallèle, garantir un ordre correct des tâches et gérer des pipelines de données complexes.

Un graphe orienté acyclique, communément appelé DAG, est un concept fondamental en data engineering, en analytique et en IA. C'est une manière structurée de représenter les tâches, les dépendances et les flux d'informations. Pour construire un pipeline de données, orchestrer un workflow de machine learning ou étudier des relations de causalité, les DAG offrent un moyen simple et fiable de représenter des connexions entre différentes étapes et leur séquence d'exécution.

Un DAG est un type de graphe qui possède trois propriétés caractéristiques : il a une direction, il est acyclique, et il se compose de nœuds reliés par des arêtes. Du fait de la conjugaison de ces caractéristiques, les tâches ne peuvent progresser que dans une seule direction, sans créer de boucle. Cette structure rend le DAG idéal pour décrire des processus qui doivent se dérouler selon une séquence contrôlée.

Que signifie DAG ?

Directed, ou orienté, décrit la directionnalité des relations. Dans un DAG, chaque arête se rend d'un nœud à un autre et représente un flux d'informations ou une dépendance. Si la tâche B dépend de la tâche A, l'arête pointe de A vers B.
Acyclique signifie que le graphe ne contient aucun cycle. On parle de cycle lorsqu'une séquence d'arêtes finit par revenir à son point de départ. Les cycles doivent impérativement être évités. Sans cette règle, un workflow pourrait s'exécuter indéfiniment ou créer des dépendances conflictuelles.
Graphe désigne la structure mathématique composée de nœuds (ou sommets) et d'arêtes. Les nœuds représentent des tâches ou des objets de données. Les arêtes représentent des relations ; elles indiquent, par exemple, quelle étape doit avoir lieu pour qu'une autre puisse commencer.

Parce qu'il combine ces trois propriétés, le DAG est un outil puissant pour exprimer l'ordre, les contraintes et les flux dans des processus de tout niveau de complexité.

Le DAG en tant que structure de données

En théorie des graphes, un graphe orienté acyclique est une construction formelle utilisée pour modéliser les dépendances. Les nœuds représentent des entités. Les arêtes représentent des relations directionnelles. Comme les arêtes pointent toujours vers l'avant et ne forment jamais de boucles, les DAG garantissent la progression.

Les DAG diffèrent :

Des graphes non orientés, qui représentent des relations sans direction définie
Des graphes cycliques, qui peuvent produire des boucles
Des graphes généraux, dont la structure est dépourvue de contrainte

Cette base mathématique prend en charge différentes applications pratiques en informatique, des compilateurs à la planification de projet.

Le DAG dans le contexte du data engineering

En data engineering, le terme DAG s'est éloigné de ses racines mathématiques pour devenir un moyen pratique de décrire les workflows. Lorsque l'on parle du « DAG d'un pipeline », on fait souvent référence au graphe qui définit la circulation des données et leur transformation à travers une série de tâches.

Le terme « DAG » est souvent employé de manière interchangeable avec « pipeline » bien que techniquement, le DAG soit la représentation de la logique du pipeline, et non le pipeline lui-même.

Les DAG apparaissent également dans d'autres contextes, par exemple :

Les outils d'orchestration de workflow utilisent les DAG pour déterminer l'ordre et l'exécution des tâches.
Les chercheurs en inférence causale utilisent les DAG pour raisonner sur les causes et les effets.

Si leur structure de sens est commune, les objectifs de ces DAG diffèrent.

Fonctionnement des DAG : structure et exécution

Les DAG offrent un moyen clair de décomposer un travail complexe en tâches plus simples tout en veillant au respect de la séquence d'exécution.

Composants principaux d'un DAG

Un DAG de data engineering classique contient plusieurs éléments clés :

Les nœuds représentent des tâches : ingestion des données, exécution d'une transformation, entraînement d'un modèle, etc.
Les arêtes représentent des dépendances. Une arête allant de la tâche A à la tâche B indique que B ne peut pas commencer tant que A n'est pas terminée.
Les points de début et de fin marquent le début et la fin du travail.
Les branches parallèles permettent à des tâches dépourvues de dépendances communes de s'exécuter simultanément.
Les métadonnées et les journaux assurent le suivi de l'état, de l'historique et des résultats à des fins d'observabilité et de debugging.

Cette structure permet aux équipes de visualiser la circulation des données et la progression du travail d'une étape à l'autre.

Dépendances et séquençage des tâches

Les dépendances définissent l'ordre d'exécution au sein d'un DAG. Si une tâche a des dépendances en amont, ces dernières doivent être achevées avant que la tâche en question puisse commencer.

Les DAG prennent en charge :

L'exécution séquentielle lorsque les tâches dépendent les unes des autres
L'exécution parallèle lorsque les tâches sont indépendantes
Le tri topologique, qui consiste à trier les nœuds de façon à ce que chaque tâche apparaisse après ses dépendances

Si une dépendance est manquante ou défaillante, le DAG ne peut pas s'exécuter. Ce mécanisme de protection intégré empêche les tâches de s'exécuter dans un ordre incorrect.

Flux d'exécution et planification

Les DAG peuvent être déclenchés de plusieurs manières :

Par des exécutions manuelles, utiles en développement
Par planification temporelle, comme des mises à jour horaires ou quotidiennes
Par des déclencheurs événementiels, qui lancent l'exécution en fonction de changements externes

Pendant l'exécution, les tâches s'exécutent conformément à leurs dépendances. Les systèmes de planification incluent généralement :

Une logique de nouvelle tentative pour gérer les erreurs temporaires
Des politiques de gestion des erreurs pour traiter les échecs
Le remplissage rétroactif, qui relance l'exécution sur des périodes historiques de données
Des principes d'idempotence, qui veillent à ce que des exécutions répétées produisent les mêmes résultats

Ces fonctionnalités permettent de maintenir des pipelines de données fiables, même avec des charges de travail volumineuses ou des systèmes en amont instables.

Utilisation des DAG en data engineering

Les DAG forment l'épine dorsale de nombreux workflows de data engineering. Ils apportent clarté, structure et fiabilité aux processus qui doivent s'exécuter de manière cohérente dans le temps.

Pipelines de données ETL et ELT

Les workflows d'extraction, transformation, chargement s'expriment naturellement sous forme de DAG. Chaque étape dépend de la précédente :

Les tâches d'extraction collectent les données de diverses sources
Les tâches de transformation nettoient, valident et structurent les données.
Les tâches de chargement écrivent des données dans des tables ou des emplacements de stockage

Les DAG prennent également en charge le traitement incrémentiel, la capture des changements de données et d'autres modèles nécessitant un séquençage minutieux.

Workflows de transformation de données

Dans les environnements analytiques, les données sont souvent transformées par une succession d'étapes. Ces transformations peuvent déplacer des données du stockage brut vers des couches de présentation organisées.

Les DAG aident les équipes à :

Comprendre les dépendances entre les tables
Visualiser les connexions des datasets intermédiaires
Maintenir la traçabilité à des fins d'audit
Créer des transformations modulaires à l'aide de composants réutilisables

Cette transparence s'avère particulièrement précieuse lorsque les équipes développent leurs modèles de données.

Pipelines de machine learning

Les DAG sont particulièrement utiles pour les workflows de ML qui comprennent de nombreuses étapes interconnectées :

Préparation des données
engineering des fonctionnalités
Model Training
Validation et évaluation
Déploiement et mise en service par batch ou en temps réel

Chaque étape dépend des résultats des précédentes. Les DAG veillent à la reproductibilité et à la traçabilité des pipelines.

Workflows en temps réel et en streaming

Si les DAG sont souvent associés au traitement batch, ils s'appliquent également aux architectures en temps réel :

Les frameworks de micro-batch utilisent l'exécution DAG en interne
Les systèmes événementiels déclenchent les tâches du DAG au fil de l'arrivée des données
Les systèmes hybrides combinent les modèles de streaming et de batch

Ces cas d'utilisation illustrent la capacité des DAG à assurer la cohérence de différents modes de traitement.

Créer des DAG efficaces : bonnes pratiques

Pour qu'un DAG soit clair et facile à maintenir, sa conception nécessite une planification réfléchie. L'objectif est de trouver le juste équilibre entre structure et simplicité.

Concevoir des DAG modulaires et maintenables

Pour être efficaces, les DAG doivent suivre plusieurs principes :

Responsabilité unique pour chaque tâche
Composants modulaires réutilisables
Conventions de nommage claires
Documentation détaillant l'intention et le comportement

Les tâches trop volumineuses nuisent à la visibilité. Les tâches extrêmement granulaires créent une complexité inutile. Une approche équilibrée permet de conserver des pipelines lisibles et évolutifs.

Gestion des dépendances et de la complexité

La gestion des dépendances est essentielle. Plusieurs bonnes pratiques permettent d'y parvenir :

Minimiser les dépendances inutiles
Éviter les chaînes profondément imbriquées
Utiliser des motifs en éventail ouvert pour paralléliser les tâches indépendantes
Utiliser des motifs en éventail fermé pour rassembler les résultats
Concevoir des chemins conditionnels pour les tâches facultatives

Maintenir la clarté des dépendances réduit le temps d'exécution et simplifie le dépannage.

Stratégies de gestion et de rétablissement en cas d'erreur

Les DAG robustes intègrent des mécanismes pour détecter les défaillances et les corriger :

Politiques de nouvelle tentative, souvent avec un intervalle exponentiel
Isolation des défaillances, pour qu'un échec n'arrête pas l'ensemble du système
Alertes et notifications
Création de points de contrôle, qui capture la progression et prend en charge la reprise
Tests de pré-production pour valider la logique et les hypothèses sur les données

Ces stratégies maintiennent la stabilité et la résilience des pipelines.

Motifs néfastes courants à éviter

Plusieurs écueils méritent une attention particulière :

Nombre excessif de dépendances qui ralentissent l'exécution
Solutions de contournement qui introduisent une logique circulaire
Tâches monolithiques qui masquent la complexité
Faiblesse de la gestion des erreurs
Mauvaise conception des tâches qui entraîne des problèmes de performance

Il est important de reconnaître ces motifs en amont pour maintenir la qualité du pipeline.

Visualisation et monitoring des DAG

La visualisation du DAG rend sa structure intuitive, et on assurera la fiabilité des systèmes en supervisant son exécution.

Lecture et interprétation des diagrammes DAG

Les diagrammes DAG représentent généralement :

Les nœuds sous forme de cases ou de cercles
Les arêtes sous forme de flèches
L'état des tâches par des couleurs ou des icônes
Les chemins d'exécution sous forme de flux parallèles ou séquentiels

Ces représentations aident les équipes à identifier les goulots d'étranglement, à comprendre la durée d'exécution et à localiser le parcours critique.

Supervision de l'exécution des DAG

Une fois qu'un DAG commence à s'exécuter, l'observabilité devient essentielle. Les outils de supervision fournissent :

L'état des tâches en temps réel
Indicateurs de performance
Des logs et des messages d'erreur
Des tendances historiques sur l'ensemble des exécutions

Ces insights facilitent l'optimisation, le dépannage et la planification de la capacité.

Utilisation des DAG pour la traçabilité des données

Parce que les DAG cartographient les transformations et les dépendances, ils prennent naturellement en charge le data lineage :

Suivi des données de la source à la sortie
Évaluation de l'impact en cas de modification d'une source
Maintien des pistes d'audit à des fins de conformité
Transparence accrue pendant le dépannage

La traçabilité des données aide les équipes à instaurer une confiance dans leurs données.

Premiers pas avec les DAG

Vous n'avez pas besoin de connaissances en mathématiques avancées ou en théorie des graphes pour utiliser des DAG. Quelques concepts de base suffisent.

Prérequis et connaissances fondamentales

Pour créer votre premier DAG, vous aurez besoin de comprendre :

Les concepts de base des pipelines de données
Les concepts de programmation fondamentaux (Python, SQL ou Scala)
Le fonctionnement des dépendances et de la planification
Les principes de conception de workflow fiable

Ces éléments fournissent du contexte, ils mais ne sont pas de stricts impératifs

Créer votre premier DAG

Un premier DAG simple peut inclure de 3 à 5 tâches. Pour commencer :

Définissez clairement les tâches.
Identifiez les dépendances entre elles.
Tester chaque tâche indépendamment.
Connectez les tâches au sein d'une structure DAG.
Exécutez le workflow et examinez son exécution.
Itérez et ajoutez de la complexité si nécessaire.

En optant pour des débuts modestes, vous réduirez la charge cognitive et gagnerez en confiance.

Outils et frameworks pour travailler avec les DAG

De nombreux outils d'orchestration et de workflow s'appuient sur des DAG en arrière-plan. Différentes plateformes proposent des éditeurs visuels, des workflows définis par le code ou des approches hybrides.

Pour bien choisir votre outil, tenez compte des facteurs suivants :

Simplicité d'utilisation
Intégration avec votre environnement de données
Fonctionnalités d'observabilité
Assistance au debugging
Évolutivité et possibilités de croissance

Le bon outil dépend de votre cas d'utilisation et de vos besoins opérationnels.

Les DAG au-delà du data engineering

On rencontre les DAG en informatique, dans la recherche et dans les systèmes distribués. Ces autres applications expliquent l'ampleur de l'adoption des DAG.

Les DAG dans l'inférence causale et la recherche

Dans les domaines scientifiques, les DAG permettent d'illustre des relations de cause à effet. Les chercheurs les utilisent pour :

Identifier les facteurs de confusion
Comprendre la médiation et le biais de sélection
Planifier la conception d'une étude
Raisonner au sujet des interventions

Ces diagrammes ont davantage le rôle de cartes conceptuelles que de workflows d'exécution.

Les DAG en informatique et en algorithmique

Les DAG appuient plusieurs concepts informatiques :

Optimisation du compilateur
Historique de contrôle de version
Algorithmes de planification des tâches
Tri topologique
Analyse d'atteignabilité

Leur nature acyclique garantit un comportement déterministe dans les systèmes complexes.

Les DAG dans la blockchain et les systèmes distribués

Certaines technologies de registres distribués s'appuient sur des DAG plutôt que des chaînes traditionnelles. Cette structure permet notamment :

Le traitement parallèle des transactions
La réduction des délais de confirmation
Davantage d'évolutivité

Ces systèmes restent un domaine émergent de la recherche et du développement.

Évolution et avenir des DAG dans les données

Les DAG sont devenus essentiels au data engineering moderne, car ils conjuguent structure, fiabilité et clarté.

Comment les DAG se sont imposés dans le data engineering

Quand les charges de travail, au départ de simples scripts, sont devenues des systèmes distribués basés sur le cloud, les équipes ont eu besoin de meilleurs outils de coordination. Les DAG ont apporté :

Une exécution déterministe
Transparence
De la modularité
Une orchestration évolutive

Avec le passage à des charges de travail incrémentielles, en streaming et pilotées par l'IA, il est devenue impératif de mettre en place une gestion formelle des dépendances.

Tendances émergentes des workflows basés sur les DAG

Plusieurs tendances façonnent l'avenir des DAG :

Les définitions déclaratives, qui mettent l'accent sur les résultats souhaités plutôt que sur des étapes en particulier
La création de DAG assistée par l'IA, qui aide les équipes à concevoir des workflows efficaces
L'exécution serverless et événementielle, qui allège la pression sur l'infrastructure
Les architectures unifiées de traitement par batch et en streaming, qui combinent plusieurs modes de traitement
Convergence entre les workflows de data engineering, de ML et d'analytique

Ces développements suggèrent que les DAG vont poursuivre leur évolution tout en restant un principe d'organisation fondamental.

Conclusion

Les graphes orientés acycliques comptent parmi les structures les plus importantes des systèmes de données modernes. Ils définissent le déroulement du travail, garantissent le séquençage correct de l'exécution des tâches et fournissent un cadre visuel clair pour créer des pipelines fiables. Des workflows ETL par lots aux pipelines de machine learning, en passant par les architectures en temps réel, les DAG aident les équipes à concevoir des processus modulaires, traçables et résilients.

En commençant par des DAG simples et modestes avant d'introduire progressivement de la complexité, n'importe qui peut apprendre à créer des workflows efficaces. Avec la poursuite du développement des écosystèmes de données et d'IA, les DAG resteront un outil clé pour organiser et exécuter le travail à grande échelle.

Si vous souhaitez approfondir le sujet, explorez les outils et les frameworks qui soutiennent l'orchestration basée sur les DAG et tentez de créer vos propres workflows.

Questions fréquemment posées

Quelle est la différence entre un DAG et un workflow classique ?

Un workflow classique ne modélise pas toujours explicitement les dépendances ou n'empêche pas les boucles. Un DAG impose un ordre strict et garantit l'absence de cycles. C'est justement ce qui rend l'exécution sûre et prévisible.

Les DAG sont-ils compatibles avec la logique conditionnelle et les embranchements ?

Oui. Les DAG peuvent inclure des embranchements, des chemins facultatifs et des règles qui déterminent si une tâche doit s'exécuter. Certains systèmes prennent également en charge la génération dynamique de DAG au moment de l'exécution.

Que se passe-t-il si une tâche échoue dans un DAG ?

Le comportement dépend de la configuration. De nombreux systèmes autorisent les nouvelles tentatives et prennent en charge les politiques en cas d'échec et les notifications. Les défaillances peuvent être isolées ou en cascade selon la conception du DAG.

Comment savoir si un workflow a besoin d'un DAG ?

Si un processus possède des dépendances, doit s'exécuter de manière fiable ou inclut plusieurs étapes qui s'appuient les unes sur les autres, le DAG a certainement son intérêt Ce n'est pas forcément le cas, en revanche, pour les tâches simples en une seule étape.

Quelle est la différence entre les DAG de workflow et les DAG causaux ?

Les DAG de workflow représentent un ordre d'exécution. Les DAG causaux traduisent des relations de cause à effet. Ils possèdent la même structure mais poursuivent des objectifs différents.

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.

Voir tous les blogs