Commencez par charger les données brutes dans un système cible, puis transformez-les en utilisant la puissance de traitement des plateformes de données modernes.
Le processus ELT, pour extraction, chargement, transformation, est une approche moderne d'intégration de données conçue pour les plateformes d'analytique cloud natives. Dans un pipeline ELT, les données sont d'abord extraites des systèmes sources, puis chargées directement dans un dépôt central avant d'être transformées au sein de ce système de destination. Cette séquence est la caractéristique principale de l'ELT et l'une des raisons pour lesquelles il est aujourd'hui un aspect fondamental des architectures de données modernes.
L'acronyme ELT décrit chaque étape du processus. Extraction : cette étape capture les données contenues dans les bases de données opérationnelles, les applications, les API et d'autres sources. Chargement : les données (généralement sous leur forme brute ou légèrement structurée) sont écrites dans un data warehouse cloud ou un data lake. Transformation : différentes opérations (logique métier, nettoyage, agrégation et enrichissement) sont appliquées aux données stockées et déjà accessibles à des fins d'analyse.
Cette approche diffère des pipelines traditionnels d'extraction-transformation-chargement (ETL), qui appliquent les transformations avant de charger les données. Si vous souhaitez vous familiariser avec ce modèle, vous pouvez lire Extraction, transformation, chargement (ETL).
Le processus ELT est étroitement aligné sur les caractéristiques des architectures de données cloud natives et de la pile de données moderne. Les plateformes cloud fournissent un stockage peu coûteux et des capacités de calcul élastiques, et sont donc intéressantes pour conserver des données brutes et exécuter les transformations à la demande. La séquence ELT est donc largement employée par les data engineers, les analystes et les data scientists qui ont besoin d'un accès rapide aux données, de flexibilité dans la modélisation et de la prise en charge des tâches d'analytique avancée et d'IA.
Sur le plan historique, l'ELT a émergé lorsque les data warehouses cloud sont devenus suffisamment puissants pour gérer des transformations à grande échelle en leur sein. Cette évolution a impulsé l'adaptation des modèles d'intégration de données aux nouvelles réalités techniques.
L'ELT apporte une réponse immédiate aux changements survenus dans la manière dont les organisations stockent, traitent et analysent les données. Pendant de nombreuses années, la séquence « extraction, transformation, chargement » (ETL) a dominé parce qu'elle s'accordait avec les contraintes des data warehouses traditionnels sur site. Les ressources de calcul étaient limitées, le stockage était cher et les transformations devaient être soigneusement optimisées avant que les données ne soient chargées en vue des analyses.
Mais quand les entreprises ont commencé à moderniser leurs piles de données, ce modèle a montré ses limites. Les architectures natives cloud ont levé de nombreuses contraintes que l'ETL visait à résoudre et introduit de nouveaux équilibres entre vitesse, flexibilité et coût. Pour une explication détaillée et comparative des différences de ces deux approches, et pour savoir à quelles situations elles conviennent le mieux, lisez notre article « ETL ou ELT ».
L'un des principaux moteurs de ce changement a été l'essor des data warehouses cloud tels que Databricks, BigQuery et Amazon Redshift. Ces plateformes fournissent des capacités de calcul élastiques et massivement parallèles qui dépassent de loin celles des systèmes traditionnels. Au lieu de s'appuyer sur des couches de transformation distinctes, les entreprises peuvent désormais réaliser des transformations complexes directement dans le warehouse.
Parallèlement à cette évolution, l'économie du stockage a radicalement changé. Le stockage d'objets dans le cloud a fait considérablement baisser le coût de la conservation de grands volumes de données brutes et historiques. Au lieu de transformer ou d'éliminer des données en début de pipeline, les équipes pouvaient désormais charger les données dans leur forme originale et les conserver pour de futures tâches d'analyse, de retraitement et de machine learning.
En gagnant en puissance et en flexibilité, les ressources de calcul ont encore renforcé cette tendance. Comme les transformations s'exécutent au sein du système cible, les équipes peuvent multiplier les itérations de logique métier, transformer plusieurs fois des données historiques et s'adapter à l'évolution des exigences sans avoir à recréer les pipelines d'ingestion.
Tous ces facteurs ont fait de l'ELT un modèle pratique et rentable à grande échelle. À l'heure où les plateformes cloud devenaient le fondement des architectures de données modernes, l'ELT s'est imposé non pas comme une tendance, mais comme une évolution naturelle de l'intégration des données dans un monde natif cloud.
À haut niveau, les pipelines ELT exécutent trois étapes distinctes (extraction, chargement et transformation) dans un ordre précis. Si les étapes elles-mêmes sont bien connues de la plupart des professionnels des données, le lieu et le moment où la transformation se produit changent dans le processus ELT. Au lieu de préparer les données avant qu'elles n'atteignent la plateforme d'analytique, l'ELT privilégie une ingestion rapide et reporte la transformation jusqu'à ce que les données soient déjà stockées et accessibles.
L'étape d'extraction se charge de la copie des données des systèmes sources dans le pipeline. Ces sources peuvent être très variées : bases de données opérationnelles, API d'application, plateformes SaaS, appareils IoT, fichiers journaux, flux d'événements et stockage d'objets cloud. Les pipelines ELT modernes sont conçus pour accueillir un large éventail de types de données, dont des tables structurées, des formats semi-structurés (JSON) et des données non structurées (texte, logs, etc.).
Pendant l'extraction, les données sont généralement capturées avec le minimum de modifications. Les objectifs sont la fiabilité et l'exhaustivité, et non l'optimisation. De nombreux pipelines utilisent des techniques d'extraction incrémentielle (comme la capture des changements de données) pour identifier les nouveaux enregistrements et les mises à jour sans avoir à parcourir des datasets entiers à répétition. Cette approche allège la charge sur les systèmes sources tout en garantissant que les données en aval restent à jour.
L'une des caractéristiques de l'ELT est que les données restent à l'état brut ou quasi brut pendant l'extraction. En évitant les transformations précoces, les équipes préservent la fidélité des données d'origine et s'abstiennent de tout préjugé sur leur utilisation future.
Durant la phase de chargement, les données extraites sont directement écrites dans le système cible. Contrairement aux pipelines ETL traditionnels, le processus ELT évite les ralentissements causés par la transformation durant le chargement, ce qui améliore considérablement la vitesse et l'échelle d'ingestion. Les données sont souvent chargées en masse et en parallèle, ce qui permet aux pipelines de traiter efficacement de grands volumes.
Le système cible est généralement un data warehouse cloud ou un data lake. Les pipelines ELT ont souvent pour destination des plateformes telles que Databricks, BigQuery ou Amazon Redshift, ainsi que des lacs de données basés sur le stockage d'objets comme Amazon S3 ou Azure Data Lake Storage.
Les données sont stockées dans leur format natif ou sous une forme légèrement structurée, souvent partitionnées par date, source ou autre délimiteur logique. Cette conception optimise la vitesse d'ingestion tout en préservant la flexibilité du traitement en aval. Comme les données sont déjà centralisées et accessibles, les équipes d'analytique peuvent commencer à les explorer immédiatement, avant même que la logique de transformation formelle ne soit achevée.
L'étape de transformation se déroule entièrement dans le système cible, en utilisant ses moteurs de calcul et de requête natifs. C'est là que les données brutes sont nettoyées, normalisées, jointes, agrégées et enrichies en datasets prêts pour les activités d'analytique. Les transformations sont généralement exprimées en SQL, bien que d'autres langages puissent être utilisés en fonction des capacités de la plateforme.
En exploitant la puissance de calcul des data warehouses cloud et des lakehouses, l'ELT permet d'appliquer des transformations à grande échelle sur demande. Les équipes peuvent exécuter une logique complexe sur de grands datasets sans avoir à mettre en place une infrastructure de transformation distincte. On emploie souvent des outils tels que dbt pour gérer les transformations basées sur le SQL, effectuer des tests, produire de la documentation, et introduire des pratiques d'ingénierie logicielle dans les workflows analytiques.
Un avantage clé de l'ELT réside dans sa capacité à transformer plusieurs les données historiques de manière itérative. Lorsque les règles métier changent, les équipes n'ont qu'à réexécuter les transformations sur les données brutes d'origine, sans les réextraire des systèmes sources. Cette approche de schéma à la lecture permet de faire coexister plusieurs couches de transformation prenant en charge différents cas d'utilisation, tout en conservant de la flexibilité pour accompagner l'