Revenir au contenu principal

Qu'est-ce que le processus d'extraction-chargement-transformation ? (ELT)

Le processus ELT, pour extraction, chargement, transformation, est une approche moderne d'intégration de données conçue pour les plateformes d'analytique cloud natives. Dans un pipeline ELT, les données sont d'abord extraites des systèmes sources, puis chargées directement dans un dépôt central avant d'être transformées au sein de ce système de destination. Cette séquence est la caractéristique principale de l'ELT et l'une des raisons pour lesquelles il est aujourd'hui un aspect fondamental des architectures de données modernes.

L'acronyme ELT décrit chaque étape du processus. Extraction : cette étape capture les données contenues dans les bases de données opérationnelles, les applications, les API et d'autres sources. Chargement : les données (généralement sous leur forme brute ou légèrement structurée) sont écrites dans un data warehouse cloud ou un data lake. Transformation : différentes opérations (logique métier, nettoyage, agrégation et enrichissement) sont appliquées aux données stockées et déjà accessibles à des fins d'analyse.

Cette approche diffère des pipelines traditionnels d'extraction-transformation-chargement (ETL), qui appliquent les transformations avant de charger les données. Si vous souhaitez vous familiariser avec ce modèle, vous pouvez lire Extraction, transformation, chargement (ETL).

Poursuivez votre exploration

Le processus ELT est étroitement aligné sur les caractéristiques des architectures de données cloud natives et de la pile de données moderne. Les plateformes cloud fournissent un stockage peu coûteux et des capacités de calcul élastiques, et sont donc intéressantes pour conserver des données brutes et exécuter les transformations à la demande. La séquence ELT est donc largement employée par les data engineers, les analystes et les data scientists qui ont besoin d'un accès rapide aux données, de flexibilité dans la modélisation et de la prise en charge des tâches d'analytique avancée et d'IA.

Sur le plan historique, l'ELT a émergé lorsque les data warehouses cloud sont devenus suffisamment puissants pour gérer des transformations à grande échelle en leur sein. Cette évolution a impulsé l'adaptation des modèles d'intégration de données aux nouvelles réalités techniques.

Pourquoi l'ELT s'est imposé comme une approche moderne

L'ELT apporte une réponse immédiate aux changements survenus dans la manière dont les organisations stockent, traitent et analysent les données. Pendant de nombreuses années, la séquence « extraction, transformation, chargement » (ETL) a dominé parce qu'elle s'accordait avec les contraintes des data warehouses traditionnels sur site. Les ressources de calcul étaient limitées, le stockage était cher et les transformations devaient être soigneusement optimisées avant que les données ne soient chargées en vue des analyses.

Mais quand les entreprises ont commencé à moderniser leurs piles de données, ce modèle a montré ses limites. Les architectures natives cloud ont levé de nombreuses contraintes que l'ETL visait à résoudre et introduit de nouveaux équilibres entre vitesse, flexibilité et coût. Pour une explication détaillée et comparative des différences de ces deux approches, et pour savoir à quelles situations elles conviennent le mieux, lisez notre article « ETL ou ELT ».

L'un des principaux moteurs de ce changement a été l'essor des data warehouses cloud tels que Databricks, BigQuery et Amazon Redshift. Ces plateformes fournissent des capacités de calcul élastiques et massivement parallèles qui dépassent de loin celles des systèmes traditionnels. Au lieu de s'appuyer sur des couches de transformation distinctes, les entreprises peuvent désormais réaliser des transformations complexes directement dans le warehouse.

Parallèlement à cette évolution, l'économie du stockage a radicalement changé. Le stockage d'objets dans le cloud a fait considérablement baisser le coût de la conservation de grands volumes de données brutes et historiques. Au lieu de transformer ou d'éliminer des données en début de pipeline, les équipes pouvaient désormais charger les données dans leur forme originale et les conserver pour de futures tâches d'analyse, de retraitement et de machine learning.

En gagnant en puissance et en flexibilité, les ressources de calcul ont encore renforcé cette tendance. Comme les transformations s'exécutent au sein du système cible, les équipes peuvent multiplier les itérations de logique métier, transformer plusieurs fois des données historiques et s'adapter à l'évolution des exigences sans avoir à recréer les pipelines d'ingestion.

Tous ces facteurs ont fait de l'ELT un modèle pratique et rentable à grande échelle. À l'heure où les plateformes cloud devenaient le fondement des architectures de données modernes, l'ELT s'est imposé non pas comme une tendance, mais comme une évolution naturelle de l'intégration des données dans un monde natif cloud.

Déroulement du processus ELT : les trois étapes du workflow ELT

À haut niveau, les pipelines ELT exécutent trois étapes distinctes (extraction, chargement et transformation) dans un ordre précis. Si les étapes elles-mêmes sont bien connues de la plupart des professionnels des données, le lieu et le moment où la transformation se produit changent dans le processus ELT. Au lieu de préparer les données avant qu'elles n'atteignent la plateforme d'analytique, l'ELT privilégie une ingestion rapide et reporte la transformation jusqu'à ce que les données soient déjà stockées et accessibles.

Extraire

L'étape d'extraction se charge de la copie des données des systèmes sources dans le pipeline. Ces sources peuvent être très variées : bases de données opérationnelles, API d'application, plateformes SaaS, appareils IoT, fichiers journaux, flux d'événements et stockage d'objets cloud. Les pipelines ELT modernes sont conçus pour accueillir un large éventail de types de données, dont des tables structurées, des formats semi-structurés (JSON) et des données non structurées (texte, logs, etc.).

Pendant l'extraction, les données sont généralement capturées avec le minimum de modifications. Les objectifs sont la fiabilité et l'exhaustivité, et non l'optimisation. De nombreux pipelines utilisent des techniques d'extraction incrémentielle (comme la capture des changements de données) pour identifier les nouveaux enregistrements et les mises à jour sans avoir à parcourir des datasets entiers à répétition. Cette approche allège la charge sur les systèmes sources tout en garantissant que les données en aval restent à jour.

L'une des caractéristiques de l'ELT est que les données restent à l'état brut ou quasi brut pendant l'extraction. En évitant les transformations précoces, les équipes préservent la fidélité des données d'origine et s'abstiennent de tout préjugé sur leur utilisation future.

Charger

Durant la phase de chargement, les données extraites sont directement écrites dans le système cible. Contrairement aux pipelines ETL traditionnels, le processus ELT évite les ralentissements causés par la transformation durant le chargement, ce qui améliore considérablement la vitesse et l'échelle d'ingestion. Les données sont souvent chargées en masse et en parallèle, ce qui permet aux pipelines de traiter efficacement de grands volumes.

Le système cible est généralement un data warehouse cloud ou un data lake. Les pipelines ELT ont souvent pour destination des plateformes telles que Databricks, BigQuery ou Amazon Redshift, ainsi que des lacs de données basés sur le stockage d'objets comme Amazon S3 ou Azure Data Lake Storage.

Les données sont stockées dans leur format natif ou sous une forme légèrement structurée, souvent partitionnées par date, source ou autre délimiteur logique. Cette conception optimise la vitesse d'ingestion tout en préservant la flexibilité du traitement en aval. Comme les données sont déjà centralisées et accessibles, les équipes d'analytique peuvent commencer à les explorer immédiatement, avant même que la logique de transformation formelle ne soit achevée.

Transformer

L'étape de transformation se déroule entièrement dans le système cible, en utilisant ses moteurs de calcul et de requête natifs. C'est là que les données brutes sont nettoyées, normalisées, jointes, agrégées et enrichies en datasets prêts pour les activités d'analytique. Les transformations sont généralement exprimées en SQL, bien que d'autres langages puissent être utilisés en fonction des capacités de la plateforme.

En exploitant la puissance de calcul des data warehouses cloud et des lakehouses, l'ELT permet d'appliquer des transformations à grande échelle sur demande. Les équipes peuvent exécuter une logique complexe sur de grands datasets sans avoir à mettre en place une infrastructure de transformation distincte. On emploie souvent des outils tels que dbt pour gérer les transformations basées sur le SQL, effectuer des tests, produire de la documentation, et introduire des pratiques d'ingénierie logicielle dans les workflows analytiques.

Un avantage clé de l'ELT réside dans sa capacité à transformer plusieurs les données historiques de manière itérative. Lorsque les règles métier changent, les équipes n'ont qu'à réexécuter les transformations sur les données brutes d'origine, sans les réextraire des systèmes sources. Cette approche de schéma à la lecture permet de faire coexister plusieurs couches de transformation prenant en charge différents cas d'utilisation, tout en conservant de la flexibilité pour accompagner l'évolution des besoins.

Avantages de l'ELT pour une intégration moderne des données

L'ELT offre plusieurs avantages qui sont parfaitement en phase avec la conception et l'utilisation des plateformes de données modernes. En commençant par charger les données avant de les transformer au sein du système d'analyse, l'ELT améliore la vitesse, l'évolutivité, la rentabilité et la prise en charge des charges de travail d'analytique avancée.

Réduire le délai de disponibilité des données

L'un des intérêts les plus immédiats de l'ELT est qu'il réduit le délai d'accès aux données. Comme les données brutes sont chargées directement dans le système cible sans attendre la fin des transformations, les pipelines d'ingestion passent rapidement de la source au stockage. Le temps qui sépare la création des données et leur mise à disposition des tâches d'analyse est considérablement réduit.

L'accélération de l'ingestion permet aux équipes analytiques de réagir plus rapidement à l'évolution des conditions commerciales. Les nouvelles sources de données peuvent être explorées dès qu'elles sont chargées, avant même que la logique de transformation ne soit finalisée. C'est particulièrement utile dans les applications sensibles au facteur temps comme la supervision des opérations, les tableaux de bord en quasi-temps réel et les analyses ad hoc. En découplant l'ingestion de la transformation, l'ELT minimise les retards et favorise une prise de décision plus rapide au sein de l'organisation.

Gain d'évolutivité et de flexibilité

L'ELT est bien adapté aux grands volumes de données en expansion Les transformations sont exécutées à l'aide des ressources de calcul des data warehouses cloud tels que Databricks, BigQuery et Amazon Redshift, tous conçus pour faire évoluer les capacités en fonction de la demande. Les pipelines peuvent ainsi gérer tout type de volumes, du petit dataset analytique aux charges de plusieurs pétaoctets, sans modification de l'architecture.

Comme les données brutes sont conservées, les équipes peuvent transformer à nouveau les données historiques sans avoir à les extraire une nouvelle fois des systèmes sources. Lorsque les règles métier, les schémas ou les exigences de reporting changent, elles n'ont qu'à mettre à jour les transformations et à les réexécuter directement dans le warehouse. Autre avantage, l'ELT prend en charge les données structurées, semi-structurées et non structurées, pour offrir aux organisations un maximum de flexibilité dans l'acquisition des logs, des événements et des données d'application, parallèlement aux enregistrements relationnels traditionnels.

Rentabilité

En libérant de l'impératif d'une infrastructure de transformation dédiée, l'ELT peut réduire la complexité globale et le coût du pipeline. Au lieu de maintenir des serveurs ou des couches de traitement distincts, les entreprises s'appuient sur leur plateforme cloud d'analytique pour effectuer les transformations.

Les modèles de tarifs du cloud sont, eux aussi, avantageux. Le stockage est relativement peu coûteux grâce aux techniques modernes de compression et de hiérarchisation : on peut donc conserver des données brutes à long terme pour un coût raisonnable. Les ressources de calcul ne sont consommées qu'au moment de l'exécution des transformations, ce qui permet aux équipes d'adapter leur utilisation à la hausse ou à la baisse selon les besoins. En évitant les systèmes intermédiaires et en centralisant le traitement sur une seule plateforme, l'ELT simplifie les opérations tout en faisant un usage optimal des ressources.

Prise en charge de l'analytique moderne et de l'IA

La conservation des données brutes est essentielle pour l'analytique avancée, la data science et les workflows de machine learning. Avec l'ELT, les données d'origine restent disponibles à des fins d'analyse exploratoire, d'ingénierie de fonctionnalité et d'entraînement de modèles.

Comme les transformations ne sont pas destructives, les équipes d'analytique peuvent itérer librement sans avoir à recréer de pipelines d'ingestion. C'est un puissant atout pour l'expérimentation, le prototypage rapide et l'amélioration continue des modèles et des métriques. L'ELT a également l'intérêt de s'aligner sur le fonctionnement des outils modernes d'analytique et d'IA, qui ont besoin d'un accès direct à de grands volumes de données détaillées. Il représente donc une base solide pour les initiatives axées sur les données et l'IA.

Quand utiliser l'ELT : cas d'utilisation et scénarios privilégiés

L'ELT convient particulièrement aux environnements de données modernes où l'évolutivité, la flexibilité et la rapidité d'accès aux données sont des priorités. Si ce n'est pas nécessairement l'approche idéale pour toutes les charges de travail, l'ELT s'aligne parfaitement sur plusieurs cas d'usage courants de l'analytique native cloud.

Data warehouses cloud et data lakes

L'ELT convient parfaitement aux data warehouses cloud et aux architectures de data lake. Conçues pour combiner des capacités de calcul élastiques et un stockage peu coûteux, ces plateformes facilitent le chargement rapide des données et l'application de transformations par la suite. Les implémentations de data lake, en particulier, sont faites pour conserver les données brutes et appliquer les schémas à la lecture, ce qui correspond parfaitement au modèle ELT. Cette flexibilité permet aux équipes analytiques d'adapter les schémas et la logique de transformation à l'évolution des exigences, sans avoir à recréer les pipelines d'ingestion.

Données en temps réel et en streaming

Pour les analyses urgentes, l'ELT réduit les délais de disponibilité des données en donnant la priorité au chargement. Les données en streaming sont importées en continu et deviennent exploitables avec le minimum de délai, tandis que les transformations sont appliquées de manière incrémentielle ou en aval. Cette approche est couramment utilisée dans les pipelines de données IoT, la surveillance des transactions financières, la détection de la fraude et les tableaux de bord opérationnels. Dans toutes ces applications, l'immédiateté de la visibilité est en effet plus importante que l'optimisation initiale.

Big data et analytique

Très évolutif, l'ELT prend en charge efficacement les grands datasets de l'ordre du téraoctet et du pétaoctet. Les data warehouses cloud et les plateformes lakehouse sont conçus pour gérer de grands volumes de données et exécuter des transformations en parallèle. En séparant l'acquisition de la transformation, l'ELT maintient la résilience des pipelines face à l'augmentation des volumes de données. Et comme il accueille aussi bien les données structurées que non structurées, les équipes analytiques ont la possibilité de travailler avec des datasets variés pour obtenir plus rapidement des insights.

Machine learning et data science

L'ELT a beaucoup à apporter aux workflows de machine learning et de data science. La conservation des données brutes permet aux data scientists d'effectuer des activités d'analyse exploratoire, d'ingénierie des fonctionnalités et d'entraînement de modèles sans avoir à ingérer à nouveau les données. Lorsque les modèles évoluent, les équipes peuvent renouveler les transformations et faire des itérations sur les datasets d'entraînement directement dans la plateforme analytique, dans une approche d'expérimentation et d'amélioration continue.

Consolidation de sources de données diverses

Les entreprises qui intègrent des données provenant de nombreux systèmes différents utilisent souvent l'ELT pour simplifier l'ingestion. Les données de différentes sources sont importées rapidement dans leur format d'origine, avant d'être normalisées et harmonisées via des transformations post-chargement. Ce processus initial allégé facilite l'intégration de nouvelles sources de données.

Migration vers le cloud et modernisation

L'ELT est couramment adopté lors de la migration de systèmes ETL on-premise vers le cloud. En commençant par charger les données et en différant la transformation, les entreprises allègent la complexité de l'intégration et s'alignent plus étroitement sur les principes des initiatives de modernisation axées sur le cloud.

Technologies et outils d'ELT

Data warehouses cloud

Les data warehouses cloud fournissent la base de calcul qui permet d'exploiter l'ELT à grande échelle. Des plateformes comme BigQuery, Amazon Redshift ou Databricks sont conçues pour exécuter les transformations là où les données sont stockées. BigQuery propose une architecture serverless avec une prise en charge solide des données semi-structurées et en streaming, ainsi que des capacités de ML et d'IA intégrées. Étroitement à l'écosystème AWS, Redshift utilise le stockage en colonnes et des fonctionnalités telles que Redshift Spectrum pour interroger les données dans Amazon S3. Grâce à l'architecture lakehouse, Databricks permet de réaliser des analyses SQL directement sur le data lake et couvre plusieurs fournisseurs de cloud. Ces trois plateformes prennent en charge les transformations in situ à grande échelle qui font tout l'intérêt des workflows ELT.

Outils d'ingestion et de chargement ELT

Les outils d'ingestion ELT fournissent un moyen diable d'extraire et de charger des données avec le minimum de transformation. Airbyte propose des centaines de connecteurs avec la flexibilité de l'open source et des options de gestion et d'auto-hébergement. Fivetran offre une expérience SaaS entièrement managée avec une gestion automatisée des dérives de schéma. Dédié aux développeurs, Meltano s'intègre particulièrement bien aux workflows CI/CD, tandis que Matillion, avec son interface graphique, offre une prise en charge robuste de SQL et de Python.

Frameworks de transformation des données

Les frameworks de transformation gèrent la logique post-chargement. Le cadre dbt permet de réaliser des transformations modulaires basées sur SQL avec tests, documentation et traçabilité intégrés, pour associer la discipline de l'ingénierie logicielle et l'analytique.

Création de pipelines ELT

Un pipeline ELT typique comprend un nombre défini d'étapes : extraction, ingestion, chargement dans un warehouse cloud, transformation et consommation analytique. Les outils d'orchestration gèrent la planification et les dépendances, tandis que le contrôle de version et les tests garantissent la fiabilité des pipelines au fil de leur évolution.

Défis et considérations de l'ELT

Gestion de la qualité des données

Dans les pipelines ELT, les données brutes sont chargées avant d'être validées et transformées. De ce fait, des problèmes de qualité des données peuvent se manifester en aval au lieu d'être filtrés en amont. Les cadres de validation sont donc indispensables pour identifier les valeurs manquantes, les formats imprévus et les modifications de schéma intervenant après l'ingestion des données. Les équipes ont donc tout à intérêt à réaliser des tests à chaque étape des transformations pour garantir l'exactitude et la cohérence des données, et à suivre le data lineage pour avoir une visibilité sur le déplacement des entrées brutes dans les couches de transformation. Des stratégies claires de gestion des erreurs et de récupération des données permettront aux équipes de corriger les problèmes et de réexécuter les transformations sans avoir à extraire à nouveau les données des systèmes sources.

Gouvernance et conformité des données

La conservation des données brutes implique des enjeux supplémentaires de gouvernance et de conformité. Les environnements de data warehouse cloud doivent sécuriser les informations sensibles et répondre aux exigences réglementaires du Règlement général sur la protection des données (RGPD), de la loi sur la responsabilité et la portabilité des données d'assurance santé (HIPAA), de la loi Sarbanes-Oxley (SOX) et de la norme de sécurité des données de l'industrie des cartes de paiement (PCI-DSS). Les contrôles d'accès basés sur le rôle déterminent qui peut afficher ou modifier les données, tandis que le masquage de données limite l'exposition des champs sensibles. Le chiffrement protège les données en transit et au repos, et les pistes d'audit donnent de la visibilité sur la consultation et l'utilisation des données à des fins de supervision de conformité.

Gestion des coûts et des ressources

Si l'ELT simplifie l'architecture des pipelines, il peut augmenter l'utilisation du stockage et des capacités de calcul. La conservation des données brutes augmente les coûts de stockage, et les charges de transformation consomment des ressources de calcul. Des techniques d'optimisation aident à maîtriser les dépenses, dont le chargement incrémentiel, le partitionnement et la compression des données . Avec une supervision continue et un système d'alerte, les équipes peuvent suivre les tendances d'utilisation et anticiper les coûts.

Complexité de la logique de transformation

La maturation des pipelines ELT s'accompagne parfois d'une augmentation de la complexité de la logique de transformation. La gestion des règles métier au sein du warehouse nécessite la coordination des équipes de data engineering et d'analytique. Il est indispensable de tester les transformations à grande échelle et de documenter les dépendances et la traçabilité des données pour maintenir la fiabilité des pipelines à long terme.

Conclusion

L'ELT est devenu la norme dans les architectures de données modernes et natives cloud. L'adoption croissante des data warehouses cloud, des data lakes et des plateformes lakehouse a généralisé la possibilité de charger rapidement les données et de les transformer à grande échelle, et ce tournant a transformé la conception des pipelines d'intégration de données. L'ELT se fait le miroir de ces évolutions en alignant l'acquisition, le stockage et la transformation sur les capacités des plateformes d'analytique actuelles.

Les principaux avantages de l'ELT sont la vitesse, l'évolutivité et la flexibilité. En chargeant les données avant de les transformer, les équipes réduisent le délai de disponibilité des données et accèdent plus rapidement aux nouvelles sources de données et aux modifications. Le calcul cloud élastique permet d'adapter les capacités de transformation à la demande, tandis que la conservation des données brutes prend en charge les tâches d'analytique itérative, le machine learning et l'évolution de la logique métier sans extraction répétée. Cette flexibilité devient un impératif à l'heure où les organisations s'appuient sur les données pour prendre des décisions opérationnelles, réaliser des analyses avancées et mener des initiatives d'intelligence artificielle.

L'ELT fournit également une base solide pour la prise de décision data-driven. En centralisant les données brutes et transformées sur une même plateforme, les équipes renforcent la cohérence, la transparence et la collaboration entre les fonctions d'analytique, de data engineering et de data science. Cette évolution permet aux organisations de passer du reporting réactif à une approche continue de la création d'insights et de l'innovation.

Le succès des implémentations ELT dépend du choix des plateformes et des outils, qui doivent être coordonnés. Tous les composants – data warehouses cloud, systèmes d'ingestion fiables, frameworks de transformation et pratiques de gouvernance – jouent un rôle dans la performance, la rentabilité et la conformité du processus à grande échelle.

    Retour au glossaire