Transformation des données
Qu'est-ce que la transformation des données ?
La transformation des données consiste à prendre les données brutes qui ont été extraites des sources et à les transformer en datasets exploitables. Les pipelines de données regroupent souvent plusieurs transformations, afin de convertir des informations désordonnées en données propres, fiables et de qualité, que les organisations peuvent mettre au service de leurs opérations et dont elles peuvent extraire des insights exploitables. Le processus de transformation des données est central dans le data engineering.
Poursuivez votre exploration
Le Grand Livre du Data Engineering : 2e édition
Explorez les derniers conseils techniques pour la création de pipelines de données en temps réel.
Démarrer avec l'ETL
Découvrez les pipelines ETL en lisant cet aperçu du guide O'Reilly.
Les fondamentaux du lakehouse
Familiarisez-vous avec le lakehouse en suivant cette formation gratuite à la demande.
Pourquoi la transformation des données est-elle si importante ?
Le processus de transformation des données manipule les datasets afin qu'ils soient utilisables par les applications de données métier. Il est indispensable pour concrétiser la valeur contenue dans les données brutes, car c'est lui qui génère les insights qui vont alimenter la prise de décision commerciale. La transformation fournit aux organisations les informations dont elles ont besoin pour comprendre le passé, le présent et l'avenir de leur activité, et saisir de nouvelles opportunités avec agilité.
Transformation des données et ETL
La transformation des données est au cœur du processus ETL, qui signifie « extraire, transformer et charger ». Grâce à ce processus, les ingénieurs data extraient des données de différentes sources et les transforment en une seule ressource utilisable et fiable. Ils les chargent ensuite dans des systèmes à la disposition des utilisateurs finaux en aval pour résoudre leurs problématiques métier. Pendant la phase de transformation, les données sont nettoyées, mappées et transformées, souvent selon un schéma spécifique.
Exemples de transformation des données
Différents types de transformations peuvent être utilisés pour garantir la qualité et l'intégrité des données. Citons par exemple l'élimination des doublons, qui augmente la qualité et la performance des données ou bien encore l'affinage des données, qui accroît leur qualité en filtrant celles qui ne sont pas pertinentes. Citons aussi l'intégration des données, qui permet de fusionner des types de données différents au sein d'une même structure. Pour découvrir d'autres types de transformations, consultez la section suivante.
Types de transformation des données
Le processus de transformation des données peut être accompli à l'aide de plusieurs techniques, selon les données et l'objectif final de la transformation. Quelques exemples :
Fragmentation / binning : une série numérique est divisée en plusieurs « buckets » ou « bins ». Pour ce faire, il faut convertir les fonctionnalités numériques en fonctionnalités catégoriques à l'aide d'un ensemble de seuils.
Agrégation des données : processus de synthèse des données destiné à faciliter leur exploitation dans les rapports et les visualisations. L'agrégation peut être obtenue par différentes méthodes, par exemple en utilisant la somme, la moyenne ou la médiane des valeurs en fonction du temps, de l'espace ou d'une autre dimension.
Nettoyage des données : consiste à accroître la précision et la qualité des données en supprimant les informations inexactes, incomplètes ou obsolètes.
Élimination des doublons : processus de compression qui identifie les doublons dans les données et les élimine à grande vitesse, toujours pour accélérer le transfert des données.
Dérivation des données : création de règles visant à extraire uniquement les informations nécessaires de la source.
Enrichissement des données : processus consistant à améliorer les données existantes à l'aide de sources externes qui vont étendre un champ ou compléter des champs manquants.
Filtrage des données : élimination des données inutiles afin de présenter uniquement les informations nécessaires.
Intégration des données : fusion de différents types de données au sein d'une même structure. L'intégration des données normalise des données disparates pour qu'elles puissent être analysées dans leur ensemble.
Jonction des données : opération qui fusionne plusieurs tables de base de données à l'aide d'un champ commun pour former un dataset unique.
Fractionnement des données : division d'une colonne unique en plusieurs autres, afin d'analyser les données. Peut être utile pour analyser de grandes quantités de données collectées sur une longue période.
Résumé des données : type d'agrégation permettant de créer différentes métriques métier en calculant des totaux.
Validation des données : processus consistant à assurer la qualité des données en créant des règles automatisées générant une réponse à des problématiques de données spécifiques.
Révision du format : processus de changement de format visant à résoudre des problèmes causés par des champs contenant différents types de données.
Restructuration de clés : processus consistant à remplacer des clés ayant une signification intrinsèque par des clés génériques (nombres aléatoires qui référencent l'information dans la base de données source), afin d'éviter tout ralentissement dans le système de données.
Optimisation des performances de la transformation des données
Le processus de transformation des données mobilise beaucoup de temps et de ressources. L'optimisation de ses performances est donc un enjeu majeur. Voici quelques techniques d'optimisation :
- Compactage des données
- Partitionnement
- Ajustement de la taille des fichiers
- Saut et élagage de données
- Mise en cache
Lisez notre guide complet pour en savoir plus sur l'optimisation des performances de la transformation des données.
Outils de transformation des données
La transformation des données est indispensable. Elle crée des données fiables et exploitables permettant de produire des insights. Rappelons toutefois que la transformation des données et l'intégralité du processus ETL s'accompagnent de défis importants. Ceux-ci concernent aussi bien la création et la maintenance de pipelines de données fiables que la gestion de la qualité des données dans des architectures de pipelines de plus en plus complexes. Les outils de transformation des données ont pour but d'harmoniser et démocratiser la transformation, mais aussi de simplifier le cycle de vie de l'ETL.
Transformation des données sur Data Intelligence Platform
Databricks propose des outils indispensables pour mettre en œuvre et orchestrer la transformation des données et l'ETL sur la Data Intelligence Platform.
Delta Live Tables (DLT) aide les ingénieurs data à créer et gérer des pipelines fiables en batch et en streaming, afin de délivrer des données de haute qualité sur Data Intelligence Platform. DLT fournit des tests automatiques pour la qualité des données afin de rendre le streaming plus économique grâce à un ajustement efficace des ressources de calcul. Il apporte également une visibilité détaillée qui bénéficie à la supervision des pipelines et à l'observabilité.
Databricks Workflows est un service d'orchestration managé et entièrement intégré qui donne aux équipes de données les moyens de mieux automatiser et orchestrer les pipelines de données. Workflows aide les utilisateurs à définir, gérer et superviser des workflows multitâches pour les pipelines ETL, d'analytique et de machine learning afin d'accroître la productivité. Workflows s'intègre parfaitement avec dbt, un outil qui permet à n'importe quel membre d'une équipe de données de contribuer en toute sécurité à des pipelines de données de production. Dbt facilite et sécurise aussi la transformation.