Exemples pratiques et cas d'usage du Data Lakehouse

Découvrez des exemples concrets de data lakehouse à travers le streaming, l'IoT, le ML et l'analyse client — avec des modèles d'architecture et des conseils de migration.

par Équipe Databricks

Les data lakehouses éliminent les compromis entre les data lakes et les data warehouses en unifiant les données structurées et non structurées sous des formats ouverts avec des garanties de transaction ACID.
Les cas d'usage réels — des pipelines de streaming et de l'ingestion de capteurs IoT aux profils clients à 360 degrés et aux feature stores de machine learning — démontrent comment une architecture unique remplace plusieurs systèmes distincts.
Un déploiement réussi repose sur l'application des schémas, le catalogage centralisé des métadonnées, le découplage du stockage et du calcul, et une stratégie de migration progressive.

Les ingénieurs, architectes et data scientists à la recherche d'exemples de data lakehouse rencontrent souvent le même défi : de nombreuses définitions théoriques, mais peu de modèles concrets qu'ils peuvent appliquer à leurs propres environnements. Cet article comble ce fossé en passant en revue des scénarios réels dans les domaines de l'analyse de flux (streaming), des pipelines IoT, des workflows de machine learning et des rapports d'entreprise, tout en associant chacun d'eux aux décisions architecturales qui permettent à un data lakehouse de fonctionner en pratique.

Ces modèles vous offrent un point de départ basé sur la manière dont les organisations déploient réellement ces systèmes.

Présentation de l'architecture des données moderne et des lakehouses

Un data lakehouse est un système de stockage de données ouvert et unifié qui combine le stockage d'objets à faible coût et la flexibilité des schémas d'un data lake avec les garanties de qualité des données, les transactions ACID et les performances de requête d'un data warehouse, sans nécessiter de transfert de données entre des systèmes distincts.

Les ingénieurs de données n'ont plus besoin de maintenir des pipelines parallèles pour alimenter simultanément un data warehouse et un data lake. Les data scientists accèdent directement aux données brutes et traitées dans des formats ouverts, et les analystes exécutent des requêtes SQL sur les mêmes tables que celles qui alimentent les modèles de machine learning.

Comparatif : data lakehouses, data lakes et data warehouses

Pour comprendre les exemples de data lakehouse, il faut d'abord comprendre ce qu'ils remplacent, et pourquoi ni un data warehouse traditionnel ni un simple data lake ne résolvent entièrement le problème à eux seuls.

Data Warehouse

Un data warehouse traditionnel applique un schéma lors de l'écriture, stocke les données structurées dans des formats colonnaires et offre des performances de requête SQL rapides pour la business intelligence. Des limites apparaissent à mesure que les volumes de données augmentent ou lorsque l'organisation doit analyser des données non structurées telles que des documents, des images ou des fichiers journaux (logs). Les formats propriétaires entraînent une dépendance vis-à-vis des fournisseurs (vendor lock-in), et en l'absence de plateforme unifiée, les organisations conservent souvent des copies de données redondantes dans des systèmes distincts.

Data Lake

Un data lake stocke n'importe quel format de données à moindre coût dans un stockage d'objets cloud, mais la gouvernance reste un problème persistant. Sans application de schéma, la qualité des données se dégrade. Sans transactions ACID, les écritures simultanées corrompent les fichiers et créent des incohérences. Les échecs de pipelines laissent des écritures partielles qui nécessitent un retraitement coûteux à partir de zéro.

Le terme « data swamp » (marécage de données) décrit ce qui se produit lorsqu'un data lake se développe sans les couches de métadonnées et le suivi de la traçabilité (lineage) nécessaires pour le maintenir navigable et fiable pour les analyses en aval. Les organisations s'exposent également à des risques de dépendance vis-à-vis des fournisseurs lorsque des outils d'ingestion propriétaires les lient à un écosystème cloud spécifique, sans la flexibilité des formats ouverts.

Data Lakehouse

Un data lakehouse combine la prise en charge de divers types de données avec une gestion des données de niveau data warehouse : application de schémas, garanties de transactions ACID, versioning des données et suivi de la traçabilité. Des formats de table ouverts tels que Delta Lake et Apache Iceberg font office de couches de métadonnées au-dessus du stockage d'objets cloud, offrant des garanties transactionnelles qui font défaut aux data lakes bruts. Cela permet aux équipes de données de gérer les analyses SQL et les charges de travail de machine learning à partir du même stockage, sans duplication.

Cas d'usage : données brutes, types de données divers et analyses avancées

Le meilleur argument en faveur d'un data lakehouse repose sur des cas d'usage spécifiques où une architecture unifiée élimine la complexité qui nécessiterait autrement plusieurs systèmes distincts.

Analyse de flux (streaming)

Une plateforme d'e-commerce doit détecter les transactions frauduleuses dans les secondes qui suivent l'achat.

Le pipeline ingère les flux d'événements dans les tables du lakehouse, applique un enrichissement en temps réel avec les données de profil client stockées dans la même architecture, et matérialise les scores de fraude dans une couche de service à faible latence.

Comme le lakehouse prend en charge l'ingestion par lots (batch) et en continu (streaming) dans le même format ouvert, le modèle de détection de la fraude s'entraîne sur des données historiques et évalue les événements en direct sans dupliquer les données ni gérer de systèmes distincts.

Analyse historique par lots (batch)

Une chaîne de magasins consolide cinq ans de données de ventes provenant d'un data warehouse hérité, de fichiers plats de marques acquises et de systèmes d'inventaire dans un lakehouse en suivant un modèle d'architecture médaillon.

Les tables Bronze stockent les données brutes telles qu'ingérées, les tables Silver appliquent le nettoyage et la standardisation des schémas, et les tables Gold effectuent des agrégations pour obtenir les métriques nécessaires à l'analyse des données de vente à grande échelle. Chaque couche peut être interrogée indépendamment, ce qui offre de la flexibilité aux équipes de données sans créer de stockages de données distincts ni déplacer des données entre les systèmes pour différentes charges de travail.

Pipelines de données IoT et de capteurs

Une entreprise manufacturière collecte des relevés de capteurs à haute fréquence (température, vibration, pression) dans des formats semi-structurés qui varient selon la génération de matériel. Le lakehouse ingère les données brutes dans le stockage d'objets, les normalise via des jobs de pipeline en continu et alimente les modèles de détection d'anomalies en aval.

Comme les données structurées et non structurées coexistent dans la même architecture, les ingénieurs associent la télémétrie des capteurs aux journaux de maintenance et aux rapports de qualité sans transfert de données, ce qui permet une maintenance prédictive à une échelle impossible à réaliser sur des systèmes distincts et fragmentés.

Vue client à 360 degrés et profil unifié

Une entreprise de services financiers remplace les stockages de données par unité commerciale par une architecture unifiée où chaque équipe lit à partir des mêmes tables de lakehouse sous-jacentes. Les politiques de gouvernance des données masquent les champs sensibles par rôle, et le suivi de la traçabilité montre exactement comment chaque attribut client a été obtenu. Le résultat est un profil client à 360 degrés conforme aux exigences réglementaires : toujours à jour, sans réconciliation manuelle, avec une piste d'audit unique facilitant les contrôles internes et réglementaires.

Modèles d'architecture de données pour les lakes et la gestion des données

Les exemples concrets de data lakehouse partagent un ensemble de modèles d'architecture récurrents qui aident les équipes à passer du concept à la mise en œuvre.

Couches de stockage et de données brutes

La base de tout lakehouse est le stockage d'objets cloud. Les données brutes y arrivent en premier, dans leur format d'origine, avant toute transformation, préservant ainsi une fidélité totale pour les audits, le réentraînement des modèles et le débogage des problèmes de qualité des données. Le partitionnement par champs fréquemment filtrés, tels que la date, la région ou la catégorie de produits, réduit considérablement les ressources de calcul nécessaires pour analyser de grands ensembles de données. Un partitionnement médiocre ou absent impose des analyses complètes des tables (full table scans), ce qui annule les avantages économiques du stockage d'objets à faible coût.

Métadonnées et catalogue pour la gestion des données

Un catalogue de métadonnées centralisé distingue un lakehouse gouverné d'un data swamp. Chaque table, colonne et ensemble de données doit être enregistré avec des descriptions, des propriétaires, des balises de classification et des politiques d'accès. Cela permet une gestion des données à grande échelle : les analystes de données découvrent des ensembles de données fiables de manière autonome, et les data scientists comprennent la traçabilité des fonctionnalités (features) qu'ils utilisent pour l'entraînement des modèles. Dans les secteurs réglementés, le suivi de la traçabilité est une exigence de conformité, pas une fonctionnalité optionnelle.

Moteurs de calcul, de requête et analyses avancées

Le découplage du stockage et du calcul confère aux lakehouses leur évolutivité (scalability). Le stockage évolue indépendamment pour accueillir plus de données. Le calcul évolue indépendamment pour exécuter de lourdes charges de travail analytiques sans payer pour de la capacité inutilisée. Un lakehouse mature prend en charge plusieurs moteurs de requête sur les mêmes formats de données ouverts, de sorte que les équipes d'analyse SQL et les tâches d'entraînement de machine learning s'exécutent simultanément sans conflit. Les data scientists interrogent directement les tables et testent des hypothèses sans créer de copies redondantes des données sous-jacentes.

Exploration des données et libre-service pour les data scientists

Un lakehouse doté de contrôles d'accès basés sur les rôles permet une exploration en libre-service en toute sécurité. Les data scientists accèdent aux données brutes et traitées sans attendre qu'un ingénieur de données prépare un extrait personnalisé. Les environnements de type sandbox (bac à sable) leur permettent de créer des branches à partir des ensembles de données de production et de tester des hypothèses sans affecter les pipelines en production. Les fonctionnalités de voyage dans le temps (time-travel), qui permettent d'interroger une table telle qu'elle existait à un moment antérieur, permettent de reproduire exactement des expériences historiques, garantissant ainsi l'intégrité des données tout au long de leur cycle de vie.

Workflows de machine learning et de data science

Création de feature stores de ML sur des tables de lakehouse

L'ingénierie des caractéristiques (feature engineering) est l'une des étapes les plus chronophages de tout workflow de machine learning. Un lakehouse simplifie ce processus en stockant les caractéristiques générées dans les mêmes tables au format ouvert que celles utilisées par les équipes d'analyse pour les rapports, ce qui permet aux data scientists d'enregistrer, de partager et de réutiliser ces caractéristiques sur différents modèles.

Cela élimine les calculs redondants et garantit la cohérence entre les environnements d'entraînement et de service, réduisant ainsi le délai entre l'exploration des données et le déploiement du modèle en production.

Expériences reproductibles grâce au voyage dans le temps (time-travel)

Si les données d'entraînement sous-jacentes changent d'une expérience à l'autre, les résultats ne peuvent pas être comparés. Les fonctionnalités de voyage dans le temps du lakehouse associent chaque tâche d'entraînement à un instantané (snapshot) de données spécifique, de sorte que chaque expérience fait référence à la version exacte des données sur lesquelles elle a été entraînée. Cela rend l'ensemble du workflow MLOps auditable et reproductible, permettant aux équipes d'identifier précisément pourquoi les performances du modèle ont changé d'une itération à l'autre, ce qui est essentiel pour le débogage et les pistes d'audit réglementaires.

Mise à disposition (serving) de modèles à partir des données du lakehouse

Les modèles entraînés sur des tables lakehouse effectuent leurs prédictions sur ces mêmes tables lors du service de modèles en lot (batch serving), tandis que les couches de service en temps réel (online serving) lisent à partir de vues matérialisées dérivées des mêmes données sous-jacentes. Cela élimine le problème de la double pile (dual-stack) — une infrastructure distincte pour l'entraînement et le service de modèles — qui gonfle les coûts et introduit des incohérences dans la fraîcheur des données au sein des architectures traditionnelles. Le résultat est un parcours plus simple et plus facile à maintenir, du développement du modèle à la mise en production, sans aucune duplication de données.

Meilleures pratiques pour le déploiement d'un data lakehouse moderne

Adopter l'application des schémas avec prise en charge de l'évolution

L'application des schémas (schema enforcement) empêche les données incorrectes d'entrer dans le lakehouse au moment de l'ingestion. L'évolution des schémas (schema evolution) permet de modifier la définition des tables au fil du temps sans perturber les consommateurs en aval. Ces deux fonctionnalités doivent être configurées dès le premier jour : adapter l'application des schémas à un lac non gouverné est bien plus coûteux que de l'implémenter dès le départ, et cela génère des problèmes de qualité des données difficiles à corriger entièrement par la suite.

Appliquer le contrôle d'accès basé sur les rôles dans le catalogue

Le contrôle d'accès doit être défini au niveau du catalogue, et non au niveau de l'infrastructure. Les politiques basées sur les rôles associées aux tables et aux colonnes sont plus faciles à auditer, plus simples à modifier et moins sujettes aux dérives de configuration que les listes de contrôle d'accès gérées au niveau des dossiers de stockage (buckets). Unity Catalog offre une gouvernance unifiée pour l'ensemble des données et des actifs AI sur le lakehouse, simplifiant ainsi la conformité réglementaire tout en garantissant un accès adapté à chaque équipe.

Automatiser les contrôles de qualité lors de l'ingestion

Les contrôles de qualité des données — seuils de taux de valeurs nulles, tests d'intégrité référentielle, validations de plages de valeurs — doivent s'exécuter automatiquement dans le cadre de chaque pipeline d'ingestion. Détecter les problèmes de qualité dès l'entrée est nettement moins coûteux que de les découvrir après leur propagation dans les modèles et tableaux de bord en aval. Les anomalies doivent alerter l'équipe responsable et interrompre le pipeline, plutôt que de laisser passer des données incorrectes de manière silencieuse.

Optimiser la taille des fichiers pour une lecture efficace

Des millions de fichiers minuscules générés par une ingestion en streaming à haute fréquence créent une surcharge de métadonnées qui dégrade les performances des requêtes. La plupart des implémentations bénéficient de tâches de compaction périodiques qui fusionnent les petits fichiers en partitions de taille optimale — généralement de 128 MB à 1 GB — équilibrant ainsi l'efficacité de la lecture et la surcharge liée à la gestion de fichiers individuels trop volumineux.

Défis, compromis et gestion des risques

Complexité des formats de tables transactionnelles

Les formats de table ouverts introduisent une complexité de gestion des métadonnées que les data lakes bruts n'ont pas. Les journaux de transactions, l'historique des instantanés (snapshots) et les calendriers de compaction exigent tous une attention opérationnelle. Les équipes qui migrent depuis un simple data lake doivent prévoir du temps pour cette courbe d'apprentissage et investir dans des outils qui automatisent la maintenance de routine plutôt que de la gérer manuellement.

Optimisation des performances pour les grands lacs de données

Un lakehouse à l'échelle du pétaoctet nécessite une optimisation minutieuse. Les performances des requêtes dépendent de l'élagage des partitions (partition pruning), de la disposition des fichiers, des stratégies d'indexation et de la mise en cache. Les ingénieurs de données doivent s'attendre à une charge de travail d'optimisation continue à mesure que les volumes de données augmentent et que les modèles de requêtes évoluent — l'optimisation des performances n'est jamais une tâche ponctuelle à l'échelle de l'entreprise.

Lacunes de gouvernance en l'absence d'un catalogue solide

Un lakehouse sans catalogue centralisé n'est fondamentalement qu'un data lake avec des transactions ACID — le problème de la gouvernance des données reste entier. Les organisations qui déploient des couches de stockage et de calcul (compute) sans cadre de gouvernance approprié continueront de rencontrer des difficultés pour la découverte des données, le lignage (lineage) et le contrôle d'accès à grande échelle. L'infrastructure de gouvernance est ce qui sépare un data lakehouse productif d'un marécage de données (data swamp) sophistiqué.

Feuille de route pour la migration et l'adoption

Auditer d'abord les lacs et entrepôts de données existants

Avant de migrer quoi que ce soit, documentez l'état actuel : chaque entrepôt de données (data warehouse), data lake et intégration point à point au sein de l'organisation.

Identifiez les tables activement interrogées, les pipelines critiques et les ensembles de données présentant des problèmes de qualité connus. Cet audit met en évidence des gains rapides (quick wins) — des ensembles de données à forte valeur ajoutée mais de piètre qualité que le lakehouse peut immédiatement améliorer — ainsi que les dépendances qui nécessitent une planification minutieuse avant le début de la migration.

Prioriser les domaines à forte valeur ajoutée pour la migration

Il n'est pas nécessaire de migrer tous les ensembles de données en même temps.

Commencez par les domaines où la fragmentation des données pose le plus de problèmes : les données clients dispersées entre les différentes entités, les données de vente bloquées dans un entrepôt hérité qui ne peut pas prendre en charge les analyses avancées, ou les données opérationnelles qui alimentent simultanément la business intelligence et les flux de travail de machine learning. Les premiers succès dans des domaines clés renforcent la confiance de l'organisation avant un déploiement plus large.

Planifier la migration avec une stratégie de coexistence hybride

Prévoyez une période de coexistence hybride durant laquelle l'entrepôt existant et le nouveau lakehouse fonctionnent en parallèle. Utilisez le lakehouse comme source de référence pour les nouvelles charges de travail (workloads) tout en migrant progressivement les données historiques. La double écriture dans les deux systèmes offre un filet de sécurité et permet un retour en arrière (rollback) si des problèmes imprévus surviennent.

Métriques, surveillance et contrôle des coûts

Définir des SLA pour la fraîcheur et la latence des requêtes

Chaque ensemble de données en production doit faire l'objet d'accords sur les niveaux de service (SLA) concernant la fraîcheur des données et la latence des requêtes. Ces SLA définissent les exigences techniques pour la planification des pipelines et le provisionnement des ressources de calcul (compute), et fournissent une norme claire pour la surveillance et les alertes.

Sans SLA définis, il est impossible de déterminer si un lakehouse remplit ses obligations envers les consommateurs de données en aval, à travers les différentes équipes et charges de travail.

Instrumenter la santé des pipelines et la qualité des données

La surveillance de la santé des pipelines doit suivre les taux de réussite des tâches (jobs), la latence de traitement, le nombre de lignes et l'évolution des métriques de qualité des données au fil du temps. Une baisse du nombre de lignes corrélée à un changement de schéma en amont est plus facile à diagnostiquer lorsque ces deux signaux sont intégrés dans le même tableau de bord d'observabilité. Les équipes qui instrumentent leurs pipelines tôt détectent les problèmes avant qu'ils n'apparaissent dans les rapports destinés aux utilisateurs métier ou dans les modèles en production.

Surveiller les niveaux de stockage et les coûts du cycle de vie

Les coûts de stockage augmentent continuellement à mesure que les données historiques s'accumulent. Implémentez des politiques de cycle de vie qui transfèrent automatiquement les données rarement consultées vers des niveaux de stockage moins coûteux. Surveillez le ratio entre les coûts de stockage et de calcul (compute) au fil du temps — un déséquilibre signale souvent un surdimensionnement des ressources de calcul ou une politique de rétention qui conserve plus de données que l'entreprise n'en interroge réellement de manière régulière.

FAQ : Exemples de data lakehouse

Qu'est-ce qu'un data lakehouse et en quoi diffère-t-il d'un data lake ?

Un data lakehouse ajoute des transactions ACID, l'application des schémas et la gestion de la qualité des données par-dessus le stockage flexible et économique d'un data lake. Un simple data lake stocke les données brutes à moindre coût, mais ne dispose pas des garanties transactionnelles et des fonctionnalités de gouvernance nécessaires à des analyses fiables. Le lakehouse comble cet écart sans nécessiter de transfert de données vers un entrepôt distinct, ce qui en fait la base privilégiée pour les équipes qui ont besoin à la fois de flexibilité et de fiabilité des données à l'échelle de l'entreprise.

Quels sont les cas d'usage les plus courants d'un data lakehouse ?

Les exemples de data lakehouse les plus courants sont l'analyse en streaming en temps réel, l'ingénierie des caractéristiques (feature engineering) pour le machine learning, les profils clients à 360 degrés, la business intelligence d'entreprise avec une source unique de vérité, et les pipelines de données de capteurs IoT. Dans chaque cas, le lakehouse remplace plusieurs systèmes distincts — data lake, entrepôt, plateforme ML — par une architecture de données unique et unifiée que toutes les équipes de données partagent, réduisant ainsi les coûts et éliminant les transferts de données inutiles.

Quels sont les avantages des transactions ACID pour un data lakehouse ?

Les transactions ACID garantissent que les lectures et les écritures dans les tables du lakehouse sont atomiques, cohérentes, isolées et durables. Les tâches de pipeline simultanées ne peuvent pas corrompre les données les unes des autres, les tâches ayant échoué ne laissent pas d'écritures partielles qui contamineraient les résultats en aval, et les lecteurs voient toujours un instantané (snapshot) cohérent pendant que les rédacteurs mettent à jour les données. Ces garanties rendent le lakehouse fiable pour les analyses en production, tant pour les data scientists que pour les consommateurs de business intelligence qui partagent le même espace de stockage de données sous-jacent.

Comment fonctionne la gouvernance des données dans un data lakehouse ?

La gouvernance des données dans un lakehouse est centralisée via un catalogue unifié qui gère le contrôle d'accès, le suivi du lignage (lineage), la classification des données et la découverte sur l'ensemble des tables et des actifs. Les politiques d'accès basées sur les rôles s'appliquent de manière cohérente, quel que soit le moteur de requête ou l'outil qui accède aux données. Les charges de travail d'analyse en streaming et de machine learning partagent ce même modèle de gouvernance, garantissant que la qualité des données et les politiques d'accès s'étendent de l'ingestion brute jusqu'au service de modèles, sans lacunes ni configurations distinctes par système.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.

Voir tous les blogs