Guide pratique de conception et d'architecture de data warehouse

Un guide pratique pour la conception de data warehouses couvrant l'architecture, la modélisation des données, les pipelines ETL/ELT, les data marts et la gouvernance pour concevoir un système évolutif et prêt pour l'analyse.

par Équipe Databricks

Une conception efficace de data warehouse commence par l'alignement des besoins de reporting des parties prenantes avant de choisir un modèle de schéma ou une technologie de stockage — respecter cette séquence évite des retouches coûteuses à grande échelle.
L'architecture moderne de data warehouse suit une structure à trois niveaux séparant les sources de données, le stockage et les couches sémantiques, avec des techniques de modélisation dimensionnelle comme le schéma en étoile qui optimisent les performances des data marts pour des requêtes rapides.
Les pipelines ETL/ELT, les tests de pipeline automatisés et les contrôles d'accès basés sur les rôles sont fondamentaux pour un data warehouse bien conçu qui maintient la cohérence des données, évolue de manière sécurisée et prend en charge les charges de travail de BI et d'AI.

Ce guide s'adresse aux ingénieurs de données, architectes, ingénieurs analytiques et responsables techniques chargés de planifier ou de moderniser un entrepôt de données. Que vous démarriez la configuration d'un tout nouvel entrepôt de données, que vous migriez depuis un système hérité ou que vous fassiez évoluer un entrepôt de données existant pour l'AI, ce document fournit une référence pratique pour chaque décision majeure de conception d'entrepôt de données.

Entrepôts de données, objectifs commerciaux et analyse de données

Un entrepôt de données génère de la valeur en proportion directe des cas d'usage analytiques qu'il est conçu pour prendre en charge. Avant de choisir un modèle de schéma ou un niveau de stockage, les organisations doivent définir quelles décisions l'entrepôt de données permettra d'améliorer et pour qui.

Partir d'objectifs commerciaux clairs permet de s'assurer que votre entrepôt de données apporte une réelle valeur ajoutée, et pas seulement du stockage de données. Une conception efficace d'entrepôt de données commence par l'identification des cas d'usage analytiques clés qui généreront des résultats mesurables. Un entrepôt de données bien conçu permet une analyse de données pertinente — les organisations qui sautent cette étape construisent souvent des systèmes techniquement corrects mais inutilisés, car l'entrepôt répond à des questions que personne ne se pose.

La cartographie des parties prenantes est tout aussi importante. Les utilisateurs métier ont besoin de données propres et pré-agrégées pour leurs tableaux de bord. Les data scientists ont besoin d'un accès granulaire pour l'entraînement des modèles. Les dirigeants veulent des KPI fiables avec une capacité d'exploration détaillée. Associer tôt ces personas aux besoins de reporting évite les défauts d'alignement de conception qui s'accentuent à mesure que l'entrepôt se développe.

Architecture moderne d'entrepôt de données

L'architecture moderne d'un entrepôt de données — qu'elle soit cloud ou sur site — suit généralement une structure d'architecture à trois niveaux qui comprend une couche de source de données, une couche de stockage et une couche de présentation. Chaque niveau a une responsabilité distincte, et les frontières entre eux définissent la manière dont les données circulent de leur origine vers le consommateur d'analyses.

La couche de source de données capture les données brutes des bases de données transactionnelles, des applications SaaS, des flux d'événements et des exports de fichiers plats. Il s'agit de la couche de données par laquelle toutes les données structurées et non structurées entrantes pénètrent dans le système, quels que soient leur format ou leur vélocité.

La couche de stockage d'un entrepôt de données est conçue pour un requêtage et une analyse rapides plutôt que pour des tâches transactionnelles. C'est là que résident les données traitées, organisées autour de modèles dimensionnels optimisés pour les charges de travail de traitement analytique en ligne (OLAP). Les entrepôts de données cloud modernes peuvent adapter automatiquement et indépendamment la puissance de calcul et le stockage — une capacité que les systèmes sur site traditionnels ne peuvent pas reproduire.

La couche de sortie sémantique expose des vues adaptées aux métiers pour les outils de reporting et les utilisateurs professionnels, traduisant le modèle de données sous-jacent en termes familiers pour les analystes — chiffre d'affaires, attrition, marge — et appliquant la logique métier qui garantit des définitions de métriques cohérentes entre les équipes.

La conception d'entrepôts natifs dans le cloud offre deux avantages structurels par rapport aux solutions sur site : l'élasticité et l'ouverture. L'architecture découplée du stockage et du calcul permet à chaque dimension d'évoluer indépendamment. Les formats de données ouverts évitent le verrouillage propriétaire, éliminent les silos de données et permettent à l'entrepôt de données d'interopérer avec les plateformes de ML, les moteurs de streaming et les outils d'AI.

Architecture des données et stockage des données

Chaque entrepôt de données bien conçu commence par un inventaire complet des sources de données. Les organisations doivent documenter tous les systèmes en amont — plateformes CRM, bases de données ERP, outils marketing et flux de streaming — avant d'écrire le code des pipelines. Cet inventaire oriente la conception du niveau de stockage, la stratégie d'intégration des données et la politique de rétention.

La conception du stockage pour un entrepôt de données moderne suit généralement une approche par zones. L'architecture médaillon (medallion architecture) — Bronze, Silver et Gold — rend la qualité des données explicite à chaque étape du flux de données. Les données brutes arrivent dans le niveau Bronze exactement telles qu'elles proviennent des systèmes sources, préservant ainsi l'intégralité de la lignée. Le niveau Silver applique un nettoyage et une déduplication pour structurer les données dans une vue d'entreprise. Le niveau Gold contient des modèles dimensionnels prêts à la consommation qui alimentent les tableaux de bord et les data marts.

Les politiques de rétention et d'archivage évitent la prolifération du stockage de données. Les organisations doivent définir tôt des seuils de volume de données, des règles de délai d'archivage et des stratégies de stockage à froid. Les données sensibles nécessitent des politiques de traitement supplémentaires pour satisfaire aux cadres réglementaires tels que le GDPR ou la HIPAA.

Concevoir un entrepôt de données : modélisation des données et data mart

La conception d'un entrepôt de données implique de structurer un référentiel centralisé pour le stockage, l'intégration et l'analyse efficaces des informations historiques. La phase de modélisation des données est le moment où les exigences métier abstraites deviennent des structures de modèles de données concrètes qui ont un impact direct sur les performances des requêtes, la facilité d'utilisation et la maintenabilité à long terme.

Sélectionner un modèle de schéma principal

La modélisation dimensionnelle est importante pour un reporting efficace et réduit les jointures de tables dans les entrepôts de données. Le schéma en étoile est le choix standard pour sa simplicité et ses performances de requête rapides — une table de faits centrale connectée aux tables de dimensions environnantes gère efficacement les requêtes complexes, permettant les requêtes analytiques complexes dont dépendent les outils de BI et les analystes, tout en réduisant la surcharge de jointure courante dans les schémas normalisés. Les tables de faits capturent des événements mesurables à une granularité définie. Les tables de dimensions portent des attributs descriptifs — produit, client, temps, emplacement — qui donnent du contexte aux faits.

Le schéma en flocon normalise les tables de dimensions en plusieurs tables associées — ce qui réduit la redondance des données entre les groupes d'attributs répétés — et permet aux équipes de stocker les données plus efficacement, bien que cela se fasse au détriment de jointures supplémentaires. Plusieurs tables de dimensions liées dans une hiérarchie échangent une certaine vitesse de requête contre une cohérence plus stricte. Les équipes devraient préférer le schéma en étoile pour les tableaux de bord destinés aux utilisateurs et réserver la normalisation en flocon aux tables de dimensions où la redondance des données est une préoccupation majeure.

Concevoir des data marts par domaine

Un data mart est un sous-ensemble thématique de l'entrepôt de données central, optimisé pour un seul domaine métier — finance, marketing, chaîne d'approvisionnement ou HR. Les data marts accélèrent le délai d'obtention des insights sans exposer les équipes du domaine à toute la complexity du schéma central. Les organisations doivent créer des data marts de manière incrémentale, en commençant par les domaines à plus forte valeur ajoutée. Chaque domaine doit avoir un propriétaire désigné responsable de la cadence de rafraîchissement et de l'évolution du schéma.

Techniques de modélisation des données

Le choix entre le schéma en étoile et la normalisation en flocon est l'une des décisions les plus importantes lors de la conception d'un entrepôt de données. Le schéma en étoile est le modèle dominant pour la plupart des charges de travail de BI car il permet des lectures dénormalisées rapides avec un minimum de jointures. Une table de faits centrale connectée à plusieurs tables de dimensions — produit, client, date — offre de solides performances sur de grands ensembles de données.

Le choix du bon modèle de données a un impact direct sur les performances et la facilité d'utilisation, il est donc important d'éviter la sur-ingénierie dans les premières étapes et de commencer simplement. Les décisions de granularité définissent le niveau atomique auquel les tables de faits enregistrent les événements. Une granularité plus fine des données augmente le stockage mais maximise la flexibilité analytique. Les architectes de données doivent établir tôt des normes de granularité par table de faits, car les modifier nécessite des réécritures de pipelines coûteuses.

Modèles de data marts

Les organisations qui développent un entrepôt de données moderne doivent décider comment structurer les data marts pour garantir l'indépendance des domaines. L'approche ascendante (Bottom-Up) construit d'abord des data marts spécifiques aux départements et les intègre au fil du temps dans l'entrepôt de données central. L'approche descendante (Top-Down) crée d'abord l'entrepôt de données centralisé, établissant une source unique de vérité avant de créer des data marts pour les domaines individuels.

La cadence de rafraîchissement varie selon le data mart. Un data mart financier servant à la clôture de fin de mois peut n'avoir besoin que de rafraîchissements par lots nocturnes. Un data mart marketing servant à l'optimisation des campagnes peut nécessiter des mises à jour horaires. Les organisations doivent spécifier explicitement la cadence de rafraîchissement et ne pas appliquer un calendrier unique à tous les nouveaux data marts.

La propriété du domaine est le pendant organisationnel de la conception technique des data marts. Chaque data mart thématique doit avoir un propriétaire de domaine désigné, responsable de la précision du schéma, des modifications de schéma et de la communication en aval.

Conceptions d'entrepôts de données et planification de la mise en œuvre

Deux grandes approches régissent les conceptions d'entrepôts de données : descendante (Top-Down) et ascendante (Bottom-Up). Les implémentations d'entreprise mélangent généralement les deux — un modèle centralisé assure la cohérence des données tandis que des data marts spécifiques aux domaines accélèrent l'adoption.

Une feuille de route progressive réduit les risques. La phase un ingère les sources de données prioritaires et fournit deux ou trois data marts à forte valeur ajoutée. La phase deux s'étend à des domaines supplémentaires. La phase trois ajoute des capacités d'AI et des analyses intégrées. Tenter de tout construire en même temps est la cause la plus fréquente d'échec de mise en œuvre d'un entrepôt de données.

L'estimation des coûts doit couvrir le calcul, le stockage, les outils d'orchestration et les licences d'intégration de données. Les responsables de la gouvernance de la gestion des données doivent être désignés avant le début de la construction technique — adapter la gouvernance après coup est nettement plus difficile que de l'intégrer dès le départ.

Pipelines ETL/ELT et intégration du stockage

Le choix entre Extract, Transform, Load (ETL) et ELT façonne considérablement l'architecture des pipelines. L'ETL transforme les données avant de les charger, ce qui réduit le stockage mais crée des goulots d'étranglement à grande échelle. L'ELT charge d'abord les données brutes et effectue le traitement des données au sein du data warehouse, ce qui est plus efficace dans les environnements cloud où le calcul est élastique. Comprendre les compromis entre ETL et ELT aide les équipes d'ingénierie des données à sélectionner la bonne stratégie pour chaque système source.

Le Change Data Capture (CDC) et le chargement incrémentiel basé sur l'horodatage sont les méthodes privilégiées pour maintenir la disponibilité des données en temps réel dans les data warehouses. Ils minimisent la latence entre les modifications du système source et la disponibilité dans le data warehouse, sans la surcharge liée aux rechargements complets de tables.

Les outils d'orchestration coordonnent la planification des pipelines, la gestion des dépendances et la gestion des erreurs. Le bon choix dépend de la complexité du pipeline, de la fraîcheur des données requise et de la nécessité pour l'organisation d'effectuer un traitement par lots ETL ou une ingestion en continu (streaming).

Couche de présentation et outils d'analyse

La couche sémantique est l'endroit où les concepts des modèles de données brutes sont traduits en termes métier. Plutôt que d'exposer des noms de colonnes bruts, une vue sémantique bien conçue met en avant des indicateurs métier certifiés avec des définitions et une gouvernance claires. Cela réduit le risque que les analystes calculent le même indicateur de manière différente et garantit la précision des rapports en aval.

Les outils de reporting doivent être adaptés aux profils des utilisateurs. Les dirigeants préfèrent les tableaux de bord intégrés avec des vues d'indicateurs clés de performance (KPI) prédéfinies. Les analystes et les data scientists ont besoin d'un accès plus approfondi : des interfaces SQL pour les analystes, un accès direct aux tables pour les équipes de modélisation. Les analyses en libre-service fonctionnent de manière optimale lorsque la gouvernance sémantique applique le contrôle d'accès via des outils dédiés, permettant aux utilisateurs métier d'explorer les données en toute confiance sans accéder aux données sensibles pour lesquelles ils ne sont pas autorisés.

Facilitation de l'analyse et observabilité

Les contrats de métriques définissent la manière dont les KPI principaux sont calculés, qui en est propriétaire et comment ils doivent être interprétés. Sans contrats formels, différentes équipes rapportent fréquemment des chiffres différents pour une même métrique.

Des tests automatisés de qualité des données intégrés aux pipelines de données détectent les problèmes avant qu'ils ne se propagent aux tableaux de bord. L'implémentation de règles strictes de validation des données garantit que les rapports en aval reflètent des données précises et cohérentes. Les équipes doivent suivre la fraîcheur des données, les anomalies de nombre de lignes et la dérive de schéma (schema drift) comme des métriques d'observabilité de premier ordre.

Sécurité, gouvernance et conformité pour l'architecture des données

Le contrôle d'accès basé sur les rôles est nécessaire pour protéger les informations sensibles et se conformer aux cadres réglementaires tels que le GDPR ou la HIPAA. Un data warehouse bien conçu applique des politiques d'accès au niveau des tables, des lignes et des colonnes. Unity Catalog fournit une gouvernance centralisée des données sur le stockage, le calcul et les outils de BI, garantissant que les politiques d'accès sont appliquées de manière cohérente, quel que soit l'outil ou le profil qui effectue la requête.

Le chiffrement au repos et en transit protège les données sensibles. Le masquage des données (tokenisation, hachage ou mise à nul) permet aux analystes d'interroger des champs protégés sans voir les PII sous-jacentes.

Une gouvernance solide des données est essentielle pour maintenir la qualité, la sécurité et la confiance dans les données au sein d'une organisation, garantissant que les données sont cohérentes et fiables pour la prise de décision. La documentation du lignage (lineage) permet aux organisations de retracer n'importe quelle métrique jusqu'à sa source et d'évaluer l'impact des modifications en amont.

Déploiement, mise à l'échelle et opérations de mise en œuvre du data warehouse

Les implémentations de data warehouse en production nécessitent des stratégies de déploiement multi-régions pour garantir la disponibilité et réduire la latence. Les organisations ayant des utilisateurs mondiaux déploient généralement l'infrastructure de leur data warehouse dans des régions cloud spécifiques afin de concilier les exigences de résidence des données et les performances des requêtes.

Les plans de sauvegarde et de reprise après sinistre doivent définir les objectifs de temps de récupération et de point de récupération pour chaque niveau de stockage. Les données brutes de niveau Bronze sont plus faciles à réintégrer que les tables transformées de niveau Gold.

Le CI/CD pour les modèles de données et les pipelines apporte la discipline du génie logiciel aux opérations de data warehouse. Les modifications de schéma et les nouvelles définitions de data marts doivent passer par des pull requests versionnées, des tests automatisés et des environnements de préproduction avant d'atteindre la production.

Feuille de route, déploiement et prochaines étapes

Mener un projet pilote avec un domaine à forte valeur ajoutée minimise les risques et crée une dynamique initiale. Les data marts de la finance et des ventes sont souvent les premiers choix : leurs KPI sont bien compris et l'intérêt des parties prenantes est élevé.

Un déploiement progressif permet aux équipes d'intégrer les retours d'expérience entre chaque phase, avec des formations spécifiques à chaque domaine couvrant les tableaux de bord et les définitions de métriques pertinentes pour chaque équipe. Un data warehouse bien conçu évolue continuellement, car l'entreprise évolue. Les programmes de data warehouse les plus réussis traitent l'infrastructure analytique comme un système vivant, avec une surveillance régulière et des améliorations itératives pour maintenir le data warehouse aligné sur les besoins des parties prenantes.

Foire aux questions

Qu'est-ce que la conception de data warehouse ?

La conception de data warehouse consiste à structurer un système central pour le stockage, l'intégration et l'analyse efficaces des informations historiques. Elle englobe la sélection du modèle de schéma, la conception des niveaux de stockage, l'architecture des pipelines de données, la modélisation dimensionnelle et les contrôles de gouvernance qui garantissent l'intégrité et la sécurité des données dans l'ensemble du système.

Quels sont les 4 types de data warehouses ?

Les quatre types courants sont les enterprise data warehouses (EDW) qui desservent l'ensemble de l'organisation à partir d'un référentiel centralisé ; les magasins de données opérationnelles (operational data stores) pour le reporting en temps quasi réel ; les data marts desservant des domaines métier individuels ; et les cloud data warehouses offrant une infrastructure élastique et gérée pour les charges de travail analytiques.

Quels sont les 5 composants d'un data warehouse ?

Les cinq composants clés sont la couche d'ingestion source, qui capture les données brutes des systèmes en amont ; la couche de pipeline ETL/ELT, qui déplace et transforme les données ; la couche de stockage, qui contient les données historiques structurées ; la couche sémantique et de présentation, qui expose des vues adaptées aux besoins de l'entreprise ; et la couche de reporting et d'analyse, où les utilisateurs métier et les data scientists exploitent les informations et analysent les données.

Quels sont les 4 principes de conception d'un data warehouse ?

Les principes clés de la conception de data warehouse — fondamentaux pour tout effort de conception — comprennent l'intégration, qui consolide les données de plusieurs sources dans un format cohérent ; la structuration orientée sujet (Subject-Oriented), qui organise les données autour des grands domaines de l'entreprise plutôt que des processus transactionnels ; la variation dans le temps (Time-Variant), qui conserve les données historiques pour permettre l'analyse des tendances et les prévisions ; et la non-volatilité (Non-Volatility), ce qui signifie qu'une fois chargées, les données sont en lecture seule et ne sont pas soumises à des mises à jour opérationnelles.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.

Voir tous les blogs