Architecture en médaillon
Qu'est-ce qu'une architecture en médaillon ?
Une architecture en médaillon est un schéma de conception des données pensé pour organiser les données de façon logique dans un lakehouse. Il vise à améliorer leur structure et leur qualité de façon incrémentielle et progressive au fur et à mesure qu'elles traversent chacune des couches de l'architecture – Bronze, Silver et Gold. Les architectures en médaillon sont parfois appelées architectures « multi-saut ».
Les avantages de l'architecture lakehouse
- Un modèle de données simple
- Facile à comprendre et à mettre en œuvre
- Permet un ETL incrémental
- Peut recréer vos tables à partir des données brutes à tout moment
- Transactions ACID, time travel
Petite introduction aux lakehouses
Le lakehouse est un nouveau paradigme d'architecture de plateforme de données qui réunit les meilleurs atouts des data lakes et des data warehouses. Cette plateforme de données moderne se distingue par une grande évolutivité et d'excellentes performances. Elle héberge aussi bien les datasets bruts que préparés, afin de les mettre rapidement à la disposition des fonctions métier, l'objectif étant de générer des insights et de faciliter la prise de décision. Le lakehouse élimine les silos et offre à tous les utilisateurs de l'entreprise un accès sûr et transparent aux données, sur une seule et même plateforme.
Couche Bronze (données brutes)
La couche Bronze accueille toutes les données en provenance des systèmes externes. Les structures de table de cette couche reflètent celles des systèmes source à l'identique, et lui adjoignent des colonnes de métadonnées qui capturent la date et l'heure du chargement, l'ID du processus, etc. Cette couche est axée sur la capture des données de modification et remplit plusieurs fonctions : archive historique de la source (stockage à froid), data lineage, possibilité d'audit et retraitement sans relecture des données du système source si nécessaire.
Couche Silver (données nettoyées et mises en conformité)
Dans la couche Silver du lakehouse, les données de la couche Bronze sont identifiées, fusionnées, mises en conformité et nettoyées (selon le principe du « strict nécessaire ») de façon à délivrer une « vue entreprise » de l'ensemble des entités commerciales, concepts et transactions essentiels. (par exemple, clients, boutiques, transactions sans doublons et tables de référence croisée).
La couche Silver réunit les données de différentes sources au sein d'une vue entreprise dédiée à l'analytique en libre-service. Elle permet de générer des rapports ad-hoc et de réaliser des opérations d'analytique avancée et de ML. Elle sert de source aux analystes de département, aux data engineers et aux data scientists qui peuvent s'appuyer dessus pour créer des analyses et résoudre des problèmes métier, dans le cadre de projets d'entreprise et de département au niveau de la couche Gold.
Selon le paradigme de data engineering du lakehouse, la méthodologie ETL appliquée est légère : seules les transformations et les règles de nettoyage de données strictement nécessaires sont appliquées lors du chargement de la couche Silver. La priorité est donnée à la vitesse et à l'agilité lors de l'importation et de la livraison des données dans le data lake. Une grande part des transformations complexes et des règles métier, propres à chaque projet, est appliquée lors du passage de la couche Silver à la couche Gold. Du point de vue de la modélisation des données, la couche Silver a davantage de modèles de données de type 3NF. Comme dans un data vault, des modèles de données 76can, plus performants en écriture, sont utilisables dans cette couche.
Couche Gold (tables de données sélectionnées de niveau métier)
Les données de la couche Gold du lakehouse sont généralement organisées en bases de données dédiées à des projets spécifiques et prêtes à consommer. La couche Gold est destinée à la création de rapports et utilise davantage de modèles dénormalisés et optimisés pour la lecture, avec un nombre réduit de jointures. C'est là que sont appliquées les dernières transformations et règles de qualité. Elle accueille la couche de présentation de projets d'analytique client, d'analytique de qualité des produits, d'analyse d'inventaire, de segmentation des clients, de recommandations de produits, d'analytique marketing/ventes, etc. Dans la couche Gold d'un lakehouse se trouvent de nombreux modèles de données reposant sur un schéma en étoile, comme Kimball, ou de data marts comme Inmon.
Comme vous pouvez le voir, les données sont affinées à chaque passage d'une couche à l'autre du lakehouse. Dans certains cas, le lakehouse reçoit une grande quantité de data marts et d'EDW provenant de la pile technologique RDBMS traditionnelle. Pour la première fois, les entreprises peuvent réaliser des opérations d'analytique avancée et de ML sur l'ensemble de leurs EDW, ce qui était impossible ou prohibitif avec une pile classique. (par exemple, le rapprochement des données IoT/fabrication avec des données de vente et de marketing à des fins d'analyse des défauts, ou le rapprochement de données génomiques et cliniques de type EMR/HL7 et des déclarations financières en vue de créer un data lake de santé pour améliorer l'analytique des soins des patients.)
Architecture en médaillon et data mesh
L'architecture en médaillons est compatible avec le concept de data mesh. Il est possible de joindre des tables Bronze et Silver selon le modèle « un vers plusieurs » : les données d'une table en amont peuvent alimenter plusieurs tables en aval.