Data Mart
Qu'est-ce qu'un data mart ?
Un data mart est une base de données organisée et maintenue qui regroupe des tables devant répondre aux besoins spécifiques d'une équipe data, d'une communauté ou d'un domaine d'activité, comme le service marketing ou le département d'ingénierie. Plus petit et ciblé qu'un data warehouse, le data mart existe généralement en tant que sous-ensemble de l'entrepôt de données de l'entreprise. Les data marts sont généralement employés à des fins d'analytique, de business intelligence et de reporting. Ils représentent la première évolution de la réalité physique des data warehouses et des data lakes. ACNielsen a proposé le premier data mart à ses clients au début des années 1970, afin qu'ils aient un moyen de stocker des informations sous forme numérique, dans le but d'optimiser leurs efforts commerciaux.
Caractéristiques des data marts
- Ils sont généralement créés et gérés par l'équipe data de l'entreprise. Dans les PME, ils peuvent aussi être créés et maintenus de façon organique par un département donné.
- Les data stewards du groupe métier assurent la maintenance du data mart. Quant aux utilisateurs finaux, ils bénéficient d'un accès en lecture seule : ils peuvent interroger et visualiser les tables, sans pouvoir les modifier. Cette mesure évite que des utilisateurs moins chevronnés ne suppriment ou modifient accidentellement des données commerciales.
- Ils emploient généralement un modèle dimensionnel et un schéma en étoile.
- Ils contiennent un sous-ensemble sélectionné de données provenant du data warehouse. Les données sont fortement structurées. Elles ont été nettoyées et mises en forme par l'équipe data de l'entreprise pour faciliter leur interprétation et leur interrogation.
- Ils ont été conçus en fonction des besoins uniques d'un domaine d'activité ou d'un cas d'usage précis.
- La plupart du temps, les utilisateurs interrogent les données à l'aide de commandes SQL.
Les types de data marts : data marts indépendants, dépendants et hybrides
Trois principaux types de data marts sont actuellement recensés :
- Les data marts indépendants ne font pas partie du data warehouse. Ils ressemblent beaucoup au data mart que proposait ACNielsen à l'époque. Ils ciblent généralement un domaine commercial ou un sujet précis. Les données peuvent provenir de sources internes ou externes. Elles sont ensuite traduites, traitées et chargées dans le data mart, qui les abritent jusqu'à leur utilisation.
- Les data marts dépendants sont intégrés au data warehouse. Une approche verticale (de haut en bas) prend en charge le stockage de toutes les données dans un emplacement centralisé. Une section de données clairement définie est ensuite sélectionnée à des fins de recherche.
- Les data marts hybrides combinent des données prélevées dans un data warehouse à d'autres sources. Cela peut être utile dans un large éventail de situations, notamment pour fournir une intégration ad hoc à un nouveau groupe ou un nouveau produit récemment ajouté à l'organisation. Les data marts hybrides conviennent idéalement aux environnements qui exploitent plusieurs bases de données. Leur délai d'implémentation est très court. Ces systèmes facilitent le nettoyage des données et fonctionnent très bien avec les petites applications centrées sur les données.
Les avantages des data marts
- Source unique de vérité : le data mart peut servir de source unique de vérité pour une ligne d'activité spécifique. Tous les acteurs peuvent ainsi travailler avec les mêmes faits et des données identiques.
- Simplicité : les utilisateurs métier peuvent visiter le data mart pour accéder facilement aux données qui les intéressent, sans avoir à parcourir tout le data warehouse et à assembler des tables.
Défis des data marts
Les data warehouses d'entreprise sont créés avec d'excellentes intentions : répondre à tous les besoins de gestion de données d'une entreprise. Mais faire plaisir à tout le monde est compliqué, chaque unité commerciale ayant ses propres besoins et objectifs en matière de données. Les départements ont donc tendance à dupliquer les données dans leurs propres data marts (parfois avec l'aide du service IT de l'entreprise) pour enrichir un domaine particulier du data warehouse, et ainsi satisfaire leurs besoins d'analytique en libre-service et de création de rapport. De ce fait, les data marts deviennent au fil du temps – du point de vue de l'entreprise – des silos et des copies clandestines des données, même s'ils rendent un grand service aux départements. Mais quand la pratique devient trop fréquente, plus aucune version unique de la vérité n'existe.
Comment le lakehouse résout les problèmes inhérents aux data marts
Le lakehouse résout les problèmes soulignés plus haut en rassemblant tous les data warehouses et data marts d'une entreprise sur une même plateforme, sous un régime unifié de sécurité et de gouvernance, tout en offrant aux différentes équipes la possibilité de créer leurs propres sandboxes. Comme chaque data mart, ou « copie augmentée », repose sur la même plateforme lakehouse que les autres, il est découvert par le catalogue de données du lakehouse et soumis aux règles de gouvernance des données (étiquetage, utilisation d'un dictionnaire de données, etc.). De cette manière, chaque copie est découvrable par tous les acteurs de l'entreprise, ce qui évite la création de doublons inutiles.
Créez votre prochain data mart sur Databricks SQL
Essayez gratuitement Databricks SQL