Un sous-ensemble ciblé d'un entrepôt de données contenant des données agrégées et filtrées pour des départements ou des groupes d'utilisateurs spécifiques, permettant des analyses ciblées.
Un data mart est une base de données organisée et maintenue qui regroupe des tables devant répondre aux besoins spécifiques d'une équipe data, d'une communauté ou d'un domaine d'activité, comme le service marketing ou le département d'ingénierie. Plus petit et ciblé qu'un data warehouse, le data mart existe généralement en tant que sous-ensemble de l'entrepôt de données de l'entreprise. Les data marts sont généralement employés à des fins d'analytique, de business intelligence et de reporting. Ils représentent la première évolution de la réalité physique des data warehouses et des data lakes. ACNielsen a proposé le premier data mart à ses clients au début des années 1970, afin qu'ils aient un moyen de stocker des informations sous forme numérique, dans le but d'optimiser leurs efforts commerciaux.
Trois principaux types de data marts sont actuellement recensés :
Les data warehouses d'entreprise sont créés avec d'excellentes intentions : répondre à tous les besoins de gestion de données d'une entreprise. Mais faire plaisir à tout le monde est compliqué, chaque unité commerciale ayant ses propres besoins et objectifs en matière de données. Les départements ont donc tendance à dupliquer les données dans leurs propres data marts (parfois avec l'aide du service IT de l'entreprise) pour enrichir un domaine particulier du data warehouse, et ainsi satisfaire leurs besoins d'analytique en libre-service et de création de rapport. De ce fait, les data marts deviennent au fil du temps – du point de vue de l'entreprise – des silos et des copies clandestines des données, même s'ils rendent un grand service aux départements. Mais quand la pratique devient trop fréquente, plus aucune version unique de la vérité n'existe.
Le lakehouse résout les problèmes soulignés plus haut en rassemblant tous les data warehouses et data marts d'une entreprise sur une même plateforme, sous un régime unifié de sécurité et de gouvernance, tout en offrant aux différentes équipes la possibilité de créer leurs propres sandboxes. Comme chaque data mart, ou « copie augmentée », repose sur la même plateforme lakehouse que les autres, il est découvert par le catalogue de données du lakehouse et soumis aux règles de gouvernance des données (étiquetage, utilisation d'un dictionnaire de données, etc.). De cette manière, chaque copie est découvrable par tous les acteurs de l'entreprise, ce qui évite la création de doublons inutiles.
Essayez gratuitement Databricks SQL
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.