Revenir au contenu principal

Qu'est-ce qu'un schéma en étoile ?

Conception d'entrepôt de données dimensionnel avec une table de faits centrale connectée aux tables de dimensions par des clés étrangères, optimisée pour les requêtes analytiques avec moins de jointures.

4 Personas Analytics AIBI 2a

Summary

  • Les tables de faits contiennent des métriques quantitatives (montant des ventes, quantités, effectifs) et des clés étrangères vers les dimensions, avec un niveau de granularité définissant la granularité de la mesure (transaction, agrégat quotidien) et prenant en charge les mesures additives, semi-additives et non additives.
  • Les tables de dimensions fournissent un contexte descriptif (attributs client, détails produit, hiérarchies temporelles), généralement dénormalisé avec des stratégies de dimension à évolution lente (SCD) qui suivent l'historique des modifications via le type 1 (écrasement), le type 2 (gestion des versions) ou le type 3 (actuel/précédent).
  • L'optimisation des requêtes bénéficie du stockage en colonnes, de l'élimination des partitions, des tables de synthèse pré-agrégées et de l'intégration d'outils de BI prenant en charge l'exploration détaillée, le découpage et les opérations sur les cubes OLAP pour l'analyse multidimensionnelle.

Qu'est-ce qu'un schéma en étoile ?

Un schéma en étoile est un modèle de données multidimensionnel qui permet d'organiser une base de données afin de faciliter sa compréhension et son analyse. Les data warehouses, les bases de données, les data marts et d'autres outils peuvent bénéficier des schémas en étoile. Par leur conception, les schémas en étoile sont optimisés pour interroger de grands ensembles de données.

Introduits par Ralph Kimball dans les années 1990, ils sont particulièrement efficaces pour stocker et mettre à jour des données, tout en conservant un historique fiable. Ils réduisent en effet la duplication de définitions métier répétitives et accélèrent l'agrégation et le filtrage des données dans le data warehouse.

 

Tables de faits et tables de dimension

Le schéma en étoile est utilisé pour dénormaliser des données métier en dimensions (comme le temps et le produit) et en faits (comme des transactions de montants et de quantités).

Un schéma en étoile comprend en son centre une table de faits, qui contient des « faits » métier (comme des montants ou des quantités de transactions). La table de faits est reliée à plusieurs autres tables qui contiennent des dimensions telles que le temps ou le produit. Grâce aux schémas en étoile, les utilisateurs peuvent librement classer et décomposer les données, généralement en joignant au moins deux tables de faits ou de dimension.

Données dénormalisées

Les schémas en étoile dénormalisent les données, ce qui consiste à ajouter des colonnes redondantes à des tables de dimension pour simplifier et accélérer l'interrogation et l'exploitation des données. Cette démarche consiste à tolérer une certaine redondance (duplication des données) dans le modèle de données. L'objectif est d'accélérer les requêtes en évitant des opérations de jointure coûteuses sur le plan du calcul.

Dans ce modèle, la table de faits est normalisée mais les tables de dimension ne le sont pas. Autrement dit, les données de la table de faits ne se trouvent que dans cette table, tandis que les tables de dimension peuvent contenir des données redondantes.

UN LEADER 5X

Gartner® : Databricks, leader des bases de données cloud

Avantages des schémas en étoile

  • Les modèles basés sur les faits et les dimensions comme les schémas en étoile sont simples à comprendre et à implémenter. Les utilisateurs trouvent très facilement les données dont ils ont besoin. Ces modèles peuvent être appliqués aux data marts et à d'autres ressources de données.
  • Ils sont excellents pour les requêtes simples : contrairement aux modèles normalisés comme les schémas en flocon de neige, ils ne nécessitent pas un grand nombre de jointures pour accéder aux données.
  • Ils s'adaptent bien aux modèles OLAP.
  • Ils offrent de meilleures performances de recherche que les données normalisées parce qu'ils évitent les jointures, toujours coûteuses sur le plan du calcul.

Quelle est la différence entre un schéma en étoile et la 3NF (troisième forme normale) ?

3NF, ou troisième forme normale, est une méthode visant à réduire la redondance des données par la normalisation. C'est une norme courante pour les bases de données considérées comme entièrement normalisées. Elle contient généralement plus de tables qu'un schéma en étoiles, à cause du processus de normalisation. Il y a toutefois un inconvénient : les requêtes tendent à gagner en complexité en raison du nombre de jointures entre de grandes tables.

Ressources

Ne manquez jamais un article Databricks

Abonnez-vous à notre blog et recevez les derniers articles dans votre boîte mail.