Revenir au contenu principal

Qu'est-ce que le schéma Snowflake ?

Conception d'entrepôt de données étendant le schéma en étoile par la normalisation des tables de dimensions en plusieurs tables liées, réduisant la redondance tout en augmentant la complexité des requêtes

4 Personas Agnostic 1a

Summary

  • Normalise les tables de dimensions en structures hiérarchiques (produit → catégorie → département, par exemple), créant plusieurs tables liées par des clés étrangères, contrairement aux dimensions dénormalisées du schéma en étoile.
  • Réduit l'espace de stockage et les anomalies de mise à jour grâce à la normalisation, éliminant la redondance des données. Ceci est particulièrement avantageux pour les grandes tables de dimensions comportant de nombreux niveaux hiérarchiques et attributs nécessitant des mises à jour fréquentes.
  • Accroît la complexité des requêtes, nécessitant davantage de jointures pour reconstituer le contexte dimensionnel complet. Ceci peut impacter les performances des requêtes malgré les économies de stockage, rendant le schéma en étoile moins adapté aux charges de travail analytiques intensives en lecture que le schéma en étoile.

Qu’est-ce qu’un schéma Snowflake ?

Un schéma en flocon de neige est un modèle de données multidimensionnel qui est une extension d’un schéma en étoile. Dans ce type de schéma, les tables de dimension sont décomposées en sous-dimensions. Les schémas en flocon de neige sont couramment utilisés dans la Business Intelligence, le reporting dans les data warehouses OLAP, les data marts et les bases de données relationnelles.

Dans un schéma en flocon de neige, les ingénieurs décomposent les tables de dimension individuelles en sous-dimensions logiques. Le modèle de données est donc plus complexe. Toutefois, il peut être plus facile à utiliser pour les analystes, en particulier pour certains types de données.

On l’appelle schéma en flocon de neige parce que son diagramme entité-association (ERD) ressemble à un flocon de neige, comme on peut le voir ci-dessous.

Différences entre les schémas en flocon de neige et les schémas en étoile

Tout comme les schémas en étoile, les schémas en flocon de neige possèdent une table de faits centrale reliée à plusieurs tables de dimension par des clés étrangères. Il existe toutefois une différence majeure : les schémas en flocon de neige sont plus normalisés que les schémas en étoile.

En raison de leur respect rigoureux des normes et standards, les schémas en flocon de neige offrent une meilleure efficacité de stockage. En revanche, les performances de la requête ne sont pas aussi bonnes qu’avec des modèles de données plus dénormalisés. En effet, les modèles de données dénormalisés tels que les schémas en étoile présentent une plus grande redondance (duplication des données), ce qui accélère les performances des requêtes aux dépens des données dupliquées.

UN LEADER 5X

Gartner® : Databricks, leader des bases de données cloud

Avantages des schémas en flocon de neige

  • Récupération des données rapide
  • Qualité des données assurée
  • Modèle de données simple et commun pour l’entreposage des données

Inconvénients des schémas en flocon de neige

  • Frais de configuration initiale élevés
  • Modèle de données rigide
  • Nécessitent des frais d’entretien importants

Ressources

Ne manquez jamais un article Databricks

Abonnez-vous à notre blog et recevez les derniers articles dans votre boîte mail.