Was ist ein Sternschema?

Dimensionales Data-Warehouse-Design mit einer zentralen Faktentabelle, die über Fremdschlüssel mit Dimensionstabellen verbunden ist, optimiert für analytische Abfragen mit weniger Joins.

von Databricks-Mitarbeiter

Faktentabellen enthalten quantitative Kennzahlen (Umsatz, Mengen, Anzahl) und Fremdschlüssel zu Dimensionen. Die Granularität definiert die Messebene (Transaktion, Tagesaggregat) und unterstützt additive, semi-additive und nicht-additive Kennzahlen.
Dimensionstabellen liefern beschreibenden Kontext (Kundenattribute, Produktdetails, Zeithierarchien), der typischerweise denormalisiert ist. Strategien für langsam veränderliche Dimensionen (SCD) erfassen historische Änderungen über Typ 1 (Überschreiben), Typ 2 (Versionierung) oder Typ 3 (aktuell/vorherig).
Die Abfrageoptimierung profitiert von spaltenorientierter Speicherung, Partitionseliminierung, voraggregierten Zusammenfassungstabellen und der Integration von BI-Tools, die Drilldown, Slice-and-Dice und OLAP-Cube-Operationen für die multidimensionale Analyse unterstützen.

Was ist ein Sternschema?

Ein Sternschema ist ein mehrdimensionales Datenmodell, mit dem Daten in einer Datenbank so organisiert werden, dass sie leicht zu verstehen und zu analysieren sind. Sternschemata können auf Data Warehouses, Datenbanken, Data Marts und weitere Tools angewendet werden. Das Sternschemadesign ist für die Abfrage großer Datenmengen optimiert.

Sternschemata wurden in den 1990er-Jahren von Ralph Kimball vorgestellt und eignen sich zum effizienten Speichern von Daten, zur Verlaufsverwaltung und zur Datenaktualisierung, denn sie reduzieren die Duplizierung sich wiederholender Geschäftsdefinitionen und beschleunigen so Aggregation und Filterung von Daten im Data Warehouse.

Beispiel für ein Unternehmensbeziehungsdiagramm mit einem Sternschema, das eine einzelne Faktentabelle zeigt, die mit mehreren Dimensionstabellen verbunden ist.

Fakten- und Dimensionstabellen

Ein Sternschema wird zum Denormalisieren von Geschäftsdaten in Dimensionen (wie Zeit und Produkt) und Fakten (wie Transaktionen in Beträgen und Mengen) eingesetzt.

In der Mitte des Sternschemas befindet sich eine einzelne Faktentabelle, die geschäftliche „Fakten“ (wie Transaktionsbeträge und -mengen) enthält. Die Faktentabelle ist entlang von „Dimensionen“ wie Zeit oder Produkt mit mehreren weiteren Dimensionstabellen verbunden. Mit Sternschemata können Benutzer nach Belieben Slice-and-Dice-Analysen von Daten durchführen. Zu diesem Zweck werden in der Regel mindestens zwei Fakten- und Dimensionstabellen per Join miteinander verknüpft.

Denormalisierte Daten

Sternschemata denormalisieren Daten, d. h., einige Dimensionstabellen werden mit redundanten Spalten erweitert, um das Abfragen und das Arbeiten mit den Daten schneller und einfacher zu machen. Der Zweck dieser Vorgehensweise besteht darin, auf Kosten einer gewissen Redundanz (also Datenduplizierung) im Datenmodell höhere Abfragegeschwindigkeiten zu erzielen, da rechenintensive Join-Operationen so vermieden werden.

In diesem Modell ist die Faktentabelle normalisiert, die Dimensionstabellen dagegen sind es nicht. Das bedeutet, dass Daten aus der Faktentabelle nur in dieser Faktentabelle vorhanden sind, Dimensionstabellen dagegen redundante Daten enthalten können.

Vorteile von Sternschemata

Modelle mit Fakten und Dimensionen wie beispielsweise Sternschemata sind leicht zu verstehen und zu implementieren und machen das Auffinden benötigter Daten für Endbenutzer zum Kinderspiel. Sie lassen sich gleichermaßen auf Data Marts und andere Datenressourcen anwenden.
Sie sind ideal für einfache Abfragen, da sie beim Datenzugriff im Vergleich zu normalisierten Modellen wie Schneeflockenschemata weniger stark auf Joins angewiesen sind.
Sie passen sich gut in OLAP-Modelle ein.
Sie bieten eine im Vergleich zu normalisierten Daten verbesserte Abfrageleistung, da rechenintensive Joins bei Sternschema möglichst vermieden werden.

Wie unterscheidet sich ein Sternschema von der dritten Normalform?

Die dritte Normalform (3NF) ist eine Methode zur Reduzierung der Datenredundanz durch Normalisierung. Es handelt sich um einen gängigen Standard für Datenbanken, die als vollständig normalisiert gelten. Aufgrund der Datennormalisierung verfügt 3NF normalerweise über mehr Tabellen als ein Sternschema. Dagegen sind Abfragen aufgrund der erhöhten Anzahl von Joins zwischen großen Tabellen tendenziell komplexer.

Ressourcen

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Alle Blogs anzeigen

Was ist ein Sternschema?

Fakten- und Dimensionstabellen

Denormalisierte Daten

Das Playbook für agentenbasierte KI für Unternehmen

Vorteile von Sternschemata

Wie unterscheidet sich ein Sternschema von der dritten Normalform?

Ressourcen

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Sign up