Data-Warehouse-Architektur

Herausforderungen und Kompromisse bei der Auswahl Ihrer Data-Warehouse-Architektur

Was ist Data-Warehouse-Architektur?

Ein Data Warehouse ist ein Datenverwaltungssystem, das aktuelle und historische Daten aus verschiedenen Quellen in einer unternehmensgerechten Form speichert, um Einblicke und Berichte zu ermöglichen.

Ein Data Warehouse unterscheidet sich von einer Datenbank. Während ein Data Warehouse ein strukturiertes Repository darstellt, das Daten für Business Intelligence und Analytik bereitstellt, umfasst eine Datenbank eine Sammlung strukturierter Daten, die über Text und Zahlen hinaus auch Bilder, Videos und weitere Formate einschließen kann.

Die Architektur eines Data Warehouse bezeichnet das Rahmenwerk, das festlegt, wie ein Data Warehouse organisiert, strukturiert und implementiert wird – einschließlich seiner Komponenten und Prozesse.

Laut Bill Inmon, der das bahnbrechende Buch Building the Data Warehouse schrieb, mit dem die Data-Warehouse-Industrie begründet wurde, bezeichnet die Data-Warehouse-Architektur eine „fachorientierte, integrierte, zeitorientierte und nicht-flüchtige Sammlung von Daten zur Unterstützung des Entscheidungsprozesses des Managements“.

Um das zu erklären:

Fachorientiert – Daten sind um spezifische Geschäftsthemen oder -bereiche organisiert, etwa Verkaufs-, Marketing- oder Vertriebsdaten.
Integriert – Das Data Warehouse integriert Daten aus verschiedenen Quellen konsistent zusammen.
Zeitvariant – Daten repräsentieren eine historische Momentaufnahme. Sie erfassen Veränderungen im Laufe der Zeit und ermöglichen damit Trendanalysen sowie Berichte über die Entwicklung von Daten.
Nicht flüchtig – Daten im Warehouse sind schreibgeschützt; sie werden nicht geändert oder überschrieben, sodass historische Daten intakt und zuverlässig für Analysen verfügbar bleiben.

Ähnliche Themen erkunden

Ein Leitfaden zum Data Warehousing

Databricks SQL erweitert die Analytik für alle Benutzer.

Jetzt lesen

Sichern Sie Ihre Strategie mit einem Data Lakehouse ab

Der ultimative Leitfaden – neu überarbeitet und erweitert.

Jetzt lesen

Das Big Book zu Data Warehousing & BI

Ihr kompletter Praxisleitfaden für Data Warehousing mit der Data Intelligence Platform.

Jetzt lesen

Wann könnten Sie eine Data-Warehouse-Architektur verwenden?

Eine effektive Data-Warehouse-Architektur ermöglicht es Organisationen, konsolidierte Geschäftsdaten, die aus Betriebssystemen wie Point-of-Sale-Systemen, Bestandsverwaltungssystemen oder Marketing- und Verkaufsdatenbanken hochgeladen wurden, schnell und einfach zu analysieren. Daten in einem gut gestalteten Data Warehouse sind konsistent, effizient gespeichert und leicht zugänglich. Das verbessert die Qualität und Geschwindigkeit der Entscheidungsfindung.

Data Warehouses kommen in der Regel in Bereichen wie Business Intelligence (BI), Analysen, Reporting, Datenanwendungen, der Aufbereitung von Daten für Machine Learning (ML) und Datenanalysen zum Einsatz. Moderne Data Warehouses haben sich so weiterentwickelt, dass sie auch unstrukturierte Daten wie Bilder und Texte unterstützen. Viele verfügen inzwischen über integrierte KI-Funktionen für fortgeschrittene Analysen und Automatisierung.

Anwendungsfälle beinhalten:

Kundensegmentierung
Finanzberichterstattung
Historische Trendanalyse
Optimierung der Lieferkette
Vertriebs- und Marketing-Performance

Data Warehouses sind in der Lage, große Datenvolumen effizient zu verarbeiten. Sie sind dafür ausgelegt, historische Daten zu speichern und Unternehmen die Analyse langfristiger Trends zu ermöglichen. Sie können auch die Analyse von Informationen erleichtern, die sich direkt aus Transaktionsdatenbanken nur schwer auswerten lassen. Eine Organisation könnte ein Data Warehouse nutzen, um die monatlichen Gesamterlöse jedes Verkäufers pro Produktkategorie auszuwerten – eine Auswertung, die in einer Transaktionsdatenbank möglicherweise nicht erfasst wird.

Arten von Data-Warehouse-Architekturen

Die Architektur eines Data Warehouses kann unterschiedlich komplex sein – je nach Struktur und Einsatzzweck.

Einstufig
In dieser einfachen Form fungiert das Data Warehouse als zentrales Repository für alle Daten und als Plattform für Analyse und Abfragen. Die einstufige Data Warehouse Architektur eignet sich für kleine Organisationen mit einer begrenzten Anzahl von Datenquellen, einfachen Reporting-Anforderungen und geringem Budget.

Zwei Ebenen
Dieses Modell trennt Quellsysteme vom Data Warehouse und schafft so zwei Schichten. Das Data Warehouse dient hier als Plattform sowohl für Speicherung als auch für Abfragen. Eine Zwei-Ebenen-Architektur bietet höhere Skalierbarkeit und bessere Performance als eine Ein-Ebenen-Architektur. Sie erlaubt zudem komplexere Transformationen.

Drei Ebenen
In der dreistufigen Data-Warehouse-Architektur besteht die unterste Ebene aus Datenquellen und Datenspeicherung, ergänzt um Zugriffsmethoden sowie Datenzuführung oder -extraktion. Die mittlere Ebene bildet ein Online-Analytical-Processing-(OLAP)-System. Die oberste Ebene umfasst die Front-End-Clients für Abfragen, BI, Dashboards, Berichte und Analysen. Dies ist die komplexeste Form der Data-Warehouse-Architektur. Sie bietet hohe Leistung und Skalierbarkeit, integriert sich mit Analysetools und unterstützt komplexe Abfragen sowie Analysen.

Datenspeicherschichten

Die Architektur eines Data Warehouses basiert auf einer Schichtenstruktur, die den effizienten Fluss, die Transformation und die Nutzung von Daten für Analysen und Entscheidungsfindung erleichtert. Jede Schicht trägt dazu bei, dass die Daten die jeweiligen Geschäftsanforderungen erfüllen.

Quellschicht
Die Die Quellschicht bildet das Fundament der Data-Warehouse-Architektur und ist der Einstiegspunkt für Daten. Sie enthält Rohdaten aus unterschiedlichen Datenquellen, etwa Point-of-Sale-Systemen, Marketingautomatisierung, CRM- oder ERP-Systemen, Drittanbieterquellen und mehr.

Staging-Schicht
Die Staging-Schicht speichert Daten vorübergehend, während sie konsolidiert, bereinigt und transformiert werden, um sie für das effiziente Laden in das Data Warehouse vorzubereiten. Die Staging-Schicht fungiert als Puffer zwischen der Quellschicht und der Warehouse-Ebene und stellt sicher, dass Fehler in den Quelldaten vor der weiteren Verarbeitung behoben werden.

Warehouse-Ebene
Die Warehouse-Ebene ist der Ort, an dem alle verarbeiteten, gereinigten und strukturierten Daten für die langfristige Nutzung gespeichert werden. Daten in dieser Ebene sind oft in Schemata organisiert, die für Abfragen und Analysen optimiert sind. Diese Ebene setzt zudem Governance-Richtlinien um, etwa Datenherkunft (Data Lineage) und Zugriffskontrollen, um Datenintegrität und Sicherheit zu gewährleisten.

Konsumschicht
Die Konsumschicht stellt sicher, dass Daten für Geschäftsanwender zugänglich und relevant sind. Diese Schicht umfasst BI-Tools, Dashboards, Plattformen zur Datenvisualisierungen und APIs, die benutzerfreundliche Schnittstellen bereitstellen. Daten in dieser Schicht werden oft aggregiert oder vorverarbeitet und in Zusammenfassungstabellen oder Cubes organisiert, um die Abfrageleistung zu beschleunigen.

Komponenten des Data Warehouse

Die Architektur eines Data Warehouses besteht aus Schlüsselkomponenten, die gemeinsam dafür sorgen, dass Datenmanagement und Analysen nahtlos funktionieren. Zu den Kernkomponenten zählen die Data-Lakehouse-Architektur, Datenintegrationswerkzeuge, Metadaten sowie Tools für den Datenzugriff. Je nach Bedarf können Unternehmen zusätzliche Komponenten ergänzen.

Data Lakehouse Architektur
Das Data Lakehouse dient als einheitliche Plattform für die Speicherung und Verarbeitung aller Arten von Daten. Es kombiniert die Flexibilität von Data Lakes mit den Verwaltungsfunktionen traditioneller Data Warehouses. Es verarbeitet sowohl strukturierte als auch unstrukturierte Daten und unterstützt Workloads von SQL-Analysen bis hin zu Machine Learning, während gleichzeitig Datenqualität und Performance gewährleistet werden.

Datenintegrationswerkzeuge
Datenintegrationswerkzeuge unterstützen zwei Hauptansätze für die Datenverwaltung: direkte Integration und Datenvirtualisierung. Tools für direkte Integration ziehen Daten in die zentrale Datenbank und transformieren sie in ein einheitliches Format für Analysen. Dabei kommen Methoden wie ETL (Extrahieren, Transformieren, Laden), ELT (Extrahieren, Laden, Transformieren) sowie Echtzeit- und Bulk-Load-Verarbeitung zum Einsatz. Datenvirtualisierung ermöglicht das Abfragen von Daten dort, wo sie sich befinden. Durch Föderation entsteht eine einheitliche Sicht auf verteilte Datenquellen, ohne dass Daten physisch verschoben werden müssen. Diese Ansätze können gemeinsam eingesetzt werden, unterstützt durch Automatisierung, Orchestrierung, Datenqualität und Anreicherung. Immer mehr Kunden nehmen das Reporting direkt im Data Warehouse vor, um redundante Datenbewegungen zu vermeiden.

Metadaten
Metadaten sind Daten über Daten, die für die Data Governance und Datenverwaltung unerlässlich sind. Sie liefern Kontext und Details zu den Daten, etwa Herkunft, Transformation, Struktur, Beziehungen und Nutzung. Technische Metadaten beschreiben Schemas, Datentypen und Herkunft (Lineage), während Geschäftsmetadaten Daten für nichttechnische Anwender verständlich machen.

Data-Access-Tools
Data-Access-Tools ermöglichen es Anwendern, Daten im Data Warehouse abzufragen, zu analysieren und zu visualisieren. Damit überbrücken sie die Lücke zwischen Rohdaten und Entscheidungsträgern. Zu diesen Tools gehören Berichtssoftware, BI-Plattformen, OLAP-Tools, Data-Mining-Tools, Anwendungsentwicklungstools und APIs. Sie machen Daten sowohl für technische als auch für nichttechnische Anwender zugänglich.

Integrierte KI- und ML-Funktionen
Moderne Data Warehouses verfügen oft über integrierte KI- und ML-Funktionen, die automatische Datenverarbeitung, Mustererkennung, Anomaliedetektion und prädiktive Analytik direkt in der Warehouse-Umgebung ermöglichen. Dadurch entfällt die Notwendigkeit separater KI-/ML-Systeme.

Interaktive Dashboards
Visuelle Analyse-Dashboards bieten Einblicke in Echtzeit und stellen Daten in Form von interaktiven Diagramme, Grafiken und Reports dar. Self-Service-Schnittstellen ermöglichen es sowohl technischen als auch nichttechnischen Anwendern, Daten zu erkunden, Visualisierungen zu erstellen und Einblicke zu gewinnen – ganz ohne komplexe Abfragen schreiben zu müssen.

Governance-Framework
Ein umfassendes Governance-Framework verwaltet Datenzugriffskontrollen, Sicherheitsrichtlinien, Compliance-Anforderungen und Standards für Datenqualität. Dazu gehören Werkzeuge für die Nachverfolgung der Datenherkunft (Data Lineage), Audit-Logging, Datenschutz und das Management regulatorischer Compliance-Anforderungen in der gesamten Data-Warehouse-Umgebung.

Data-Warehouse-Konzepte: Inmon vs. Kimball

Bill Inmon und Ralph Kimball, frühe Pioniere des Data Warehousing, vertreten unterschiedliche Ansätze für das Design von Data Warehouses. Inmons Ansatz beginnt mit dem Data Warehouse als zentralem Repository für Unternehmensdaten und ist als Top-Down-Ansatz bekannt.

Kimballs Modell, bekannt als Bottom-Up-Ansatz, konzentriert sich zunächst auf die Erstellung von Data Marts – spezialisierten Datenbanken, die auf einzelne Geschäftsbereiche oder Abteilungen zugeschnitten sind – und integriert diese anschließend in ein übergeordnetes Data Warehouse.

Inmon-Ansatz
Inmons Top-Down-Modell sieht ein zentralisiertes, unternehmensweites Data Warehouse vor, das als einzige „Source of Truth“ für das gesamte Unternehmen dient. Daten werden dabei aus den Quellsystemen abgerufen, bereinigt und in einem normalisierten Format im zentralen Data Warehouse gespeichert. Die Normalisierung stellt Datenkonsistenz sicher, reduziert Redundanzen und erleichtert die Integration über unterschiedliche Datensätze hinweg. Darauf aufbauend werden Data Marts geschaffen, die sich auf bestimmte Geschäftsbereiche konzentrieren und als Teilmengen des zentralen Data Warehouses fungieren. Diese werden aus dem zentralen Repository abgeleitet, um die Konsistenz mit der gesamten Datenarchitektur des Unternehmens zu sicherzustellen.

Kimball-Ansatz
Kimballs Bottom-Up-Methode konzentriert sich auf den Aufbau von Data Marts, die gezielt bestimmte Geschäftsfragen und Reporting-Anforderungen adressieren.Die einzelnen Data Marts werden anschließend kombiniert, um das Data Warehouse zu erstellen, das die Analyse und Berichterstattung erleichtert. Kimballs Ansatz verwendet ein dimensionales Modell mit „Fakt“-Tabellen, die numerische Kennzahlen enthalten, sowie „Dimensions“-Tabellen mit beschreibenden Attributen. Diese sind häufig in einem Sternschema strukturiert, was Abfragen und Analysen deutlich vereinfacht. Die Daten werden dabei denormalisiert, was die erste Phase des Data-Warehouse-Designs beschleunigt. Da das Data Warehouse sich auf einzelne Geschäftsbereiche konzentriert und nicht auf das gesamte Unternehmen, benötigt es weniger Speicherplatz in der Datenbank und erleichtert so das Systemmanagement.

Die richtige Herangehensweise wählen
Organisationen müssen den Ansatz zur Data-Warehouse-Architektur wählen. Dazu kann auch die Kombination von Inmon- und Kimball-Ansätzen gehören – ein sogenanntes Hybridmodell, das bei Bedarf eingesetzt wird.

Im Allgemeinen bietet der Inmon-Ansatz eine umfassende, skalierbare Lösung für die Verwaltung großer, unternehmensweiter Datensätze. Er stellt konsistente und zuverlässige Analysen im gesamten Unternehmen sicher, die anspruchsvolle Erkenntnisse ermöglichen und gleichzeitig Datenqualität sowie Governance betonen. Benutzer benötigen jedoch fortgeschrittene und spezialisierte Tools für Abfragen und Analysen. Dieser Ansatz erfordert erhebliche Investitionen in Zeit, Ressourcen und technisches Know-how, um ein Data Warehouse aufzubauen.

Im Gegensatz dazu bietet der Kimball-Ansatz eine flexible und schnelle Bereitstellung der Daten. Er ermöglicht es Endanwendern, Daten direkt aus Data Marts mit vertrauten Tools und Self-Service-Modellen abzufragen und zu analysieren. Dadurch wird die Entdeckung und Auswertung auch für Nutzer ohne spezielle Kenntnisse oder fortgeschrittene Werkzeuge deutlich vereinfacht. Wenn Organisationen benutzerfreundliche, schnelle Berichterstattung und Analysen benötigen oder wenn Budget und Ressourcen begrenzt sind, könnte die Kimball-Methode am besten funktionieren.

Strukturierung des Data Warehouse

Organisationen verwenden Schemas, um verschiedene logische Anordnungen von Daten innerhalb eines Data Warehouse zu beschreiben. Diese werden durch Objekte wie Indizes und Tabellen repräsentiert. Diese Schemas dienen als Blaupause für die Speicherung und Verwaltung von Daten. Sie definieren Begriffe, Beziehungen und deren Anordnung. Unternehmen nutzen in der Regel drei Arten von Schemas, um ein Data Warehouse zu strukturieren.

Sternschema
Ein Sternschema ist ein multidimensionales Datenmodell, das zur Organisation von Daten in einer Datenbank verwendet wird. Es macht Daten leicht verständlich und einfach analysierbar. Das Sternschema ist das einfachste Schema zur Strukturierung eines Data Warehouses und ist für das Abfragen großer Datensätze optimiert. Es besteht aus einer zentralen Faktentabelle, die mit mehreren Dimensionstabellen verbunden ist. Mit Sternschemata können Benutzer nach Belieben Slice-and-Dice-Analysen von Daten durchführen. Zu diesem Zweck werden in der Regel mindestens zwei Fakten- und Dimensionstabellen per Join miteinander verknüpft.

Ein Sternschema wird zum Denormalisieren von Geschäftsdaten in Dimensionen (wie Zeit und Produkt) und Fakten (wie Transaktionen in Beträgen und Mengen) eingesetzt. Denormalisierte Datenmodelle weisen eine höhere mehr Datenredundanz (Datenverdoppelung) auf, wodurch die Abfrageleistung auf Kosten der Datencuplizierung beschleunigt wird.

Schneeflockenschema
Ein Schneeflockenschema ist eine Erweiterung eines Sternschemas, bei dem Dimensionstabellen in Unterdimensionen aufgeteilt werden. Dadurch wird das Datenmodell zwar komplexer, kann die Arbeit von Analysten aber insbesondere für bestimmte Datentypen erleichtern.

Der Hauptunterschied zwischen Stern- und Schneeflockenschema besteht darin, dass Schneeflockenschemas die Daten normalisieren. Schneeflockenschemata bieten aufgrund ihrer strikten Einhaltung hoher Normalisierungsstandards mehr Speichereffizienz, doch ist die Abfrageleistung nicht so gut wie bei stärker denormalisierten Datenmodellen. Schneeflockenschemata werden häufig für Business Intelligence und Reporting in OLAP Data Warehouses, Data Marts und relationalen Datenbanken verwendet.

Galaxie-Schema
Ein Galaxie-Schema verwendet mehrere Faktentabellen, die mit gemeinsamen normalisierten Dimensionstabellen verbunden sind. Im Gegensatz zu Stern- und Schneeflockenschemas, die jeweils nur eine Faktentabelle nutzen, erlaubt es komplexere Strukturen. Das Galaxie-Schema ist stark verknüpft und normalisiert, wodurch Redundanz und Inkonsistenz von Daten nahezu eliminiert werden. Galaxie-Schemata sind bekannt für hohe Datenpräzision und Datenqualität und bieten eine Grundlage für effektive Analysen und Berichte. Damit eignet es sich besonders für komplexe Datenbanksysteme.

Herausforderungen für die Architektur eines Data Warehouses

Das Entwerfen und Pflegen von Data-Warehouse-Architekturen bringt mehrere Herausforderungen mit sich, die sich direkt auf Effizienz und Wirksamkeit auswirken können.

Unstrukturierte Daten
Unstrukturierte Daten wie Bilder, Videos, Textdateien und Protokolle sind entscheidend für Verbesserungen, Innovation und Kreativität. Sie eröffnen die Möglichkeit, neue Muster zu erkennen und Erkenntnisse aus vielfältigen Datenquellen zu gewinnen. Klassische Data-Warehouse-Architekturen sind jedoch auf strukturierte Daten ausgerichtet. Unternehmen benötigen daher zunehmend fortschrittliche Tools, um auch aus unstrukturierten Daten echten Mehrwert zu ziehen. Das Volumen unstrukturierter Daten kann erhebliche Herausforderungen für Speicherung und effiziente Verwaltung mit sich bringen.

Skalierbarkeit
Mit dem Wachstum von Organisationen stellt die exponentielle Expansion der Datenmengen zu einer zentralen Herausforderung für die Skalierbarkeit von Data-Warehouse-Architekturen. Traditionelle On-Premises-Systeme stoßen oft an ihre Grenzen, wenn es um die Verarbeitung großer Datensätze, hohe Abfragelasten oder Echtzeitanforderungen geht. Cloud-basierte Data Warehouses bieten elastische Skalierbarkeit, erfordern jedoch eine sorgfältige Planung, um Ressourcen und Kosten zu optimieren.

Kosten
Der Aufbau und die Wartung eines Data Warehouses erfordern erhebliche Investitionen in Infrastruktur und qualifiziertes Personal. On-Premises-Systeme sind teuer in der Einrichtung, während cloudbasierte Lösungen teuer im Betrieb sein können. Die Kosten steigen mit wachsenden Datenvolumen, erhöhten Benutzeranforderungen und der Integration von fortgeschrittenen Analyse- oder KI-Funktionen.

Leistung und Effizienz
Leistung und Effizienz eines Data Warehouses sind entscheidend für Geschäftsabläufe, insbesondere bei der Verarbeitung großer Datensätze und komplexer Abfragen. Langsame Abfragezeiten und ineffiziente Datenverarbeitungspipelines können die Produktivität der Anwender beeinträchtigen und die Entscheidungsfindung verlangsamen. Die Optimierung der Leistung erfordert häufig eine höhere Systemkomplexität sowie einen aufwendigeren Betrieb und ein strengeres Management.

Nichttechnische Nutzung
Nichttechnische Anwender müssen in der Lage sein, auf Daten zuzugreifen und diese zu analysieren. Traditionelle Data-Warehouse-Architekturen erfordern hierfür jedoch oft Fachwissen in SQL oder anderen technischen Tools. Dies führt zu einem langsamen, ineffizienten System, in dem Benutzer Anfragen an Datenteams stellen müssen und auf die Bereitstellung der Daten warten müssen. Das Ergebnis sind Engpässe und Verzögerungen, die sich in größeren Organisationen verstärkt auswirken.

Separate Systeme für KI und ML
Traditionelle Data Warehouses sind für gängige Workloads wie historische Berichterstattung, BI und Abfragen konzipiert. Sie wurden jedoch nie dafür konzipiert oder vorgesehen, Machine Learning Workloads zu unterstützen. Die Verwendung zusätzlicher Datenpipelines zum Übertragen von Daten zwischen dem Warehouse und spezialisierten KI/ML-Umgebungen erhöht die Komplexität und Latenz. Die Integration von KI- und ML-Funktionen direkt in das Data Warehouse oder die Nutzung von Hybridplattformen kann helfen, diese Herausforderungen zu bewältigen.

Separate Systeme für BI
Traditionelle Architekturen erfordern häufig separate spezialisierte Systeme für Business Intelligence und Analytik. Das führt zu Datensilos und macht komplexe Datenbewegungen zwischen den Systemen notwendig. Diese Trennung kann Dateninkonsistenzen, höheren Wartungsaufwand und verzögerte Erkenntnisse nach sich ziehen. Moderne integrierte Plattformen, die Datenspeicherung und BI-Funktionen in einer gemeinsamen Umgebung bündeln, unterstützen Unternehmen dabei, Analyse-Workflows zu vereinfachen und gleichzeitig die Datenkonsistenz sicherzustellen.

Getrennte Systeme für die Data Governance
Das Vorhandensein voneinander isolierter Systeme für die Datenverwaltung erschwert die Einhaltung konsistenter Richtlinien, Zugriffskontrollen und Compliance-Standards im gesamten Datenökosystem. Unternehmen kämpfen häufig mit fragmentierten Governance-Tools, die nicht effektiv miteinander kommunizieren. Das führt zu Sicherheitslücken und erhöhten Compliance-Risiken. Ein einheitlicher Governance-Rahmen, der direkt in die Datenplattform integriert ist, unterstützt die konsistente Durchsetzung von Richtlinien und vereinfacht das Management von Compliance-Anforderungen.