Was ist ein Datenbankschema?

Der logische Bauplan, der definiert, wie Daten in einer Datenbank organisiert, strukturiert und miteinander verknüpft sind, einschließlich Tabellen, Spalten, Datentypen und Entitätsbeziehungen.

von Databricks-Mitarbeiter

Verstehen Sie, was ein Datenbankschema ist und wie es die logische Datenstruktur definiert, einschließlich Tabellen, Spalten, Datentypen und Beziehungen zwischen Entitäten.
Lernen Sie verschiedene Schematypen wie Sternschemata, Schneeflockenschemata und normalisierte Designs kennen und erfahren Sie, wann welches Schema für optimale Leistung eingesetzt wird.
Erkunden Sie Best Practices für das Schema-Design in Data Warehouses und Data Lakehouses, einschließlich Constraints, Indexierungsstrategien und sich entwickelnden Schemas für Analyse-Workloads.

Einführung: Datenbankschemata im modernen Datenverwaltung

Ein Datenbankschema fungiert als Blaupause dafür, wie eine Datenbank organisiert und strukturiert ist. Es definiert, wie Datenbanktabellen angelegt sind, welche Felder sie enthalten und wie diese Tabellen miteinander in Beziehung stehen, was den Zugriff auf die Daten auf konsistente und vorhersagbare Weise ermöglicht. Mit zunehmender Komplexität von Datensystemen werden Datenbankschemata immer wichtiger. Ein gut entworfenes Datenbankschema erleichtert es Teams, Daten zu pflegen und über operative, analytische und verteilte Datenbanken hinweg zuverlässig darauf zuzugreifen.

Im Allgemeinen werden beim Entwurf einer Datenbank drei verschiedene Schematypen verwendet: das konzeptionelle Datenbankschema, das logische Datenbankschema und das physische Datenbankschema.

Auf modernen Plattformen unterstützen Datenbankschemas auch eine zentralisierte Governance und Zugriffskontrolle bei Scale, wie Tools wie Unity Catalog zeigen. Für Teams, die mit Mustern der Datenarchitektur arbeiten, ist es unerlässlich zu verstehen, wie das Design von Datenbankschemas mit dem übergeordneten Systemdesign übereinstimmt.

Was ist ein Datenbankschema?

Ein Datenbankschema ist der strukturelle Rahmen, der definiert, wie Daten innerhalb einer Datenbank organisiert, gespeichert und abgerufen werden. Der Begriff Datenbankschema beschreibt das Layout von Datenbanktabellen, die Beziehungen zwischen Datenentitäten und die Datenbankobjekte, die Datenvorgänge unterstützen.

Wichtige Punkte

Datenbankschemas definieren:

Wie Datenentitäten zueinander in Beziehung stehen
Wie Datenbanktabellen und Schemaobjekte strukturiert sind
Wie Regeln und Einschränkungen durchgesetzt werden

Während das Datenbankschema die Struktur definiert, bezieht sich eine Datenbankinstanz auf die tatsächlichen Daten, die zu einem bestimmten Zeitpunkt gespeichert sind. Datenbankschemata werden in Datenbankmanagementsystem-Plattformen wie Oracle Database und SQL-Datenbanksystemen implementiert und verwaltet.

Datenbankschemas sind auch Teil einer umfassenderen Datenarchitektur und helfen dabei, Speicherung, Verarbeitung und Governance systemübergreifend aufeinander abzustimmen.

Datenbankschema vs. Datenbanktabelle: Wichtige Unterschiede

Eine Datenbanktabelle ist eine einzelne Speicherstruktur, in der Daten in Tabellenform mit Zeilen und Spalten gespeichert werden. Sie repräsentiert eine bestimmte Entität – beispielsweise Kunden, Bestellungen oder Produkte – und speichert die vorhandenen Daten.

Ein Datenbankschema ist die Struktur der gesamten Datenbank. Das Datenbankschema definiert die Organisation der Datenbanktabellen, wie sie miteinander in Beziehung stehen und wie andere Datenbankobjekte verwendet und aufgerufen werden.

Eine Analogie

Das Datenbankschema ist der Bauplan. Datenbanktabellen sind die einzelnen Räume.

In den meisten Fällen enthält eine Datenbank mehrere Tabellen unter einem einzigen logischen Schema. Tabellen werden zusammen mit anderen Schemaobjekten wie Indizes und Ansichten verwendet.

Weitere Informationen darüber, wie Datenbankschemata und Tabellen in den größeren Datenplan integriert sind, finden Sie in unserem Datenarchitektur-Glossar. Das Verständnis der Beziehung zwischen dem Design von Datenbankschemata und den Praktiken der Datenmodellierung ist für Datenbankdesigner von entscheidender Bedeutung.

Die drei Arten von Datenbankschemata

Datenbankschemata werden in der Regel in drei Typen unterteilt: konzeptionelles Datenbankschema, logisches Datenbankschema und physisches Datenbankschema. Diese Trennung hilft, Absicht, Struktur und Implementierung zu unterscheiden, wodurch Datenbanken einfacher zu entwerfen, zu warten und weiterzuentwickeln sind. Jeder Datenbankschematyp dient einem bestimmten Zweck und einer bestimmten Interessengruppe, arbeitet aber als Teil eines einheitlichen Schemadesignprozesses mit den anderen zusammen.

In der Praxis unterstützt diese Trennung moderne Data-Engineering-Workflows, indem sie es Teams ermöglicht, die Struktur weiterzuentwickeln, ohne nachgelagerte Systeme zu stören.

Konzeptionelles Datenbankschema

Das konzeptionelle Schema bietet eine übergeordnete Ansicht der Daten. Es konzentriert sich auf Geschäftseinheiten und deren Beziehungen ohne technische Details.

Wichtige Punkte:

Es legt fest, welche Daten verfügbar sind.
Es beschreibt die Beziehungen zwischen den Daten
Es werden Visualisierungen von Entitätsbeziehungsdiagrammen verwendet
Es ist auf die Interessen von Wirtschaft und Technologie ausgerichtet.

Logisches Datenbankschema

Das logische Datenbankschema ist die detaillierte Datenstruktur, die das konzeptionelle Schema darstellt.

Es umfasst:

Datenbanktabellen und Beziehungen
Datentypen
Primär- und Fremdschlüssel
Integritätsbedingungen

Die logische Datenbankstruktur bleibt datenbankunabhängig und kann schichtweisen Datenmodellierungsansätzen wie der Medallion-Architektur folgen.

Physisches Datenbankschema

Das physische Datenbankschema stellt dar, wie Daten in einem Datenbanksystem gespeichert und abgerufen werden.

Das physische Datenbankschema beschreibt:

Datenspeicherstrukturen
Dateistrukturen
Performanceverbesserung
Plattformspezifische Konfiguration

Diese Ebene wird in der Regel von einem Datenbankadministrator verwaltet. Das physische Schema enthält Details darüber, wie die logische Struktur auf einer bestimmten Dateninfrastruktur implementiert wird.

Kernkomponenten von Datenbankschemata

Ein Datenbankschema besteht aus mehreren Hauptteilen, die zusammenwirken, um Daten zu speichern, abzurufen und zu schützen. Die Hauptkomponenten eines Datenbankschemas lassen sich wie folgt verstehen:

Tabellen und andere Datenbankobjekte

Der Hauptspeicherort für Daten in einem Datenbankschema sind die Datenbanktabellen. Jede Spalte in einem Datenbankschema hat ihre eigene Tabellenstruktur und eigene Datentypen, was die Konsistenz bei der Datenspeicherung sicherstellt.

Neben Datenbanktabellen umfassen andere Datenbankobjekte:

Ansichten: Dies sind vereinfachte visuelle Darstellungen, die aus einer oder mehreren Tabellen stammen können.
Indizes: Diese verbessern die Abfrage-Performance
Gespeicherte Prozeduren und Trigger: Diese gewährleisten die Datenintegrität.

Die Möglichkeit, auf diese Schemaobjekte zuzugreifen, wird durch Berechtigungen gesteuert, die sicherstellen, dass nur autorisierte Datenbanknutzer auf sensible Daten in einem Datenbankschema zugreifen können.

Für Teams, die mit Data Governance arbeiten, ist es entscheidend zu verstehen, wie die Berechtigungen für Datenbankschemas mit umfassenderen Governance-Richtlinien übereinstimmen.

Primärschlüssel und Fremdschlüssel

Diese Schlüssel gewährleisten die Datenintegrität in einem Datenbankschema.

Der Primär Key in einer Tabelle identifiziert jeden Datensatz eindeutig. Jede Zeile in einer Tabelle kann über einen Primärschlüssel eindeutig identifiziert werden. Das Vorhandensein eines Primärschlüssels stellt sicher, dass keine doppelten Daten in einer Tabelle gespeichert werden. Ein gesamter Primärschlüssel kann aus zusammenwirkenden Primär- und Fremdschlüsseln bestehen.

Fremdschlüssel verbinden zwei oder mehr Tabellen in einem Datenbankschema. Die FremdKeys stellen eine Verbindung zu einem PrimärKey in einer anderen Tabelle her, wodurch zugehörige Datenbeziehungen hergestellt werden.

Diese Beziehungen sind in relationalen Datenbanken und modernen SQL-Datenbanksystemen von grundlegender Bedeutung, bei denen die Zuverlässigkeit von Transaktionen von starken ACID-Transaktionsgarantien abhängt. Die ordnungsgemäße Verwendung von Primär- und Fremdschlüsseln gewährleistet die Datenkonsistenz in der gesamten Datenbank.

Datentypen und Einschränkungen

Datentypen definieren, welche Arten von Werten in Spalten zulässig sind. Gängige Typen sind:

INTEGER
VARCHAR
DATUM
boolesche Werte
DEZIMAL

Die Data Definition Language (DDL) wird verwendet, um Datenbankschemata und -tabellen mithilfe von create database-Anweisungen zu definieren oder zu ändern.

Regeln werden verwendet, um Sicherheits-Features hinzuzufügen, wie z. B.:

NOT NULL, wodurch sichergestellt wird, dass keine Nullwerte eingefügt werden
UNIQUE, was sicherstellt, dass keine doppelten Werte eingefügt werden
CHECK, wodurch sichergestellt wird, dass die Werte innerhalb eines bestimmten Datenbereichs liegen
DEFAULT, das einen zu verwendenden default Wert angibt

Wenn diese Regeln auf Schemaebene definiert sind, wird sichergestellt, dass Datenbanken genaue Daten führen und die Datenkonsistenz gewahrt wird.

Indizes und Ansichten

Indizes und Ansichten werden verwendet, um die Performance, Benutzerfreundlichkeit und Kontrolle innerhalb eines Datenbankschemas zu verbessern.

Indizes werden verwendet, um die Abfrage-Performance zu verbessern, indem sie den Datenabruf aus häufig durchsuchten Spalten beschleunigen. Allerdings ist bekannt, dass Indizes die Schreib-Performance beeinträchtigen, da sie bei jedem Einfügen, Aktualisieren oder Löschen von Daten aktualisiert werden müssen.

Views sind virtuelle Tabellen, die zur Darstellung realer Tabellen verwendet werden, in der Regel um das Verfassen von Abfragen zu vereinfachen oder den Zugriff auf bestimmte Daten zu beschränken.

Ein gut entworfenes Datenbankschema schafft ein Gleichgewicht zwischen Performance und Komplexität, sorgt für eine gute Performance und vermeidet unnötige Komplexität.

Gängige Datenbankschema-Designs

Die Ansätze können für verschiedene Arten von datenbezogenen Aktivitäten geeignet sein. Die Wahl des Schemadesignansatzes hängt davon ab, wie die Daten verwendet werden.

Sternschema für Data-Warehousing

Das Sternschema ist eine einfache Datenmodellierungstechnik, die im Data Warehousing verwendet wird. Es verfügt über:

Eine zentrale Faktentabelle, die mit mehreren Dimensionstabellen verbunden ist und sich somit für die Datenanalyse eignet.
Dimensionstabellen, die die Faktentabelle umgeben und beschreibende Daten wie Kunden, Produkte und Zeit enthalten

Gründe für die Verwendung der Sternschema-Datenmodellierung:

Einfach Abfragen und zu verstehen
Geeignet für Online Analytical Processing (OLAP)
Weit verbreitet in Business-Intelligence-Systemen

Das Sternschema-Muster ist in Data-Warehouse -Architekturen von grundlegender Bedeutung.

Schneeflockenschema

In einem Schneeflockenschema werden die Daten normalisiert, um den Speicherbedarf zu reduzieren, indem die Dimensionstabellen in mehrere Dimensionstabellen aufgeteilt werden.

Zu den Vorteilen der Verwendung eines Schneeflockenschemas gegenüber einem Sternschema gehören:

Verbesserte Speichereffizienz durch Normalisierung
Reduzierte redundante Daten
Erhöhte Abfragekomplexität durch zusätzliche Joins

Schneeflockenschema-Designs können auch verwendet werden, wenn Daten in Dimensionen über mehrere Kontexte hinweg gemeinsam genutzt werden oder wenn sie stärker normalisiert werden müssen. Sowohl Sternschema- als auch Schneeflockenschema-Muster beinhalten eine zentrale Faktentabelle, die von Dimensionstabellen umgeben ist.

Hierarchisches Schema

Bei einem hierarchischen Schema werden Daten in einer baumartigen Struktur mit Eltern-Kind-Beziehungen organisiert, wobei jedes Kind unter Verwendung eines hierarchischen Modells einen Elternteil hat.

Diese Art von Schema wird am besten für Daten mit einer inhärenten Hierarchie verwendet, wie z. B. eine Organisationsstruktur oder ein XML-Dokument. Das hierarchische Schema ist weniger flexibel als das relationale Schema und kann keine Many-to-Many-Beziehungen verarbeiten. Dieses Schema wird immer noch in einigen Anwendungen verwendet, obwohl das hierarchische Modell größtenteils durch relationale Datenbanken ersetzt wurde.

NoSQL-Schemadesign

Auch bei NoSQL-Datenbanken gibt es Überlegungen zum Schemadesign. Im Gegensatz zu relationalen Datenbanken benötigen sie möglicherweise kein Schema, bevor sie eine Verbindung zur Datenbank herstellen und Daten speichern können.

Die häufigsten Schema-Entwurfsmuster für NoSQL-Datenbanken sind:

Dokumentenspeicher
Key-Value-Stores
Graphdatenbanken

Diese Systeme priorisieren Flexibilität und Skalierbarkeit, bieten aber oft weniger integrierte Konsistenzgarantien. Moderne Anwendungen, einschließlich vektorbasierter Suche und Ähnlichkeits-Queries, erweitern diese Kompromisse in Vektordatenbanken weiter. Für Datenbankdesigner ist es wichtig zu verstehen, wann NoSQL-Datenbanken im Vergleich zu herkömmlichen Designs für relationale Datenbankschemata eingesetzt werden sollten.

Schrittweiser Prozess zum Entwurf von Datenbankschemata

Der Entwurf von Datenbankschemata ist ein zyklischer Prozess, der vom Verständnis der Geschäftsanforderungen bis zur Implementierung einer funktionierenden Datenbank reicht.

Anforderungserhebung und -analyse

Der Prozess beginnt mit dem Verständnis der Anforderungen des Unternehmens. In diesem Schritt identifiziert das Team:

Identifiziert die Daten, die für das Geschäft gespeichert werden müssen
Identifiziert die Key Datenpunkte, die Details der Daten und die Beziehungen zwischen den Daten.
Sammelt Anforderungen von Stakeholdern und prüft vorhandene Dokumente.
Identifiziert die Funktionalität der Daten, z. B. wie auf die Daten zugegriffen werden soll

Es ist wichtig, dabei Skalierbarkeit, die Sicherheit sensibler Daten und alle Regeln und Gesetze zu berücksichtigen, da es schwierig ist, solche Überlegungen in Zukunft umzusetzen.

Konzeptioneller Entwurf mit Entity-Relationship-Diagrammen

Nachdem die Geschäftsanforderungen ermittelt wurden, erstellt das Team Entitäts-Beziehungs-Diagramme, bei denen es sich um ein übergeordnetes Modell der Daten in der Datenbank handelt. Beim konzeptionellen Datenbankdesign:

die wichtigsten Entitäten in der Datenbank, wie Kunden, Bestellungen und Produkte
Identifiziert die Beziehungen zwischen den Entitäten, wie z. B. Eins-zu-viele- und Viele-zu-viele-Beziehungen
Identifiziert die Attribute der Entitäten in der Datenbank

Ein Entity-Relationship-Diagramm bietet eine visuelle Darstellung, die für Geschäfts- und Fachleute nützlich ist, um eine Einigung zu erzielen. Der konzeptionelle Entwurf sollte überprüft werden, um sicherzustellen, dass er den tatsächlichen Anforderungen entspricht, bevor zum nächsten Schritt übergegangen wird.

Entwicklung logischer Schemata

Das logische Schema wandelt das konzeptionelle Modell in ein detailliertes Datenbankschema um, das für die Implementierung bereit ist.

In diesem Schritt:

Jedem Attribut werden Datentypen zugewiesen.
Für jeden Datensatz werden Primär-Key-Werte festgelegt
Fremdschlüssel werden für Beziehungen zwischen Tabellen eingerichtet.
Die Datenbanknormalisierung wird verwendet, um redundante Daten zu eliminieren.

In dieser Phase ist das logische Datenbankschema präzise genug für die Implementierung, aber noch unabhängig von einem bestimmten Datenbanksystem. Das logische Schema dient als Brücke zwischen dem konzeptionellen Schema und dem physischen Schema.

Implementierung des physischen Schemas

Das physische Schema stellt die Datenbankimplementierung in einem bestimmten Datenbanktechnologiesystem dar.

Dieser Schritt umfasst in der Regel:

Auswahl eines Datenbanksystems, auf dem die Datenbank implementiert werden soll
Erstellen von Tabellen und Beziehungen mithilfe der Data Definition Language
Optimierung der Datenspeicherung mithilfe von Indizes, Partitionen usw.
Einrichten von Verbindungseinstellungen mithilfe von Datenbankverbindungsprotokollen, Benutzerberechtigungen von einem Datenbankadministrator usw.

Falls die Datenbankschemata von einem anderen System oder in ein bestehendes System übertragen werden, ist die Datenmigration ein wichtiger Schritt. Das physische Datenbankschema muss die spezifischen Anforderungen der Zieldatenbank-Managementplattform berücksichtigen.

Datenbanknormalisierung und Datenintegrität

Normalisierung und Datenintegrität gehen Hand in Hand und tragen dazu bei, sicherzustellen, dass die Daten korrekt, konsistent und einfach zu pflegen sind.

Datenbanknormalisierung verstehen

Datenbanknormalisierung ist der Prozess der Datenorganisation, um Redundanz zu reduzieren und die Datenintegrität zu verbessern. Die Normalisierung wird üblicherweise anhand progressiver Normalformen beschrieben, einschließlich 1NF, 2NF und 3NF.

Die Datenbanknormalisierung unterteilt eine große Tabelle in kleinere, zusammengehörige Datentabellen. Das hilft:

Redundante Daten reduzieren
Verbesserung der Datenkonsistenz
Vereinfachen Sie Datenaktualisierungen und die Datenbankverwaltung

Denormalisierung zur Performance

In manchen Fällen verlangsamt die Normalisierung die Prozesse. Die Denormalisierung ist eine Datenbankentwurfstechnik, bei der:

Redundanz wird verwendet, um aufwendige Joins zu reduzieren.
Die Geschwindigkeit von Abfragen ist wichtiger als die Normalisierung.
Der Kompromiss zwischen Datenintegrität und Geschwindigkeit wird verwaltet

Denormalisierung wird im Data Warehousing und in Analytics sowie bei Sternschema- und Schneeflockenschema-Designs für Workloads zur analytischen Online-Verarbeitung verwendet.

Best Practices für das Schema-Design

Das Ziel eines guten Schemadesigns ist es, gängige Datenzugriffsmuster zu berücksichtigen. Meistens bedeutet dies, ein Schema zu entwerfen, das für ein besseres Verständnis normalisiert ist, und dann kleine Änderungen für die Performance oder Benutzerfreundlichkeit vorzunehmen.

Konsistenz ist auch für die Benutzerfreundlichkeit wichtig, damit viele Personen ohne Verwirrung mit den Daten arbeiten können. Das Schema-Design ist kein einmaliger Prozess. Es ist wichtig, das Schema regelmäßig zu überprüfen und Änderungen vorzunehmen, um zu verhindern, dass aus einer kleinen Einschränkung eine große wird.

Designprinzipien für skalierbare Schemata

Skalierbare Datenbankschemata basieren auf wenigen einfachen Konzepten:

Datenbeziehungen und Zugriffsmuster verstehen. Entwerfen Sie Schemas basierend darauf, wie die Daten tatsächlich abgefragt, verknüpft und verwendet werden.
Verwenden Sie konsistente Namenskonventionen. Entwerfen Sie Schemas mit vorhersehbaren Namen für Tabellen, Spalten und Einschränkungen.
Planen Sie für zukünftiges Wachstum. Entwerfen Sie Schemata, die flexibel genug für neue Datenquellen sind.
Entscheidungen zum Dokumentenschema-Design. Dies hilft Datenbankdesignern und Datenbankadministratoren bei zukünftigen Entscheidungen.

Diese Konzepte sind in großen Data-Warehouse-Datenbanken wichtig. Das Verständnis der Beziehung zwischen dem Entwurf von Datenbankschemata und den Prinzipien der Datenarchitektur gewährleistet die Skalierbarkeit.

Sicherheit und Zugriffskontrolle

Der Schemaentwurf spielt auch eine Schlüsselrolle bei der Datensicherheit und Data-Governance.

Klassifizieren Sie sensible Daten frühzeitig. Legen Sie den Zugriff auf Daten basierend auf Risikoerwägungen, Geschäftsregeln und Geschäftsanforderungen fest.
Berechtigungen auf Schemaebene anwenden. Steuern Sie den Zugriff von Datenbankbenutzern auf Datenbankobjekte.
Verwenden Sie Ansichten, um die Datenfreigabe zu steuern. Beschränken Sie den Zugriff auf freigegebene Inhalte und stellen Sie gleichzeitig die erforderliche Funktionalität bereit.
Zugriff regelmäßig prüfen. Überwachen Sie Datenbankbenutzer und -berechtigungen, wenn sich Rollen ändern.

Für Organisationen, die umfassende Data-Governance -Strategien implementieren, sind Berechtigungen für Datenbankschemata ein grundlegendes Steuerelement.

Häufige Fehler beim Schemadesign vermeiden

Fehler beim Schemaentwurf können zu Datenqualitäts- und Performanceproblemen führen:

Verzicht auf Normalisierung: Führt zu doppelten Daten und Wartungsproblemen
Überkomplizierung von Schemata: Fügt zusätzliche Tabellen hinzu und verlangsamt die Entwicklung.
Ignorieren der Indexierungsstrategie: Verlangsamt Abfragen
Schwache referenzielle Integrität: Unvollständige und falsche Fremdschlüssel verursachen Dateninkonsistenzen
Überkorrektur von Struktur oder Flexibilität: Ein ausgewogenes Verhältnis zwischen Struktur und Flexibilität ist wichtig.

Arbeiten mit Datenbankschemata in SQL

SQL wird verwendet, um Datenbankschemata zu definieren. SQL gibt Anweisungen, wie Datenbankschemata erstellt und geändert werden und wie sie in Bezug auf die Speicherung von und den Zugriff auf Daten auf dem neuesten Stand gehalten werden.

Erstellen und Ändern von SQL-Schemata

Die häufigsten Aufgaben bei der Verwaltung von Datenbankschemata in SQL umfassen eine Reihe grundlegender Anweisungen der Datendefinitionssprache (Data Definition Language, DDL).

Schemas und Tabellen erstellen: Die Anweisung CREATE SCHEMA erstellt einen Namespace, während CREATE TABLE Datenbanktabellen im Schema erstellt. Die SQL-Schemabefehle sind für die Datenbankverwaltung von grundlegender Bedeutung.

Struktur und Beziehungen definieren: Die Spalten, Datentypen, der Primärschlüssel, die Fremdschlüssel und andere Einschränkungen werden in Tabellendefinitionen festgelegt. Das Schema definiert, wie Datenbankobjekte zusammenhängen.

Bestehende Tabellen ändern: Mit der ALTER TABLE-Anweisung können Benutzer Spalten hinzufügen oder Datentypen und Einschränkungen innerhalb der SQL-Datenbankstruktur ändern.

Schemaobjekte entfernen: Die Anweisung DROP TABLE oder DROP SCHEMA löscht eine Tabelle oder ein Schema in vollem Bewusstsein des potenziellen Datenverlusts.

Dies sind die wichtigsten Anweisungen zur Verwaltung von SQL-Schemata, die in verteilten Analyse-Engines wie Spark SQL verwendet werden.

Schemaverwaltung in verschiedenen Datenbanksystemen

Obwohl SQL ein Standard ist, kann die Schemaverwaltung je nach Datenbank variieren.

Oracle Database vs. SQL Server: Oracle Database-Schemata sind mit Datenbankbenutzern verknüpft, während SQL Server-Schemata separate Organisationseinheiten sind. Die Architektur des Datenbankmanagementsystems unterscheidet sich je nach Plattform.

Andere Datenbankterminologie: MySQL bezeichnet es als Datenbank, während PostgreSQL es als Schema bezeichnet. Jedes Datenbanksystem hat seine eigenen Konventionen.

Portabilitätsprobleme: Unterschiedliche Datentypen, Constraints, Indizierung und DDL-Syntax können die Migration eines Schemas von einem Datenbanksystem zu einem anderen erschweren.

Aufgrund dieser Variationen erfordert die Verwaltung von Datenbankschemas oft datenbankspezifische Anpassungen, auch wenn die Entwürfe standardmäßigen SQL-Praktiken folgen. Ein Datenbankadministrator muss diese Plattformunterschiede verstehen.

Datenbankschemata in modernen Datenarchitekturen

Datenbankschemata werden in modernen Datensystemen verwendet, einschließlich Data Warehouses, Data Lakes und Streaming-Plattformen. Obwohl die verwendete Datenbanktechnologie unterschiedlich ist, ist der Zweck der Verwendung eines Schemas derselbe: Daten Struktur, Bedeutung und Konsistenz zu verleihen.

Schemata in Cloud-Datenplattformen

Cloud-Datenplattformen verwalten Datenbankschemas in großem Scale, insbesondere über gemeinsam genutzte Daten und Benutzer hinweg.

Wichtige Punkte:

Scale und Das Teilen: Schemata ermöglichen eine groß angelegte, benutzerübergreifende Arbeit mit zentralisierter Struktur und Sicherheit.
Trennung von Rechenleistung und Speicher: Die Wahl des physischen Schemas ist von der Infrastruktur entkoppelt und kann unabhängig optimiert werden.
Serverlose Datenbankmodelle: Die physische Datenbankverwaltung ist oft nicht sichtbar, sodass der Fokus stattdessen auf dem logischen Schema liegen kann.

Diese Muster sind typisch für cloudnativ Analyseplattformen, die auf einem einheitliches Data Warehouse -Modell basieren. Moderne Cloud-Plattformen behandeln das Datenbankschema als eine wichtige Governance-Ebene.

Schemaentwicklung und Versionierung

Das Ändern des Datenbankschemas in einer Produktionsumgebung ist schwierig, insbesondere wenn mehrere Tabellen und Arbeitslasten vom Datenbankschema abhängen.

Gängige Ansätze zur Weiterentwicklung des Datenbankschemas sind:

Durchführen von abwärtskompatiblen Änderungen am Datenbankschema
Einsatz von Blue-Green-Deployments zur Weiterentwicklung des Datenbankschemas
Das Datenbankschema mithilfe eines Datenwörterbuchs unter Versionskontrolle stellen

Diese Praktiken unterstützen eine zuverlässige Schemaentwicklung in modernen Data-Engineering-Umgebungen.

Integration mit Data Governance

Das Datenbankschema spielt eine entscheidende Rolle bei der Data Governance und Compliance.

Das Datenbankschema bietet Folgendes:

Datendefinition und -struktur durch das Schema definieren den Mechanismus.
Metadaten der Datenbankverwaltung
Data-Dictionary-Ressourcen für die Dokumentation

Diese Datenbankschema-Funktionen gewährleisten die Erstellung einer Data Governance-Umgebung, wie sie in Unity Catalog implementiert ist. Die Schemadaten werden zu einer zentralen Wahrheitsquelle für die Datenorganisation und die Datenbankverwaltung.

Praxisbeispiel: E-Commerce-Datenbankschema

Ein einfaches E-Commerce-System bietet eine praktische Möglichkeit zu sehen, wie Datenbankschemata in realen Szenarien angewendet werden.

Transaktionales Schema: Kerntabellen und Beziehungen

In einem transaktionalen E-Commerce-System ist das Datenbankschema so konzipiert, dass es den täglichen Betrieb wie das Aufgeben von Bestellungen und die Verwaltung von Kunden für die Online-Transaktionsverarbeitung unterstützt.

Ein typisches relationales Datenbankschema umfasst:

Kunden: speichert Kundeninformationen
Bestellungen: speichert einzelne Kaufdatensätze
Produkte: Definiert Artikel, die zum Verkauf verfügbar sind
OrderItems: verknüpft Bestellungen mit Produkten und erfasst Mengen und Preise

Diese Datenbanktabellen sind über Primär- und Fremdschlüssel verbunden:

Die Tabelle „Orders“ enthält einen Fremdschlüssel, der auf „Kunden“ verweist.
Die Tabelle OrderItems enthält Fremdschlüssel, die sowohl auf Orders als auch auf Products verweisen.

Diese Struktur erzwingt 1:n-Beziehungen, minimiert Redundanz und erhält die Datenintegrität für transaktionale Workloads. Das Design des Datenbankschemas gewährleistet die Datenkonsistenz im Online-Transaktionsverarbeitungsbetrieb.

Analytisches Schema: Sternschema-Muster

Für Reporting und Analysen wird dieses transaktionale Schema oft in ein Sternschema-Muster umgewandelt.

Bei diesem Muster:

Die Tabelle „Orders“ dient als zentrale Faktentabelle und speichert Kennzahlen wie Bestellsummen und Mengen
Die Tabellen „Kunden“ und „Produkte“ fungieren als Dimensionstabellen und bieten einen beschreibenden Kontext.

Dieses Schema-Design vereinfacht Abfragen und unterstützt ein effizientes Reporting in Data Warehouses und Business-Intelligence-Systemen mithilfe von Online Analytical Processing.

Abwägungen zwischen Normalisierung und Denormalisierung

Der Schemaentwurf gleicht Datenintegrität, Abfrage-Performance und Speichereffizienz aus.

Transaktionsschemas bevorzugen typischerweise die Normalisierung, um Redundanzen zu reduzieren und die Konsistenz über zusammengehörige Daten hinweg sicherzustellen.
Analytische Schemata verwenden oft eine selektive Denormalisierung, um die Abfragegeschwindigkeit zu verbessern und die Analyse zu vereinfachen.

Weitere Informationen zum Sternschema und zu Entscheidungen bei der dimensionalen Modellierung finden Sie im Blog Implementing Dimensional Data Warehouse.

Fazit: Erstellen effektiver Datenbankschemata

Ein gut konzipiertes Datenbankschema ist die Grundlage für zuverlässige und leistungsstarke Datensysteme. Durch die Trennung von konzeptioneller Absicht, logischer Struktur und physischer Implementierung unterstützen Datenbankschemata Klarheit, Skalierbarkeit und langfristige Wartbarkeit.

Das Schemadesign funktioniert am besten als iterativer Prozess aus Entwurf, Test und Verfeinerung. Tools wie ERDs, Datenbankmodellierungstools und SQL-Clients unterstützen diese Entwicklung. Ein Datenbankadministrator und Datenbankdesigner müssen während des gesamten Prozesses zusammenarbeiten, um sicherzustellen, dass das Datenbankschema alle Anforderungen erfüllt.

Um weiterzulernen, üben Sie das Entwerfen von Schemata, vertiefen Sie Ihr Verständnis der Datenbanknormalisierung und erkunden Sie verschiedene Schemadesignmuster. Für eine breitere Grundlage siehe das Glossar zur Datenarchitektur.

Wenn Sie verstehen, wie die Prinzipien von Datenbankschemata auf moderne Datenarchitektur und Datenmodellierungspraktiken angewendet werden, können Sie effektivere Datensysteme erstellen, die mit den Anforderungen Ihres Unternehmens skalieren. Ob bei der Arbeit mit relationalen Datenbanken, NoSQL-Datenbanken oder Hybridsystemen, ein solides Datenbankschema-Design ist nach wie vor unerlässlich.

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Alle Blogs anzeigen

Einführung: Datenbankschemata im modernen Datenverwaltung

Was ist ein Datenbankschema?

Wichtige Punkte

Datenbankschema vs. Datenbanktabelle: Wichtige Unterschiede

Eine Analogie

Die drei Arten von Datenbankschemata

Konzeptionelles Datenbankschema

Logisches Datenbankschema

Physisches Datenbankschema

Kernkomponenten von Datenbankschemata

Tabellen und andere Datenbankobjekte

Primärschlüssel und Fremdschlüssel

Datentypen und Einschränkungen

Indizes und Ansichten

Gängige Datenbankschema-Designs

Sternschema für Data-Warehousing

Schneeflockenschema

Hierarchisches Schema

NoSQL-Schemadesign

Das Playbook für agentenbasierte KI für Unternehmen

Schrittweiser Prozess zum Entwurf von Datenbankschemata

Anforderungserhebung und -analyse

Konzeptioneller Entwurf mit Entity-Relationship-Diagrammen

Entwicklung logischer Schemata

Implementierung des physischen Schemas

Datenbanknormalisierung und Datenintegrität

Datenbanknormalisierung verstehen

Denormalisierung zur Performance

Best Practices für das Schema-Design

Designprinzipien für skalierbare Schemata

Sicherheit und Zugriffskontrolle

Häufige Fehler beim Schemadesign vermeiden

Arbeiten mit Datenbankschemata in SQL

Erstellen und Ändern von SQL-Schemata

Schemaverwaltung in verschiedenen Datenbanksystemen

Datenbankschemata in modernen Datenarchitekturen

Schemata in Cloud-Datenplattformen

Schemaentwicklung und Versionierung

Integration mit Data Governance

Praxisbeispiel: E-Commerce-Datenbankschema

Transaktionales Schema: Kerntabellen und Beziehungen

Analytisches Schema: Sternschema-Muster

Abwägungen zwischen Normalisierung und Denormalisierung

Fazit: Erstellen effektiver Datenbankschemata

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Sign up