Was ist ein Data Mesh?

Dezentrale Architektur, die Daten als Produkt der Fachteams behandelt und dabei Self-Service-Infrastruktur, föderierte Governance und Interoperabilität betont.

von Databricks-Mitarbeiter

Die Domänenverantwortung weist den Teams, die am nächsten an der Datenerstellung beteiligt sind, die Verantwortung für Datenprodukte zu. Dadurch erhalten sie Autonomie in Bezug auf Schemata, Qualität, Dokumentation und SLAs, während Datensätze als Produkte mit klaren Schnittstellen behandelt werden.
Die Self-Service-Infrastruktur bietet Domänenteams Plattformfunktionen für Datenspeicherung, -verarbeitung, -katalogisierung und -governance mithilfe standardisierter Tools und reduziert so die Abhängigkeit von zentralen Datenteams.
Die föderierte Governance etabliert globale Standards für Interoperabilität, Sicherheit und Compliance und ermöglicht gleichzeitig domänenspezifische Richtlinien. Die computergestützte Governance automatisiert die Richtliniendurchsetzung durch Plattformfunktionen.

Daten sind für Unternehmen von entscheidender Bedeutung – sie sind der Rohstoff für Innovation und Fortschritt. Mit der zunehmenden Ausrichtung auf daten- und entscheidungsbasierte Prozesse wächst ihre Relevanz und stellt Organisationen, die Schritt halten wollen, vor große Herausforderungen. Veraltete Data Lakes und Data Warehouses verschärfen dieses Problem, indem sie Silos erzeugen, die Sichtbarkeit von Daten einschränken und zu langsamer, komplizierter Datenverarbeitung führen. Diese Hürden und Engpässe behindern die Zusammenarbeit und lassen wertvolle Datenressourcen ungenutzt. Unternehmen benötigen eine neue Datenarchitektur, um das Potenzial ihrer Daten voll auszuschöpfen. Data Mesh ist eine moderne Datenarchitektur, die genau dieses Problem lösen kann.

Was ist ein Data Mesh?

Data Mesh ist eine organisationsweite Datenarchitektur zur Verwaltung großer Datenmengen und hilft, mehr Wert aus den Daten zu schöpfen.

Dezentralisierung ist der Schlüssel zum Data Mesh. Daten werden eigenverantwortlich von mehreren Fachbereichen (Domänen) verwaltet und gepflegt – anstatt zentral von einem einzigen Team für das gesamte Unternehmen – wobei zentrale Governance-Regeln sicherstellen, dass die Daten interoperabel, sicher und semantisch konsistent bleiben.

Domänen-Datenverantwortliche sind dafür zuständig, hochwertige Datenprodukte bereitzustellen und gleichzeitig ihre Daten zu schützen. Da sie nur für ihre eigenen Geschäftsdaten verantwortlich sind – und nicht für die Daten der gesamten Organisation– können sie relevantere Daten schneller und effizienter bereitstellen und dabei eine starke Datenverwaltung aufrechterhalten.

Die Prinzipien des Data Mesh sorgen für ein Gleichgewicht zwischen betrieblicher Autonomie und durchgängiger Interoperabilität im gesamten Unternehmen. Die Architektur verringert die Abhängigkeit von zentralisierten Teams beugt der Entstehung von Datensilos vor. Gleichzeitig fördert sie eine kollaborative Umgebung, in der Teams gemeinsam Datenprodukte entwickeln und teilen können. Diese Datenprodukte schaffen geschäftlichen Mehrwert für das gesamte Unternehmen.

Prinzipien der Data Mesh-Architektur

Vier Prinzipien bilden die Grundlage für eine logische Data Mesh-Architektur:

Domänenbesitz: Data Mesh basiert auf einer verteilten Architektur, in der Domänenteams während des gesamten Lebenszyklus die volle Verantwortung und Autonomie für ihre Daten behalten. Diese Domänenteams setzen sich aus verschiedenen Abteilungen und Funktionsbereichen eines Unternehmens zusammen – etwa Vertrieb oder Buchhaltung –, die jeweils eigene Daten produzieren. Das Prinzip des Domänenbesitzes stellt sicher, dass Daten von denjenigen verwaltet werden, die sie am besten kennen.
Daten als Produkt: Daten werden als Produkt behandelt und die Teams und Abteilungen innerhalb eines Unternehmens werden als Kunden behandelt. Das Unternehmen wendet Produktmanagement-Prinzipien auf den Datenanalyse-Lebenszyklus an und stellt so sicher, dass die Datenverbraucher qualitativ hochwertige Daten erhalten. Datenprodukte müssen auffindbar, vertrauenswürdig, selbstbeschreibend, adressierbar und interoperabel sein. Neben Daten und Metadaten können sie Code, Dashboards, Funktionen, Modelle und andere Assets enthalten, die zur Erstellung und Pflege des Datenprodukts erforderlich sind.
Self-Service-Infrastrukturplattform: Während Domänenteams ihre eigenen Datenprodukte verwalten, nutzt das Unternehmen eine harmonisierte, automatisierte Plattform, um interoperable Datenprodukte zu erstellen, zu betreiben und zu pflegen. Die Bereitstellung von standardisierten Tools im Rahmen einer Self-Service-Plattform ermöglicht die Skalierbarkeit der Data Mesh-Architektur.
Föderierte Governance: Dieses Prinzip gewährleistet eine zentrale, konsistente Data Governance über alle Domänen hinweg. Die Einhaltung von Compliance-Vorgaben wird zentral über einen Datenkatalog, Governance-Tools und automatisierte Richtliniendurchsetzung verfolgt und verwaltet. Dadurch entsteht ein Datenökosystem, das sowohl die den unternehmensweiten Vorgaben als auch branchenspezifische Regularien erfüllt.

Vorteile von Data Mesh

Traditionell nutzen Unternehmen ihre Daten über ein zentrales Datenteam, das für die Speicherung, Formatierung, Verarbeitung und Analyse zuständig ist. Das sorgt für ein einheitliches Datenmanagement und Governance, führt jedoch auch zu Engpässen. Teams umgehen diese Zentralisierung oft unbeabsichtigt, indem sie Silos schaffen, die Datenentscheidungen beschleunigen. Dies verhindert jedoch auch, dass Datennutzer nicht rechtzeitig auf relevante und präzise Daten zugreifen können. Darüber hinaus fehlt zentralen Daten- und KI-Teams oft das tiefere Verständnis für den konkreten Kontext domänenspezifischer Datasets – dadurch bleiben Chancen ungenutzt, daraus aussagekräftige Datenprodukte zu entwickeln.

Da das Volumen und der Wert der Daten weiter wachsen, können zentralisierte Daten- und KI-Teams oft nicht mit der Nachfrage Schritt halten. Das führt zu einem überforderten Team, hindert Geschäftsanwender daran, auf die benötigten Daten zuzugreifen und sie zu nutzen, und verhindert, dass die Organisation den vollen Wert ihrer Daten realisiert.

In einem Data Mesh wird das Datenmanagement dezentralisiert und in die Hände von Domänenexperten gelegt, die die Daten verstehen, mit denen sie arbeiten. Dies führt zu mehreren Vorteilen:

Geschwindigkeit und Einfachheit: Benutzer können schneller auf die richtigen Daten zugreifen, indem sie sich direkt an die Domänenmanager für Anfragen, Änderungen und Genehmigungen wenden.
Hochwertige Datenprodukte: Domänendatenmanager erstellen relevantere und hochwertigere Produkte, die einen Mehrwert für Geschäftsanwender bringen.
Verbesserte Entdeckung: Während die Verwaltung und der Zugriff dezentralisiert sind, werden alle Daten zentral erfasst und verwaltet, was Silos verhindert und die Daten leichter auffindbar macht.
Kosten- und Leistungseffizienz: Die verteilte Datenarchitektur fördert die Einführung von Echtzeit-Datenstreaming und verbessert die Sichtbarkeit von Ressourcenzuweisung und Speicherung, was zu mehr Effizienz, besserer Finanzplanung und niedrigeren Kosten führt.
Stärkere Governance: Föderierte Sicherheits- und Compliance-Richtlinien werden sowohl innerhalb der Domänen als auch zwischen ihnen durchgesetzt. Monitoring und Auditing sind zentralisiert, um eine konsistente Einhaltung zu gewährleisten.

Grundbausteine für Data Mesh

Um ein Data Mesh zu erstellen, müssen Organisationen bestimmte Elemente bereitstellen, darunter:

Eine umfassende Datenproduktstrategie, die gemeinsame Standards und Prozesse definiert, wie zum Beispiel eine globale Blaupause für Datenproduktverträge, eine Publishing-Plattform für Data Discovery und zentralisierte Governance-Prozesse und -Zuständigkeiten, und den Nutzern gleichzeitig ein Self-Service-Erlebnis bietet.
Eine harmonisierte Plattform, auf der alle Daten zentral verfügbar sind und für unterschiedlichste Analyse-Workloads bereitstehen – etwa in Form einer Data Intelligence Platform.
Eine flexible Plattform, die die Zusammenarbeit zwischen verschiedenen Datenrollen ermöglicht, Datenqualität sichert und Interoperabilität sowie Produktivität über alle Data- und KI-Workloads hinweg unterstützt.
Zentral verwaltete Data-Governance-Dienste für Zugriffssteuerung und Datenkatalogisierung, um domänenübergreifende Zusammenarbeit und Self-Service-Analysen zu fördern.
Eine föderierte Sharing-Schicht, die einen nahtlosen Datenaustausch zwischen Domänen ermöglicht.
Für viele Unternehmen stellt sich zudem die Frage, wie Daten sicher mit externen Parteien geteilt werden können.

Einführung eines Data Mesh mit der Databricks Data Intelligence Platform

Die Databricks Data Intelligence Platform bietet eine technologische Grundlage für Unternehmen, die eine Data-Mesh-Architektur einführen und einen moderneren Ansatz in puncto Datenverwaltung verfolgen möchten. Databricks ist eine cloudnative Daten-, Analyse- und KI-Plattform, die die Leistung und Funktionen eines Data Warehouse mit der kostengünstigen Flexibilität und Skalierbarkeit eines modernen Data Lake verbindet.Die offene Architektur von Databricks bietet Flexibilität bei der Organisation und Strukturierung von Daten und stellt gleichzeitig eine einheitliche Management-Infrastruktur für alle Data- und Analytics-Workloads bereit.

Die Databricks-Plattform ist in sogenannte Workspaces unterteilt, die eine domänenzentrierte Data-Mesh-Architektur unterstützen. Databricks unterstützt mehrere Arbeitsbereiche, die jeweils einer oder mehreren Domänen entsprechen. Jeder Workspace wird lokal verwaltet und betrieben und dient als zentrale Anlaufstelle für Zusammenarbeit. Innerhalb des Workspaces können die jeweiligen Domänen ihre Datenprodukte über eine unternehmensweite Self-Service-Infrastruktur verwalten.

Databricks bietet Tools für den gesamten Lebenszyklus der Datenverwaltung und -verarbeitung. Es ermöglicht sowohl Batch- als auch Streaming-Datenverarbeitung, was den Benutzern die effizientere Erstellung und Verwaltung von Datenprodukten ermöglicht. Darüber hinaus kann Databricks Tabellenformate vereinheitlichen, sodass jede Domäne ihr bevorzugtes Format nutzen kann – bei gleichzeitig einheitlichem Ansatz für Datenspeicherung und Metadatenverwaltung.

Unity Catalog von Databricks – die branchenweit einzige einheitliche und offene Data-Governance-Lösung für Daten und KI – ist ein zentrales Element für den Aufbau eines Data Mesh. Unity Catalog ermöglicht eine zentralisierte Verwaltung, da Governance, Sicherheit, Benutzerverwaltung und Metadatenmanagement über alle Workspaces hinweg integriert werden. Die Lösung bietet Funktionen zur Datenkatalogisierung wie Auffindbarkeit und Datenherkunft (Lineage) sowie die Durchsetzung feingranularer Zugriffskontrollen und Audit-Logging. Sicherheits- und Zugriffskontrollen werden nur einmal zentral verwaltet, was die Daten-Governance erheblich vereinfacht. Unity Catalog organisiert Daten in Katalogen, was eine domänenspezifische Verwaltung von Datenprodukten ermöglicht.

Databricks bietet zudem unternehmensweite interoperables Data Sharing auf Enterprise-Niveau, um die Zusammenarbeit zwischen internen und externen Domänen zu unterstützen. Delta Sharing ermöglicht es Unternehmen, Daten sicher und ohne Kopien zu teilen – unabhängig von der verwendeten Computing-Plattform oder Cloud-Region. Delta Sharing bildet die Grundlage für eine breite Palette an Data-Sharing-Aktivitäten mit externen Partner – einschließlich der Veröffentlichung oder des Bezugs von Daten über einen Datenmarktplatz.

Mit Unity Catalog und Delta Sharing bietet Databricks Organisationen die Flexibilität, Daten und Analysen im großen Umfang zu organisieren und zu verwalten. Daten können dabei entweder in einer Data-Mesh-Architektur oder in einer Multi-Tenant-Architektur strukturiert werden – und unterstützen sowohl zentrale als auch dezentrale Datenmanagement-Lösungen.

Die Data Mesh-Architektur bietet Unternehmen einen neuen Ansatz für den Umfang mit Daten und die Möglichkeit, deren vollen Wert auszuschöpfen. Databricks stellt ein offenes, skalierbares Fundament bereit, um diese Vision Wirklichkeit werden zu lassen. Dieses zeichnet sich durch seine Interoperabilität, Effizienz, Governance und eine einfache Handhabung aus.

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Alle Blogs anzeigen

Was ist ein Data Mesh?

Prinzipien der Data Mesh-Architektur

Das Playbook für agentenbasierte KI für Unternehmen

Vorteile von Data Mesh

Grundbausteine für Data Mesh

Einführung eines Data Mesh mit der Databricks Data Intelligence Platform

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Sign up