Daten sind für Unternehmen von entscheidender Bedeutung – sie sind der Rohstoff für Innovation und Fortschritt. Mit der zunehmenden Ausrichtung auf daten- und entscheidungsbasierte Prozesse wächst ihre Relevanz und stellt Organisationen, die Schritt halten wollen, vor große Herausforderungen. Veraltete Data Lakes und Data Warehouses verschärfen dieses Problem, indem sie Silos erzeugen, die Sichtbarkeit von Daten einschränken und zu langsamer, komplizierter Datenverarbeitung führen. Diese Hürden und Engpässe behindern die Zusammenarbeit und lassen wertvolle Datenressourcen ungenutzt. Unternehmen benötigen eine neue Datenarchitektur, um das Potenzial ihrer Daten voll auszuschöpfen. Data Mesh ist eine moderne Datenarchitektur, die genau dieses Problem lösen kann.
Data Mesh ist eine organisationsweite Datenarchitektur zur Verwaltung großer Datenmengen und hilft, mehr Wert aus den Daten zu schöpfen.
Dezentralisierung ist der Schlüssel zum Data Mesh. Daten werden eigenverantwortlich von mehreren Fachbereichen (Domänen) verwaltet und gepflegt – anstatt zentral von einem einzigen Team für das gesamte Unternehmen – wobei zentrale Governance-Regeln sicherstellen, dass die Daten interoperabel, sicher und semantisch konsistent bleiben.
Domänen-Datenverantwortliche sind dafür zuständig, hochwertige Datenprodukte bereitzustellen und gleichzeitig ihre Daten zu schützen. Da sie nur für ihre eigenen Geschäftsdaten verantwortlich sind – und nicht für die Daten der gesamten Organisation– können sie relevantere Daten schneller und effizienter bereitstellen und dabei eine starke Datenverwaltung aufrechterhalten.
Die Prinzipien des Data Mesh sorgen für ein Gleichgewicht zwischen betrieblicher Autonomie und durchgängiger Interoperabilität im gesamten Unternehmen. Die Architektur verringert die Abhängigkeit von zentralisierten Teams beugt der Entstehung von Datensilos vor. Gleichzeitig fördert sie eine kollaborative Umgebung, in der Teams gemeinsam Datenprodukte entwickeln und teilen können. Diese Datenprodukte schaffen geschäftlichen Mehrwert für das gesamte Unternehmen.
Vier Prinzipien bilden die Grundlage für eine logische Data Mesh-Architektur:
Traditionell nutzen Unternehmen ihre Daten über ein zentrales Datenteam, das für die Speicherung, Formatierung, Verarbeitung und Analyse zuständig ist. Das sorgt für ein einheitliches Datenmanagement und Governance, führt jedoch auch zu Engpässen. Teams umgehen diese Zentralisierung oft unbeabsichtigt, indem sie Silos schaffen, die Datenentscheidungen beschleunigen. Dies verhindert jedoch auch, dass Datennutzer nicht rechtzeitig auf relevante und präzise Daten zugreifen können. Darüber hinaus fehlt zentralen Daten- und KI-Teams oft das tiefere Verständnis für den konkreten Kontext domänenspezifischer Datasets – dadurch bleiben Chancen ungenutzt, daraus aussagekräftige Datenprodukte zu entwickeln.
Da das Volumen und der Wert der Daten weiter wachsen, können zentralisierte Daten- und KI-Teams oft nicht mit der Nachfrage Schritt halten. Das führt zu einem überforderten Team, hindert Geschäftsanwender daran, auf die benötigten Daten zuzugreifen und sie zu nutzen, und verhindert, dass die Organisation den vollen Wert ihrer Daten realisiert.
In einem Data Mesh wird das Datenmanagement dezentralisiert und in die Hände von Domänenexperten gelegt, die die Daten verstehen, mit denen sie arbeiten. Dies führt zu mehreren Vorteilen:
Um ein Data Mesh zu erstellen, müssen Organisationen bestimmte Elemente bereitstellen, darunter:
Die Databricks Data Intelligence Platform bietet eine technologische Grundlage für Unternehmen, die eine Data-Mesh-Architektur einführen und einen moderneren Ansatz in puncto Datenverwaltung verfolgen möchten. Databricks ist eine cloudnative Daten-, Analyse- und KI-Plattform, die die Leistung und Funktionen eines Data Warehouse mit der kostengünstigen Flexibilität und Skalierbarkeit eines modernen Data Lake verbindet.Die offene Architektur von Databricks bietet Flexibilität bei der Organisation und Strukturierung von Daten und stellt gleichzeitig eine einheitliche Management-Infrastruktur für alle Data- und Analytics-Workloads bereit.
Die Databricks-Plattform ist in sogenannte Workspaces unterteilt, die eine domänenzentrierte Data-Mesh-Architektur unterstützen. Databricks unterstützt mehrere Arbeitsbereiche, die jeweils einer oder mehreren Domänen entsprechen. Jeder Workspace wird lokal verwaltet und betrieben und dient als zentrale Anlaufstelle für Zusammenarbeit. Innerhalb des Workspaces können die jeweiligen Domänen ihre Datenprodukte über eine unternehmensweite Self-Service-Infrastruktur verwalten.
Databricks bietet Tools für den gesamten Lebenszyklus der Datenverwaltung und -verarbeitung. Es ermöglicht sowohl Batch- als auch Streaming-Datenverarbeitung, was den Benutzern die effizientere Erstellung und Verwaltung von Datenprodukten ermöglicht. Darüber hinaus kann Databricks Tabellenformate vereinheitlichen, sodass jede Domäne ihr bevorzugtes Format nutzen kann – bei gleichzeitig einheitlichem Ansatz für Datenspeicherung und Metadatenverwaltung.
Unity Catalog von Databricks – die branchenweit einzige einheitliche und offene Data-Governance-Lösung für Daten und KI – ist ein zentrales Element für den Aufbau eines Data Mesh. Unity Catalog ermöglicht eine zentralisierte Verwaltung, da Governance, Sicherheit, Benutzerverwaltung und Metadatenmanagement über alle Workspaces hinweg integriert werden. Die Lösung bietet Funktionen zur Datenkatalogisierung wie Auffindbarkeit und Datenherkunft (Lineage) sowie die Durchsetzung feingranularer Zugriffskontrollen und Audit-Logging. Sicherheits- und Zugriffskontrollen werden nur einmal zentral verwaltet, was die Daten-Governance erheblich vereinfacht. Unity Catalog organisiert Daten in Katalogen, was eine domänenspezifische Verwaltung von Datenprodukten ermöglicht.
Databricks bietet zudem unternehmensweite interoperables Data Sharing auf Enterprise-Niveau, um die Zusammenarbeit zwischen internen und externen Domänen zu unterstützen. Delta Sharing ermöglicht es Unternehmen, Daten sicher und ohne Kopien zu teilen – unabhängig von der verwendeten Computing-Plattform oder Cloud-Region. Delta Sharing bildet die Grundlage für eine breite Palette an Data-Sharing-Aktivitäten mit externen Partner – einschließlich der Veröffentlichung oder des Bezugs von Daten über einen Datenmarktplatz.
Mit Unity Catalog und Delta Sharing bietet Databricks Organisationen die Flexibilität, Daten und Analysen im großen Umfang zu organisieren und zu verwalten. Daten können dabei entweder in einer Data-Mesh-Architektur oder in einer Multi-Tenant-Architektur strukturiert werden – und unterstützen sowohl zentrale als auch dezentrale Datenmanagement-Lösungen.
Die Data Mesh-Architektur bietet Unternehmen einen neuen Ansatz für den Umfang mit Daten und die Möglichkeit, deren vollen Wert auszuschöpfen. Databricks stellt ein offenes, skalierbares Fundament bereit, um diese Vision Wirklichkeit werden zu lassen. Dieses zeichnet sich durch seine Interoperabilität, Effizienz, Governance und eine einfache Handhabung aus.
