Im letzten Blogbeitrag "Databricks Lakehouse und Data Mesh" haben wir das Data Mesh basierend auf dem Databricks Lakehouse vorgestellt. Dieser Blogbeitrag untersucht, wie die Fähigkeiten des Databricks Lakehouse das Data Mesh aus architektonischer Sicht unterstützen.
Data Mesh ist ein architektonisches und organisatorisches Paradigma, keine Technologie oder Lösung, die man kauft. Um ein Data Mesh effektiv zu implementieren, benötigen Sie jedoch eine flexible Plattform, die die Zusammenarbeit zwischen Daten-Personas sicherstellt, Datenqualität liefert und Interoperabilität und Produktivität über alle Daten- und KI-Workloads hinweg erleichtert.
Werfen wir einen Blick darauf, wie die Funktionen der Databricks Lakehouse Platform diese Anforderungen erfüllen.
Der grundlegende Baustein eines Data Mesh ist die Datendomäne, die normalerweise aus den folgenden Komponenten besteht:
Dies ist in der folgenden Abbildung dargestellt:
Um die domänenübergreifende Zusammenarbeit und Self-Service-Analysen zu erleichtern, werden häufig zentrale Dienste für Zugriffskontrollmechanismen und Datenkatalogisierung bereitgestellt. Zum Beispiel bietet Databricks Unity Catalog nicht nur informative Katalogisierungsfunktionen wie Datenentdeckung und Lineage, sondern auch die Durchsetzung von feingranularen Zugriffskontrollen und Auditing, die viele Organisationen heute wünschen.
Data Mesh kann in verschiedenen Topologien eingesetzt werden. Außerhalb moderner digital-nativer Unternehmen wird ein stark dezentralisiertes Data Mesh mit vollständig unabhängigen Domänen normalerweise nicht empfohlen, da dies zu Komplexität und Overhead in den Domänenteams führt, anstatt ihnen zu ermöglichen, sich auf Geschäftslogik und qualitativ hochwertige Daten zu konzentrieren. Zwei beliebte Beispiele, die in Unternehmen häufig anzutreffen sind, sind das Harmonisierte Data Mesh und das Hub & Spoke Data Mesh.
Ein harmonisiertes Data Mesh betont die Autonomie innerhalb der Domänen:
Die Auswirkungen eines harmonisierten Ansatzes können sein:
Dieser Ansatz kann in globalen Organisationen herausfordernd sein, in denen verschiedene Teams unterschiedliche Kenntnisse und Fähigkeiten haben und es schwierig finden, mit den neuesten Praktiken und Richtlinien auf dem Laufenden zu bleiben.
Ein Hub & Spoke Data Mesh beinhaltet einen zentralen Ort für die Verwaltung gemeinsam nutzbarer Datenbestände und von Daten, die logisch nicht in eine einzelne Domäne fallen:
Die Auswirkungen eines Hub and Spoke Data Mesh sind:
Bei beiden Ansätzen können Domänen auch gemeinsame und wiederholbare Anforderungen haben, wie zum Beispiel:
Ein zentraler Pool von Fähigkeiten und Fachwissen, wie ein Center of Excellence, kann sowohl für wiederholbare Aktivitäten, die domänenübergreifend üblich sind, als auch für seltene Aktivitäten, die Nischenkenntnisse erfordern, die möglicherweise nicht in jeder Domäne verfügbar sind, von Vorteil sein.
Es ist auch durchaus möglich, einige Variationen zwischen einem vollständig harmonisierten Data Mesh und einem Hub-and-Spoke-Modell zu haben. Zum Beispiel ein minimales globales Daten-Hub, um nur Datenbestände zu hosten, die logisch nicht in eine einzelne Domäne fallen, und um extern erworbene Daten zu verwalten, die domänenübergreifend verwendet werden. Unity Catalog spielt die zentrale Rolle bei der Bereitstellung der authentifizierten Datenentdeckung, wo immer Daten innerhalb einer Databricks-Bereitstellung verwaltet werden.
Unabhängig von der Art der bereitgestellten logischen Data Mesh-Architektur stehen viele Organisationen vor der Herausforderung, ein Betriebsmodell zu schaffen, das Cloud-Regionen, Cloud-Anbieter und sogar Rechtseinheiten überspannt. Darüber hinaus bleibt, während sich Organisationen weiterentwickeln in Richtung Produktivitätssteigerung (und potenziell sogar Monetarisierung) von Datenbeständen, eine unternehmensweite, interoperable Datenfreigabe entscheidend für die Zusammenarbeit nicht nur zwischen internen Domänen, sondern auch zwischen Unternehmen.
Delta Sharing bietet eine Lösung für dieses Problem mit den folgenden Vorteilen:
Data Mesh und Lakehouse entstanden beide aufgrund gemeinsamer Schmerzpunkte und Mängel von Enterprise Data Warehouses und traditionellen Data Lakes[1][2]. Data Mesh artikuliert umfassend die Geschäfts vision und die Bedürfnisse zur Verbesserung der Produktivität und des Werts von Daten, während das Databricks Lakehouse eine offene und skalierbare Grundlage bietet, um diese Bedürfnisse mit maximaler Interoperabilität, Kosteneffizienz und Einfachheit zu erfüllen.
In diesem Artikel haben wir zwei Beispiel-Fähigkeiten der Databricks Lakehouse-Plattform hervorgehoben, die die Zusammenarbeit und Produktivität verbessern und gleichzeitig die föderierte Governance unterstützen, nämlich:
Es gibt jedoch eine Fülle weiterer Databricks-Funktionen, die als großartige Wegbereiter auf dem Weg zum Data Mesh für verschiedene Personas dienen. Zum Beispiel:
Erfahren Sie mehr über Lakehouse für Data Mesh:
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
