Mercedes-Benz baut ein Cross-Cloud Data Mesh mit Delta Sharing und intelligenter Replikation und senkt Kosten um 66%
Wie ein Luxusautohersteller ein Cloud- und regionsübergreifendes Datennetz mit Delta Sharing aufbaute, das Aktualität und Kosten für ausgehende Daten durch intelligente Replikation ausgleicht
Mercedes-Benz hat ein Cloud-übergreifendes Data Mesh mit Databricks Delta Sharing und lokaler Replikation (Delta Deep Clone) aufgebaut, um After-Sales-Daten sicher zwischen AWS und Azure auszutauschen.
Die Flexibilität von Delta Sharing ermöglicht es Mercedes-Benz, sowohl die Aktualität als auch die Ausgangskosten über Clouds und Regionen hinweg zu optimieren.
Für große Datensätze, auf die häufig zugegriffen wird, nutzte Mercedes Benz Deep Clone aufbauend auf Delta Sharing, um Daten intelligent und inkrementell zu aktualisieren und die Ausgangskosten um 66 % zu senken.
Mercedes-Benz, eine der bekanntesten Luxusautomobilmarken der Welt, durchläuft derzeit zwei große Branchenveränderungen: die Digitalisierung und den Übergang zu Elektrofahrzeugen. Diese Ära wird durch das Konzept des "datengetriebenen Fahrzeugs" definiert.
Von Hardware zu Daten: Früher waren Fahrzeuge hardwaredefiniert, dann softwaredefiniert, aber jetzt tritt die Branche in die Ära der datengetriebenen Fahrzeuge ein. Dieser Wandel bedeutet, dass Daten – einschließlich Fahrzeugtelemetrie und Kundeninformationen – das Kernkapital sind, das Produktverbesserungen und Kundenerlebnisse vorantreibt.
Die Notwendigkeit des Datenaustauschs: Um dieses datengetriebene Fahrzeug zu bauen, müssen verschiedene Geschäftsbereiche wie Forschung und Entwicklung (F&E), After-Sales und Marketing Daten nahtlos, sicher und kostengünstig austauschen können. Mercedes-Benz wollte frühere, unsichere oder ineffiziente Methoden wie FTP-Server und E-Mail für den Datentransfer durch einen robusten, zentralen Marktplatz für den Datenaustausch ersetzen.
Die kritische Herausforderung ergab sich aus der Multi-Cloud-Architektur des Unternehmens (AWS und Azure). Datennutzer auf Azure benötigten Zugriff auf große, häufig aktualisierte After-Sales-Datensätze, die primär in AWS gespeichert waren. Dieser Cross-Cloud-Zugriff führte zu hohen Egress-Kosten und stellte erhebliche technische Hürden für die Gewährleistung der Datenaktualität dar.
Die Geschäftliche Herausforderung: Hohe Egress-Kosten und Datensilos
Mercedes-Benz betreibt ein Multi-Cloud-Setup und nutzt AWS und Azure sowie ein Multi-Region-Setup innerhalb dieser Clouds. Dieser Ansatz ermöglicht es ihnen, die Hyperscaler-Dienste auszuwählen, die am besten zu spezifischen technischen Anforderungen passen.
Ein entscheidendes Beispiel betrifft ihre After-Sales-Daten, die Informationen von Over-the-Air-Ereignissen im Fahrzeug und Werkstattbesuchen umfassen. Diese Daten sind entscheidend für die Verbesserung von Komponenten in Forschung und Entwicklung (F&E) und die Analyse von Garantieansprüchen.
Datenvolumen: Die Kern-After-Sales-Daten sind umfangreich, wobei ein Teil von etwa 60 TB benötigt wird, um Dutzende von Anwendungsfällen auf Azure zu bedienen. Dieses Volumen wächst ständig.
Kostenbarriere: Wenn Azure-basierte Nutzer direkt auf diesen großen Datensatz in AWS zugriffen, wurden die Egress-Kosten für kostenbewusste Anwendungsfälle zu einem Faktor. Während der direkte Zugriff für bestimmte Echtzeit-Analysebedürfnisse geeignet war, suchte das Team nach einem wirtschaftlicheren Ansatz für weniger zeitkritische Workloads.
Datenlatenz und Aktualität: Vor der neuen Lösung wurde der gesamte Datensatz oft als wöchentlicher Full Load kopiert. Datennutzer forderten häufigere Aktualisierungen, aber tägliche Full Loads waren zu teuer. Eine Verzögerung von sieben Tagen könnte bei der Reaktion auf Garantieansprüche kritisch sein.
Kompatibilität des Datenformats: Die Originaldaten auf AWS lagen im Iceberg-Format vor, während viele Datennutzer auf der Azure-Seite ein Delta-kompatibles Format erwarteten.
Die Lösung: Eine hybride Delta Sharing- und Replikationsstrategie
Mercedes-Benz implementierte eine technische Lösung, die die sichere Datenaustauschfähigkeit von Databricks Delta Sharing mit einem gesteuerten lokalen Replikationsmechanismus (Delta Deep Clone) kombinierte, um die wiederkehrenden Egress-Kosten für den Austausch großer, stark nachgefragter Datensätze zu bewältigen.
Unity Catalog und Delta Sharing: Das Fundament
Die Lösung basiert auf der Databricks Data Intelligence Platform, die auf Unity Catalog (UC) und Delta Sharing aufbaut.
Unity Catalog (UC): UC fungiert als globaler Katalog für alle Datenprodukte im Unternehmen. Es zentralisiert Metadaten, verwaltet den Zugriff und ermöglicht ein "Hub-and-Spoke"-Governance-Modell, wodurch Daten für andere transparent werden, während die Kontrolle gewahrt bleibt. UC vereinfachte auch den Prozess, indem Tabellen von AWS Glue federiert und direkt in Unity registriert wurden, um den Datenaustausch auszulösen.
Delta Sharing: Delta Sharing dient als offenes Protokoll für den sicheren Datenaustausch zwischen verschiedenen UC Metastores, über verschiedene Regionen und Hyperscaler hinweg (AWS nach Azure). Es wurde gewählt, da es eine Open-Source-Technologie ist und inkrementelle Datenaktualisierungen unterstützt.
Delta Sharing wird in drei Hauptkonfigurationen innerhalb des Mercedes-Benz Data Mesh verwendet:
Cross-Cloud/Cross-Hyperscaler Sharing: Dies ist der primäre Anwendungsfall, der die Lücke zwischen AWS und Azure schließt. Er nutzt die einheitliche Databricks-Plattform auf beiden Seiten, um dieselbe Technologie über Clouds hinweg zu verwenden.
Cross-Region/Cross-Metastore Sharing: Delta Sharing wird intern zwischen verschiedenen Regionen in derselben Cloud verwendet.
Externes Sharing: Die Lösung ermöglicht den Datenaustausch mit externen Partnern, wie z. B. Lieferanten, die ebenfalls Databricks oder Delta Sharing verwenden. Dies ist eine sicherere Möglichkeit, Daten zu empfangen, als Geheimnisse herumzusenden oder FTP zu verwenden.
Hybrider Ansatz: Lokale Replikation zur Minimierung von Egress
In dem Wissen, dass nicht alle Anwendungsfälle Echtzeit-Datenaktualität erfordern, entwickelte Mercedes-Benz einen gesteuerten, inkrementellen Replikationsansatz für große, stark genutzte Datensätze, bei denen Kosteneffizienz Vorrang vor Aktualität unterhalb einer Stunde hatte.
Cross-Cloud Share: Delta Sharing wird zwischen dem Provider Metastore (AWS) und dem Recipient Metastore (Azure) konfiguriert.
Periodischer Sync Job: Automatisierte Sync Jobs laufen periodisch und nutzen Delta Deep Clone, um Replikate der freigegebenen Tabellen im Objektspeicher der Empfänger-Cloud (ADLS/S3) zu speichern.
Inkrementelle Updates: Deep Clone ermöglicht es, Daten inkrementell zu aktualisieren, sodass der gesamte Datensatz nicht ständig kopiert wird, was Kosten spart.
Lokale Nutzung: Datennutzer auf Azure fragen die replizierten Daten lokal auf Azure ab, was die plattformübergreifende Datenbewegung und die damit verbundenen hohen Egress-Kosten drastisch reduziert.
Diese Architektur spiegelt die Kernstärke von Delta Sharing wider: Flexibilität. Benutzer können zwischen hoher Datenaktualität mit höheren Kosten (direkte Delta Shares) oder geringer Datenaktualität mit minimalen Kosten und Latenz (lokal replizierte Daten) wählen. Dieser gestufte Ansatz ermöglicht es Mercedes-Benz, verschiedene Anwendungsfälle effizient zu bedienen.
Technische Implementierung und Best Practices
Das Team hatte die End-to-End-Lösung in nur wenigen Wochen einsatzbereit. Um Skalierbarkeit, Sicherheit und eine genaue Kostenverwaltung zu gewährleisten, berücksichtigte Mercedes-Benz mehrere operative und architektonische Best Practices:
Dynamic Data eXchange (DDX) Orchestrator: DDX spielt eine zentrale Rolle als Self-Service-Metakatalog. DDX automatisiert die Berechtigungsverwaltung (Erteilung von Berechtigungen über Microservices und Databricks APIs), die Verwaltung von Sync Jobs und Workflows für Datenaustausch/Replikation.
Automatisierung mit Databricks Asset Bundles (DABs): Die Bereitstellung von Sync Jobs und die Konfiguration sind vollständig automatisiert mit DABs und YAML-gesteuerten Deployments über Azure DevOps. Dies gewährleistet einen robusten, vollständigen DevOps-Ansatz.
Kostenverfolgung und -zuordnung: Die Sync Jobs zeichnen die genaue Menge der übertragenen Daten auf. Ein separater Reporting Job aggregiert diese Daten täglich, um die ungefähren Egress-Kosten pro Datenprodukt zu berechnen, die dann zur Abrechnung der vorgelagerten Datenerzeuger verwendet werden. Dieses Kosten-Dashboard verfolgt auch die Compute-Kosten für die Sync Jobs.
DSGVO und Governance: Die Lösung adressiert DSGVO-Bedenken durch die Verwendung der Delta Lake VACUUM-Funktionalität auf den replizierten Tabellen, wodurch sichergestellt wird, dass Datenlöschungen auf der Quellseite auf der Empfängerseite reflektiert werden.
Quantitative Vorteile und ROI
Die Cross-Cloud-Data-Mesh-Lösung lieferte signifikante und messbare Geschäftsergebnisse und veränderte das Wirtschaftsmodell für den Datenaustausch bei Mercedes-Benz.
1. Reduzierte Betriebskosten / Egress-Kosten
Durch die Nutzung der inkrementellen Update-Fähigkeiten von Delta Sharing und intelligenter Replikation über Deep Clone optimierte Mercedes-Benz die Datenaktualität und reduzierte gleichzeitig die Egress-Kosten.
Reduzierung der Egress-Kosten: Die Egress-Kosten für die ersten 10 Datenprodukte sanken um 66%.
ROI auf Egress: Dies stellt eine Reduzierung der wöchentlichen Egress-Kosten um etwa zwei Drittel dar. Unter Berücksichtigung desselben Berechnungsbeispiels für 50 Anwendungsfälle von oben für den direkten Datenverbrauch aus AWS wurden die ungefähren jährlichen Egress-Kosten um 93% reduziert.
2. Erhöhte Datenaktualität und Geschäftsagilität
Die Fähigkeit, Daten inkrementell zu synchronisieren, ermöglichte eine drastische Erhöhung der Aktualisierungshäufigkeit für Azure-Konsumenten.
Verbesserte Aktualität: Datenkonsumenten erhalten nun häufiger frische Daten (z. B. jeden zweiten Tag), anstatt volle sieben Tage zu warten. Dies verhindert kritische Verzögerungen bei der Reaktion auf Probleme wie Garantieansprüche.
3. Reduzierte IT-Betriebskosten
Die Verwendung von vollständig Serverless Databricks Jobs für den Synchronisierungsprozess senkte die Rechenkosten und den operativen Overhead.
Operative Stabilität: Die Jobs laufen "mehr oder weniger problemlos und ohne Eingriffe", was die IT-Betriebskosten minimiert.
Strategische Auswirkung: Das datendefinierte Fahrzeug
Das zentralisierte und kosteneffiziente Datenfreigabe-Framework ist entscheidend für die Vision von Mercedes-Benz vom "datendefinierten Fahrzeug".
Delta Sharing und das daraus resultierende Daten-Mesh helfen, bisher isolierte Datenquellen wie After-Sales-Daten mit Kollegen aus Forschung und Entwicklung, Marketing und Vertrieb zu verbinden. Dies schafft eine ganzheitliche Sicht auf das Fahrzeug und den Kunden und beschleunigt die Mission des Unternehmens in Richtung Digitalisierung und Elektrifizierung seiner Produktlinie.
Möchten Sie erfahren, wie Mercedes-Benz die Flexibilität von Delta Sharing genutzt hat, um sein Cross-Cloud-Daten-Mesh zu optimieren? Sehen Sie sich die Präsentation von Alexander Summa vom Data + AI Summit an:
In dieser Sitzung erfahren Sie mehr über die technische Architektur, Implementierungsherausforderungen und gewonnenen Erkenntnisse aus der Bereitstellung dieser Lösung in großem Maßstab.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.)Originalbeitrag
Erhalten Sie die neuesten Beiträge in Ihrem Posteingang
Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.