Mercedes-Benz Costruisce una Data Mesh Cross-Cloud con Delta Sharing e Replication Intelligente, Riducendo i Costi del 66%
Come una casa automobilistica di lusso ha costruito una data mesh cross-cloud e cross-region utilizzando Delta Sharing, bilanciando freschezza e costi di egress con la replication intelligente
Mercedes-Benz ha creato una mesh di dati cross-cloud con Databricks Delta Sharing e replica locale (Delta Deep Clone) per scambiare in modo sicuro dati post-vendita tra AWS e Azure.
La flessibilità di Delta Sharing consente a Mercedes-Benz di ottimizzare sia la freschezza che i costi di uscita tra cloud e regioni.
Per set di dati di grandi dimensioni a cui si accede frequentemente, Mercedes Benz ha utilizzato Deep Clone su Delta Sharing per aggiornare in modo intelligente e incrementale i dati, riducendo i costi di uscita del 66%.
Mercedes-Benz, uno dei marchi automobilistici di lusso più riconoscibili al mondo, sta attualmente affrontando due importanti cambiamenti nel settore: la digitalizzazione e la transizione verso i veicoli elettrici. Quest'era è definita dal concetto di "veicolo definito dai dati".
Dall'Hardware ai Dati: In passato, i veicoli erano definiti dall'hardware, poi dal software, ma ora l'industria sta entrando nell'era dei veicoli definiti dai dati. Questo cambiamento significa che i dati, comprese le informazioni di telemetria del veicolo e quelle sui clienti, sono l'asset principale che guida il miglioramento del prodotto e l'esperienza del cliente.
La Necessità della Condivisione dei Dati: Per costruire questo veicolo definito dai dati, diverse unità aziendali, come Ricerca e Sviluppo (R&S), Post-vendita e Marketing, devono essere in grado di condividere i dati in modo fluido, sicuro ed economicamente vantaggioso. Mercedes-Benz mirava a sostituire i precedenti metodi insicuri o inefficienti, come server FTP ed email per il trasferimento dei dati, con un marketplace di condivisione dati centrale e robusto.
La sfida critica è sorta dall'architettura multi-cloud dell'azienda (AWS e Azure). I consumatori di dati su Azure necessitavano di accedere a grandi set di dati post-vendita, frequentemente aggiornati, archiviati principalmente su AWS. Questo accesso cross-cloud comportava costi di egress elevati e poneva significative difficoltà tecniche per garantire l'aggiornamento dei dati.
La Sfida Aziendale: Alti Costi di Egress e Silos di Dati
Mercedes-Benz opera in un ambiente multi-cloud, utilizzando AWS e Azure, insieme a una configurazione multi-regione all'interno di questi cloud. Questo approccio consente loro di selezionare i servizi hyperscaler che meglio si adattano a specifici requisiti tecnici.
Un esempio cruciale riguarda i loro dati post-vendita, che includono informazioni dagli eventi over-the-air del veicolo e dalle visite in officina. Questi dati sono vitali per migliorare i componenti nella ricerca e sviluppo (R&S) e per analizzare i casi di garanzia.
Volume dei Dati: I dati post-vendita principali sono considerevoli, con un sottoinsieme di circa 60 TB necessario per servire dozzine di casi d'uso in esecuzione su Azure. Questo volume è in continua crescita.
Barriera dei Costi: Quando i consumatori basati su Azure interrogavano direttamente questo grande set di dati residente su AWS, i costi di egress diventavano una considerazione per i casi d'uso attenti ai costi. Sebbene l'accesso diretto fosse adatto per alcune esigenze di analisi in tempo reale, il team cercava un approccio più economico per carichi di lavoro meno sensibili al tempo.
Latenza e Aggiornamento dei Dati: Prima della nuova soluzione, l'intero set di dati veniva spesso copiato come caricamento completo settimanale. I consumatori di dati richiedevano aggiornamenti più frequenti, ma i caricamenti completi giornalieri erano troppo costosi. Un ritardo di sette giorni poteva essere critico quando si trattava di rispondere ai casi di garanzia.
Compatibilità del Formato Dati: I dati originali su AWS erano nel formato Iceberg, mentre molti consumatori di dati sul lato Azure si aspettavano un formato compatibile con Delta.
La Soluzione: Una Strategia Ibrida di Delta Sharing e Replica
Mercedes-Benz ha implementato una soluzione tecnica che combinava la capacità di scambio dati sicuro di Databricks Delta Sharing con un meccanismo di replica locale controllato (Delta Deep Clone) per affrontare i costi ricorrenti di egress associati alla condivisione di set di dati di grandi dimensioni e molto richiesti.
Unity Catalog e Delta Sharing: Le Fondamenta
La soluzione è ancorata alla Databricks Data Intelligence Platform, costruita su Unity Catalog (UC) e Delta Sharing.
Unity Catalog (UC): UC funziona come il catalogo globale per tutti i prodotti dati dell'intera azienda. Centralizza i metadati, gestisce l'accesso e abilita un modello di governance "hub-and-spoke", consentendo ai dati di diventare trasparenti per gli altri pur mantenendo il controllo. UC ha anche semplificato il processo federando tabelle da AWS Glue, registrandole direttamente in Unity per attivare la condivisione dei dati.
Delta Sharing: Delta Sharing funge da protocollo aperto per lo scambio sicuro di dati tra diversi Metastore UC, attraverso varie regioni e tra hyperscaler (AWS verso Azure). È stato scelto perché è una tecnologia open source e supporta gli aggiornamenti incrementali dei dati.
Delta Sharing viene utilizzato in tre configurazioni principali all'interno del data mesh di Mercedes-Benz:
Condivisione Cross-Cloud/Cross-Hyperscaler: Questo è il caso d'uso principale, che colma il divario tra AWS e Azure. Sfrutta la piattaforma Databricks unificata su entrambi i lati per utilizzare la stessa tecnologia tra i cloud.
Condivisione Cross-Regione/Cross-Metastore: Delta Sharing viene utilizzato internamente tra diverse regioni nello stesso cloud.
Condivisione Esterna: La soluzione consente la condivisione di dati con partner esterni, come i fornitori, che potrebbero anche utilizzare Databricks o Delta Sharing. Questo è un modo più sicuro per ricevere dati rispetto all'invio di segreti o all'uso di FTP.
Approccio Ibrido: Replica Locale per Minimizzare l'Egress
Riconoscendo che non tutti i casi d'uso richiedono l'aggiornamento dei dati in tempo reale, Mercedes-Benz ha progettato un approccio di replica incrementale controllata per set di dati di grandi dimensioni e molto accessibili, dove l'efficienza dei costi era prioritaria rispetto all'aggiornamento dei dati in meno di un'ora.
Condivisione Cross-Cloud: Delta Sharing è configurato tra il Metastore del Provider (AWS) e il Metastore del Destinatario (Azure).
Processo di Sincronizzazione Periodico: I Processi di Sincronizzazione automatizzati vengono eseguiti periodicamente, utilizzando Delta Deep Clone per persistere le repliche delle tabelle condivise nello storage oggetti del cloud destinatario (ADLS/S3).
Aggiornamenti Incrementali: Deep Clone abilita il processo di aggiornamento incrementale dei dati, in modo che l'intero set di dati non venga copiato continuamente, risparmiando sui costi.
Consumo Locale: I consumatori di dati su Azure interrogano i dati replicati localmente su Azure, riducendo drasticamente il movimento dei dati cross-cloud e gli elevati costi di egress associati.
Questa architettura riflette il punto di forza principale di Delta Sharing: la flessibilità. Gli utenti possono scegliere tra un elevato aggiornamento dei dati con costi maggiori (condivisioni Delta dirette) o un basso aggiornamento dei dati con costi e latenza minimi (dati replicati localmente). Questo approccio a livelli consente a Mercedes-Benz di servire diversi casi d'uso in modo efficiente.
Implementazione Tecnica e Best Practice
Il team ha avuto la soluzione end-to-end pronta in poche settimane. Per garantire scalabilità, sicurezza e una gestione accurata dei costi, Mercedes-Benz ha incorporato diverse best practice operative e architetturali:
Orchestratore Dynamic Data eXchange (DDX): DDX svolge un ruolo centrale come meta-catalogo self-service. DDX automatizza la gestione delle autorizzazioni (concessione di autorizzazioni tramite microservizi e API Databricks), la gestione dei processi di sincronizzazione e i flussi di lavoro di condivisione/replica dei dati.
Automazione con Databricks Asset Bundles (DAB): Il deployment dei processi di sincronizzazione e la configurazione sono completamente automatizzati utilizzando DAB e deployment basati su YAML tramite Azure DevOps. Ciò garantisce un approccio DevOps completo e robusto.
Tracciamento e Attribuzione dei Costi: I processi di sincronizzazione registrano l'esatta quantità di dati trasferiti. Un Processo di Reporting separato aggrega questi dati giornalmente per calcolare il costo di egress approssimativo per Data Product, che viene quindi utilizzato per fatturare ai produttori di dati upstream. Questa dashboard dei costi traccia anche i costi di calcolo per i processi di sincronizzazione.
GDPR e Governance: La soluzione affronta le preoccupazioni relative al GDPR utilizzando la funzionalità VACUUM di Delta Lake sulle tabelle replicate, garantendo che le eliminazioni di dati sul lato sorgente si riflettano sul lato destinatario.
Benefici Quantitativi e ROI
La soluzione di data mesh cross-cloud ha prodotto risultati aziendali significativi e misurabili, trasformando il modello economico per la condivisione dei dati in Mercedes-Benz.
1. Riduzione OPEX / Costi di Egress
Sfruttando le capacità di aggiornamento incrementale di Delta Sharing e la replica intelligente tramite Deep Clone, Mercedes-Benz ha ottimizzato l'aggiornamento dei dati riducendo i costi di egress.
Riduzione dei Costi di Egress: I costi di egress per i primi 10 data product sono diminuiti del 66%.
ROI sull'Egress: Questo rappresenta una riduzione di circa due terzi dei costi di egress settimanali. Considerando lo stesso esempio di calcolo per 50 casi d'uso dal precedente per il consumo diretto di dati da AWS, il costo annuale approssimativo di egress è stato ridotto del 93%.
2. Maggiore Freschezza dei Dati e Agilità Aziendale
La capacità di sincronizzare i dati in modo incrementale ha permesso di aumentare drasticamente la frequenza degli aggiornamenti per i consumatori Azure.
Migliore Freschezza: I consumatori di dati ora ricevono dati freschi più frequentemente (ad esempio, ogni due giorni), invece di aspettare sette giorni interi. Ciò previene ritardi critici nel reagire a problemi come i casi di garanzia.
3. Riduzione dei Costi Operativi IT
L'uso di processi Databricks completamente Serverless per la sincronizzazione ha ridotto le spese di calcolo e l'overhead operativo.
Stabilità Operativa: I processi vengono eseguiti "più o meno senza problemi e senza alcun intervento", minimizzando i costi operativi IT.
Impatto Strategico: Il Veicolo Definito dai Dati
Il framework centralizzato ed economicamente vantaggioso per la condivisione dei dati è essenziale per la visione di Mercedes-Benz del "veicolo definito dai dati".
Delta Sharing e la conseguente data mesh aiutano a connettere fonti di dati precedentemente isolate, come i dati post-vendita, con i colleghi di ricerca e sviluppo, marketing e vendite. Ciò crea una visione olistica del veicolo e del cliente, accelerando la missione dell'azienda verso la digitalizzazione e l'elettrificazione della sua linea di prodotti.
Vuoi scoprire come Mercedes-Benz ha sfruttato la flessibilità di Delta Sharing per ottimizzare la propria data mesh cross-cloud? Guarda la presentazione di Alexander Summa dal Data + AI Summit:
In questa sessione, scoprirai di più sull'architettura tecnica, le sfide di implementazione e le lezioni apprese dalla distribuzione di questa soluzione su larga scala.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale)Post originale
Ricevi gli ultimi articoli nella tua casella di posta
Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.