• Bayer Consumer Health ha creato una piattaforma di dati unica e governata utilizzando Databricks e Unity Catalog per eliminare i silos di dati e abilitare le analitiche self-service globali.
• Con 7 domini di business organizzati attorno a data asset principali condivisi, Bayer ha semplificato la gestione dei dati e ha accelerato la delivery delle analitiche.
• Un unico endpoint di reporting ora consente un reporting agevole sull'intero patrimonio di dati.
Bayer è un'azienda specializzata in scienze della vita e leader mondiale nei settori della salute e dell'alimentazione, attiva in oltre 100 mercati in 83 paesi. Guidata dalla sua missione, "Salute per tutti, fame per nessuno", Bayer si è posta l'obiettivo di offrire ai suoi 92.500 dipendenti un accesso sicuro e rilevabile ai dati su vasta scala. Cinque anni fa, sistemi frammentati rendevano questo obiettivo quasi impossibile e i team della divisione Consumer Health non riuscivano a utilizzare correttamente i dati per i processi decisionali. Adottando Databricks e Unity Catalog, la divisione Consumer Health di Bayer ha creato un'unica piattaforma dati governata che consente le analitiche self-service senza silos di dati.
Con Databricks, stiamo costruendo asset di base riutilizzabili, abilitando le analitiche self-service e promuovendo un'organizzazione basata sui dati che fornisce informazioni dettagliate per tutti, senza alcun silo di dati.— André Wuthenow, Principal Cloud Platform Architect, Bayer
In quanto azienda distribuita a livello globale, la precedente configurazione di analitiche dei dati di Bayer era frammentata tra i vari mercati, ognuno dei quali utilizzava il proprio stack tecnologico per scopi diversi. Quando i dati dovevano essere condivisi, venivano spesso copiati, a volte più volte, in quello che Bayer chiama "turismo dei dati". Il turismo dei dati ha portato a un aumento dei costi di gestione dei dati e a un'implementazione più lenta di nuove soluzioni. Questa complessità, insieme a problemi di prestazioni, ha portato a una bassa adozione delle soluzioni che l'IT di Bayer poteva fornire e ha messo in discussione la capacità dell'azienda di prendere decisioni basate sui dati. Oltre ai costi e alle prestazioni, il turismo dei dati rendeva difficile capire chi utilizzava quali dati, applicare controlli di accesso coerenti o riutilizzare con sicurezza asset affidabili tra i vari mercati.
Inoltre, Bayer ha affrontato sfide significative nello sfruttare gli strumenti di analisi dei dati più recenti, come il machine learning. “I sistemi necessari per supportare il machine learning hanno aggiunto un costo aggiuntivo e un onere di manutenzione perché dovevamo spostare il machine learning su una piattaforma completamente dedicata su uno stack di tecnologia diverso, in un data center diverso, su un diverso tipo di scaler, quindi non potevamo davvero utilizzare correttamente il machine learning in quel momento”, ha affermato André Wuthenow, Principal Cloud Platform Architect, presso Bayer.
Nella ricerca di una soluzione a queste sfide, l'organizzazione Data & analitiche di Bayer Consumer Health sapeva di dover creare una piattaforma dati globale e scalabile. Con oltre 2.000 utenti aziendali e 25 zone operative in tre regioni globali, supportate da più di 250 ingegneri di machine learning e Dati, Bayer aveva bisogno di un sistema basato su cloud che potesse sfruttare la tecnologia serverless ove possibile. “È stato importante assicurarsi che le nostre soluzioni scalassero con qualsiasi volume di dati e numero di utenti simultanei per garantire a tutti le migliori prestazioni e risultati immediati”, ha affermato Wuthenow. Una soluzione basata su cloud sarebbe anche sostenibile dal punto di vista economico, garantendo che Bayer paghi solo per ciò che utilizza, e darebbe all'azienda la flessibilità di provare nuovi servizi su piccola scala prima di implementarli come standard globale.
Bayer Consumer Health ha scelto Databricks come base per la propria piattaforma dati, potenziata con i servizi Azure per l'acquisizione dei dati, l'archiviazione e altro. Tutta la trasformazione e la pulizia dei dati vengono eseguite in Databricks, garantendo che i dati grezzi siano trasformati in data asset riutilizzabili, di qualità controllata e affidabili. Con questa soluzione, Bayer può anche rendere disponibili Azure ML e altri servizi di Azure AI affinché i suoi sviluppatori possano sfruttarli.
Databricks fornisce una piattaforma unificata e integrata per soddisfare le esigenze dei Data Engineers di Bayer, sia che stiano creando report BI, soluzioni ML o applicazioni di analisi. Con Databricks come piattaforma unificata, Bayer può eseguire più progetti con molti team che lavorano in parallelo senza influenzarsi negativamente a vicenda. Ogni team può gestire in modo indipendente il ciclo di vita dei nuovi prodotti di dati. Dato che i suoi mercati locali avrebbero avuto esigenze di dati uniche, diverse dalle analitiche globali, era necessario un sistema che centralizzasse tutti i suoi dati per evitare copie multiple e il "turismo dei dati", fornendo allo stesso tempo a ogni team la flessibilità di sfruttare i dati in modi adatti ai rispettivi mercati. “Abbiamo sfruttato Databricks per creare ambienti basati su template con istanze di servizio dedicate che garantiscono un adeguato isolamento delle risorse e la gestione del ciclo di vita”, ha affermato Wuthenow.
Unity Catalog fornisce il livello di governance e metadati centralizzato per questi ambienti, consentendo di governare una sola volta gli asset di dati principali e permettendo ai team di utilizzarli e riutilizzarli in modo sicuro tra progetti e regioni.
Con l'introduzione di Unity Catalog in sostituzione del loro Hive Metastore, Bayer è passata da un approccio alla Data Sharing di tipo push a uno di tipo pull. I consumatori di dati necessitano solo dell'autorizzazione per accedere ad asset di dati principali, governati e affidabili. Pertanto, ogni team di dominio dati può definire autonomamente cosa condividere e con chi, senza copiare i dati tra gli ambienti. Con l'introduzione del serverless in combinazione con Unity Catalog, Bayer Consumer Health ha abilitato la connettività sicura dal proprio ambiente di sviluppo agli asset di dati principali di produzione. Ciò ha permesso ai Data Engineer di creare nuove soluzioni nel loro ambiente di sviluppo con dati di qualità produttiva, portando a un time-to-market più rapido per le nuove soluzioni di analisi, pur applicando misure di esfiltrazione dei dati. «Unity Catalog è stato un punto di svolta per noi», ha affermato Wuthenow. «Il nuovo modello ci consente di garantire facilmente che i data product in tutte le fasi dispongano dei dati più recenti, il che accelera la creazione e il test di nuove soluzioni perché gli ingegneri possono utilizzare dati di qualità produttiva per testare le loro soluzioni».
Bayer Consumer Health ha inoltre introdotto un endpoint di reporting centrale che si collega a tutti i suoi cataloghi. Dato che i Core Data Asset globali sono gestiti in un'unica regione, i dipendenti possono facilmente individuare e combinare dati tra domini diversi attraverso un unico punto di accesso gestito, garantendo che le analitiche self-service siano scalabili senza reintrodurre silo o definizioni incoerenti.
Con Databricks e Unity Catalog, Bayer Consumer Health ha stabilito standard condivisi per l'accesso ai dati, la denominazione e la sicurezza, pur mantenendo la flessibilità. La governance è integrata nella piattaforma anziché essere applicata a posteriori, consentendo di scalare le analitiche self-service in tutta sicurezza. Come afferma Wuthenow, «Stiamo costruendo asset principali riutilizzabili, abilitando le analitiche self-service e promuovendo un'organizzazione guidata dai dati che fornisce informazioni dettagliate per tutti, senza silos di dati per nessuno».
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
