Publié: 4 mars 2026
par Kenneth Schoth , Julius Stahnke et Kelly Albano
• Bayer Consumer Health a créé une plateforme de données unique et gouvernée à l'aide de Databricks et d'Unity Catalog pour éliminer les silos de données et permettre l'analytique en libre-service à l'échelle mondiale.
• Avec 7 domaines d'activité organisés autour d'assets de données principaux partagés, Bayer a simplifié la gestion des données et accéléré la fourniture de l'analytique.
• Un point de terminaison de reporting unique permet désormais un reporting pratique sur l'ensemble du patrimoine de données.
Bayer est une entreprise du secteur des sciences de la vie et un leader mondial dans les domaines de la santé et de la nutrition, présente sur plus de 100 marchés dans 83 pays. Guidé par sa mission — « La santé pour tous, la faim pour personne » —, Bayer a entrepris de fournir à ses 92 500 employés un accès sécurisé et découvrable aux données à grande échelle. Il y a cinq ans, des systèmes fragmentés rendaient cela quasi impossible, et les équipes de la division Santé Grand Public ne parvenaient pas à utiliser correctement les données pour la prise de décision. En adoptant Databricks et Unity Catalog, Bayer Santé Grand Public a créé une plateforme de données unique et gouvernée qui permet l'analytique en libre-service sans silos de données.
Avec Databricks, nous créons des assets fondamentaux réutilisables, mettons en place l'analytique en libre-service et favorisons une organisation data-driven qui fournit des insights pour tous, sans aucun silo de données.— André Wuthenow, architecte principal de la plateforme cloud, Bayer
En tant qu'entreprise d'envergure mondiale, la précédente configuration d'analytique des données de Bayer était fragmentée entre les différents marchés, chacun utilisant sa propre stack technologique à des fins différentes. Lorsque des données devaient être partagées, elles étaient souvent copiées, parfois plusieurs fois, dans le cadre de ce que Bayer appelle le « tourisme de données ». Le tourisme de données a entraîné une augmentation des coûts de gestion de données et un ralentissement de la mise en œuvre de nouvelles solutions. Cette complexité, ainsi que des problèmes de performances, ont entraîné une faible adoption des Solutions que Bayer IT pouvait fournir et ont nui à la capacité de l'entreprise à prendre des décisions data-driven. Au-delà des coûts et des performances, le tourisme de données a rendu difficile la compréhension de qui utilisait quelles données, l'application de contrôles d'accès cohérents ou la réutilisation en toute confiance d'assets fiables sur les différents marchés.
De plus, Bayer a été confronté à d'importants défis pour exploiter les derniers outils d'analyse de données, tels que le machine learning. « Les systèmes nécessaires pour prendre en charge le machine learning ont ajouté un coût et une charge de maintenance supplémentaires, car nous devions déplacer le machine learning vers une plateforme entièrement dédiée sur une pile technologique différente, dans un data center différent et sur un autre type de scaler. Nous ne pouvions donc pas vraiment utiliser correctement le machine learning à ce moment-là », a déclaré André Wuthenow, architecte principal de la plateforme cloud chez Bayer.
En cherchant une solution à ces défis, l'organisation Bayer Consumer Health Data & analytique savait qu'elle devait construire une plateforme de données mondiale et évolutive. Avec plus de 2 000 utilisateurs professionnels et 25 zones réparties dans trois régions du monde, soutenus par plus de 250 ingénieurs en machine learning et en données, Bayer avait besoin d'un système basé sur le cloud capable d'exploiter la technologie serverless dans la mesure du possible. « Il était important de s'assurer que nos solutions montent en charge avec n'importe quel volume de données et au nombre d'utilisateurs simultanés afin de garantir à chacun les meilleures performances et des résultats immédiats », a déclaré Wuthenow. Une solution basée sur le cloud serait également judicieuse sur le plan financier, garantissant que Bayer ne paie que pour ce qu'elle utilise, et offrirait à l'entreprise la flexibilité d'essayer de nouveaux services à petite échelle avant de les déployer en tant que norme mondiale.
Bayer Santé Grand Public a choisi Databricks comme fondation pour sa plateforme de données, améliorée par les services Azure pour l'ingestion, le stockage de données et autres. Toute la transformation et le nettoyage de données sont effectués dans Databricks, garantissant que les données brutes sont transformées en assets de données réutilisables, de qualité contrôlée et fiables. Grâce à cette solution, Bayer peut également proposer Azure ML et d'autres services Azure AI à ses développeurs pour qu'ils puissent les exploiter.
Databricks fournit une plateforme unifiée et intégrée pour répondre aux besoins des data engineers de Bayer, qu'ils créent des rapports BI, des Solutions de ML ou des applications analytiques. Avec Databricks comme plateforme unifiée, Bayer peut exécuter plusieurs projets en parallèle sur lesquels travaillent de nombreuses équipes, sans qu'elles n'interfèrent les unes avec les autres. Chaque équipe peut gérer indépendamment le cycle de vie des nouveaux produits de données. Étant donné que les marchés locaux avaient des besoins en données spécifiques, distincts de l'analytique globale, il fallait un système qui centraliserait toutes les données pour éviter les copies multiples et le « tourisme de données », tout en laissant à chaque équipe la flexibilité d'exploiter ces données de la manière la plus adaptée à son marché. « Nous avons utilisé Databricks pour créer des environnements basés sur des templates avec des instances de service dédiées qui assurent une isolation adéquate des Ressources et la gestion de leur cycle de vie », a déclaré Wuthenow.
Unity Catalog fournit la couche de gouvernance et de métadonnées centralisée pour ces environnements, ce qui permet de gouverner les data assets principaux une seule fois tout en autorisant les équipes à les consommer et à les réutiliser en toute sécurité dans l'ensemble des projets et des régions.
Avec l'introduction d'Unity Catalog en remplacement de son Hive Metastore, Bayer est passé d'une approche de Data Sharing push à une approche pull. Les consommateurs de données n'ont besoin que d'une autorisation pour accéder aux actifs de données principaux gouvernés et fiables. Ainsi, chaque équipe de domaine de données peut définir elle-même ce qu'elle partage et avec qui, sans copier les données entre les environnements. Avec l'introduction du serverless en association avec Unity Catalog, Bayer Consumer Health a mis en place une connectivité sécurisée entre son environnement de développement et les assets de données principaux de production. Cela a permis aux data engineers de créer de nouvelles solutions dans leur environnement de développement avec des données de production, ce qui a accéléré la mise sur le marché de nouvelles solutions d'analytique, tout en appliquant des mesures contre l'exfiltration de données. « Unity Catalog a changé la donne pour nous », a déclaré Wuthenow. « Le nouveau modèle nous permet de garantir facilement que les produits de données disposent des données les plus récentes à toutes les étapes, ce qui accélère la création et le test de nouvelles solutions, car les ingénieurs peuvent utiliser des données de production pour tester leurs solutions. »
Bayer Consumer Health a également mis en place un endpoint de reporting central qui est relié à tous ses catalogues. Comme les assets de données principaux mondiaux sont gérés dans une seule région, les employés peuvent facilement découvrir et combiner des données entre les domaines par le biais d'un point d'entrée unique et gouverné, ce qui garantit que l'analytique en libre-service monte en charge sans réintroduire de silos ou de définitions incohérentes.
Avec Databricks et Unity Catalog, Bayer Consumer Health a établi des normes communes pour l'accès aux données, les conventions de nommage et la sécurité, tout en préservant la flexibilité. La gouvernance est intégrée à la plateforme plutôt qu'appliquée a posteriori, ce qui permet de monter en charge l'analytique en libre-service en toute confiance. Comme le dit Wuthenow : « Nous créons des actifs de base réutilisables, permettant l'analyse en libre-service et favorisant une organisation data-driven qui fournit des informations à tous, sans aucun silo de données. »
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
