Ir al contenido principal

Bayer Consumer Health escala los análisis globales de autoservicio con Unity Catalog

Blog: Bayer Consumer Health scales global self-service analytics with Unity Catalog

Publicado: 4 de marzo de 2026

Salud y ciencias biológicas6 min de lectura

Summary

• Bayer Consumer Health creó una única plataforma de datos gobernada con Databricks y Unity Catalog para eliminar los silos de datos y permitir el análisis de autoservicio a nivel mundial.
• Con 7 dominios de negocio organizados en torno a activos de datos centrales compartidos, Bayer simplificó la gestión de datos y aceleró la entrega de análisis.
• Un único punto de conexión para informes ahora permite la generación de informes de forma práctica en todo el patrimonio de datos.

Bayer es una empresa de ciencias de la vida y un líder mundial en el cuidado de la salud y la nutrición, con presencia en más de 100 mercados en 83 países. Guiada por su misión, «salud para todos, hambre para nadie», Bayer se ha propuesto brindar a sus 92,500 empleados acceso seguro y detectable a datos a gran escala. Hace cinco años, los sistemas fragmentados hacían que esto fuera casi imposible, y los equipos que trabajaban para la División de Consumer Health tenían dificultades para utilizar adecuadamente los datos para la toma de decisiones. Al adoptar Databricks y Unity Catalog, Bayer Consumer Health creó una única plataforma de datos gobernada que permite el análisis de autoservicio sin silos de datos.

Con Databricks, estamos creando activos principales reutilizables, lo que permite el análisis de autoservicio y fomenta una organización basada en datos que proporciona información valiosa para todos, sin silos de datos.—André Wuthenow, arquitecto principal de plataformas en la nube, Bayer 

Fragmentación global y “turismo de datos”

Como empresa con presencia mundial, la configuración anterior de análisis de datos de Bayer estaba fragmentada en los distintos mercados, y cada uno utilizaba su propia pila tecnológica para diferentes fines. Cuando era necesario compartir datos, a menudo se copiaban, a veces varias veces, en lo que Bayer denomina “turismo de datos”. El turismo de datos provocó un aumento en los costos de gestión de datos y una implementación más lenta de las nuevas soluciones. Esta complejidad, junto con los problemas de rendimiento, llevó a una baja adopción de las soluciones que el equipo de TI de Bayer podía ofrecer y dificultó la capacidad de la empresa para tomar decisiones basadas en datos. Más allá de los costos y el rendimiento, el turismo de datos dificultaba entender quién usaba qué datos, aplicar controles de acceso consistentes o reutilizar con confianza los activos fiables en los distintos mercados.

Además, Bayer enfrentaba desafíos significativos para aprovechar las últimas herramientas de análisis de datos, como el machine learning. “Los sistemas necesarios para dar soporte al machine learning agregaban un costo adicional y una carga de mantenimiento, porque necesitábamos mover el machine learning a una plataforma completamente dedicada en una pila tecnológica diferente, en un centro de datos diferente y en un tipo de escalador diferente. Por lo tanto, en ese momento no podíamos usar el machine learning de forma adecuada”, dijo André Wuthenow, arquitecto principal de la plataforma en la nube de Bayer.

Al buscar una solución para estos desafíos, la organización de Data & Analytics de Bayer Consumer Health sabía que necesitaba construir una plataforma de datos global y escalable. Con más de 2000 usuarios empresariales y 25 zonas ejecutándose en tres regiones globales, y con el respaldo de más de 250 ingenieros de datos y aprendizaje automático, Bayer necesitaba un sistema basado en la nube que pudiera aprovechar la tecnología sin servidor siempre que fuera posible. “Era importante asegurarse de que nuestras soluciones escalaran con cualquier volumen de datos y número de usuarios simultáneos para garantizar que todos obtengan el mejor rendimiento y resultados inmediatos”, dijo Wuthenow.  Una solución basada en la nube también sería fiscalmente responsable, lo que garantizaría que Bayer solo pague por lo que usa, y le daría a la empresa la flexibilidad de probar nuevos servicios a pequeña escala antes de implementarlos como un estándar global.

Informe

La inteligencia de datos remodela las industrias

Entornos basados en plantillas en Databricks

Bayer Consumer Health seleccionó Databricks como la base para su plataforma de datos, mejorada con Azure Services para la ingesta de datos, el almacenamiento y otros servicios. Toda la transformación y la limpieza de datos se realizan en Databricks, lo que garantiza que los datos sin procesar se transformen en activos de datos reutilizables, de calidad comprobada y confiables. Con esta solución, Bayer también puede ofrecer Azure ML y otros servicios de Azure AI para que sus desarrolladores los aprovechen.

Databricks proporciona una plataforma unificada e integrada para satisfacer las necesidades de los ingenieros de datos de Bayer, ya sea que estén creando informes de BI, soluciones de ML o aplicaciones analíticas. Con Databricks como su plataforma unificada, Bayer puede ejecutar múltiples proyectos con muchos equipos trabajando en paralelo sin que se afecten negativamente entre sí. Cada equipo puede gestionar de forma independiente el ciclo de vida de los nuevos productos de datos. Sabiendo que sus mercados locales tendrían necesidades de datos únicas y diferentes de los análisis globales, se necesitaba un sistema que centralizara todos sus datos para evitar múltiples copias y el “turismo de datos”, y que, al mismo tiempo, ofreciera flexibilidad para que cada equipo aprovechara los datos de la manera que mejor se adaptara a sus mercados. “Aprovechamos Databricks para crear entornos basados en plantillas con instancias de servicio dedicadas que garantizan un aislamiento de recursos y una gestión del ciclo de vida adecuados”, dijo Wuthenow.  

Unity Catalog proporciona la capa centralizada de gobernanza y metadatos en estos entornos, lo que permite gobernar los activos de datos principales una vez y habilita a los equipos para que los consuman y reutilicen de forma segura en los distintos proyectos y regiones.

Implementación más rápida de productos de datos e informes de autoservicio

Con la introducción de Unity Catalog para reemplazar su Hive Metastore, Bayer pasó de un enfoque de intercambio de datos de inserción a uno de extracción. Los consumidores de datos solo necesitan permiso para acceder a los activos de datos centrales, gobernados y confiables. De esta manera, cada equipo de dominio de datos puede definir por sí mismo qué compartir y con quién, sin tener que copiar los datos entre entornos. Con la introducción de la tecnología serverless en combinación con Unity Catalog, Bayer Consumer Health habilitó una conectividad segura desde su entorno de desarrollo hasta los activos de datos principales de producción. Esto permitió a los ingenieros de datos crear nuevas soluciones en su entorno de desarrollo con datos de nivel de producción, lo que aceleró el tiempo de comercialización de las nuevas soluciones de análisis, a la vez que se seguían aplicando medidas contra la exfiltración de datos. «Unity Catalog representó un punto de inflexión para nosotros», dijo Wuthenow. “El nuevo modelo nos facilita la tarea de garantizar que los productos de datos en todas las etapas dispongan de los datos más recientes, lo que acelera la creación y las pruebas de nuevas soluciones porque los ingenieros pueden usar datos de nivel de producción para probar sus soluciones”.

Bayer Consumer Health también introdujo un endpoint de informes central que se vincula con todos sus catálogos. Como los activos de datos centrales globales se gestionan en una única región, los empleados pueden descubrir y combinar datos fácilmente entre dominios a través de un único punto de entrada gobernado, lo que garantiza que la analítica de autoservicio se escale sin reintroducir silos o definiciones incoherentes.

Con Databricks y Unity Catalog, Bayer Consumer Health estableció estándares compartidos para el acceso a los datos, la nomenclatura y la seguridad, mientras preservaba la flexibilidad. La gobernanza está integrada en la plataforma en lugar de aplicarse con posterioridad, lo que permite escalar el análisis de autoservicio con confianza. Como dice Wuthenow: “Estamos creando activos principales reutilizables, habilitando el análisis de autoservicio y fomentando una organización impulsada por datos que proporciona información para todos, sin silos de datos para nadie”.

 

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.