4 de março de 2026

A Bayer Consumer Health escala analítica global de autoatendimento com o Unity Catalog

por Kenneth Schoth , Julius Stahnke e Kelly Albano

• A Bayer Consumer Health construiu uma plataforma de dados única e governada usando a Databricks e o Unity Catalog para eliminar silos de dados e permitir a analítica de autoatendimento global.
• Com 7 domínios de negócios organizados em torno de ativos de dados essenciais compartilhados, a Bayer simplificou a gestão de dados e acelerou a entrega de analítica.
• Um único endpoint de relatórios agora permite a geração de relatórios de forma conveniente em todo o data estate.

A Bayer é uma empresa de ciências da vida e líder global em saúde e nutrição, ativa em mais de 100 mercados em 83 países. Guiada por sua missão — saúde para todos, fome para ninguém — a Bayer busca dar a seus 92.500 funcionários acesso seguro e detectável a dados em grande escala. Cinco anos atrás, sistemas fragmentados tornavam isso quase impossível, e as equipes que trabalhavam para a Divisão de Consumer Health sofriam por não conseguir usar os dados adequadamente para a tomada de decisões. Ao adotar o Databricks e o Unity Catalog, a Bayer Consumer Health construiu uma plataforma de dados única e governada que permite analítica de autoatendimento sem silos de dados.

Com a Databricks, estamos construindo ativos centrais reutilizáveis, permitindo a analítica de autoatendimento e promovendo uma organização data-driven que fornece insights para todos, sem silos de dados para ninguém.—André Wuthenow, Arquiteto Principal de Plataforma em cloud, Bayer

Fragmentação global e “turismo de dados”

Como uma empresa distribuída globalmente, a configuração anterior de análise de dados da Bayer estava fragmentada entre os mercados, com cada um usando sua própria pilha de tecnologia para diferentes finalidades. Quando os dados precisavam ser compartilhados, eles eram frequentemente copiados, às vezes várias vezes, no que a Bayer chama de “turismo de dados”. O turismo de dados levou ao aumento dos custos de gestão de dados e a uma implementação mais lenta de novas soluções. Essa complexidade, juntamente com problemas de desempenho, levou à baixa adoção das soluções que a IT da Bayer poderia fornecer e desafiou a capacidade da empresa de tomar decisões data-driven. Além do custo e do desempenho, o turismo de dados dificultava o entendimento de quem usava quais dados, a aplicação de controles de acesso consistentes ou a reutilização com confiança de ativos confiáveis nos diversos mercados.

Além disso, a Bayer enfrentou desafios significativos para aproveitar as mais recentes ferramentas de análise de dados, como o machine learning. “Os sistemas necessários para dar suporte ao machine learning adicionaram um custo adicional e um encargo de manutenção porque precisávamos mover o machine learning para uma plataforma completamente dedicada em uma pilha de tecnología diferente, em um data center diferente, em um tipo diferente de scaler — então, não conseguíamos usar o machine learning de forma adequada naquele momento”, disse André Wuthenow, Arquiteto Principal de Plataforma em Cloud da Bayer.

Ao procurar uma solução para esses desafios, a organização de Análise de Dados da Bayer Consumer Health sabia que precisava construir uma plataforma de dados global e escalável. Com mais de 2.000 usuários de negócios e 25 zonas em execução em três regiões globais, com o suporte de mais de 250 engenheiros de machine learning e de dados, a Bayer precisava de um sistema baseado em cloud que pudesse aproveitar a tecnología serverless sempre que possível. “Era importante garantir que nossas soluções pudessem ser escalonadas para qualquer volume de dados e número de usuários simultâneos, para garantir que todos tivessem o melhor desempenho e resultados imediatos”, disse Wuthenow. Uma solução baseada em cloud também seria financeiramente responsável, garantindo que a Bayer pagasse apenas pelo que usa, e daria à empresa a flexibilidade de experimentar novos serviços em pequena escala antes de implementá-los como um padrão global.

Ambientes baseados em padrões no Databricks

A Bayer Consumer Health selecionou a Databricks como base para sua plataforma de dados, aprimorada com os Azure Services para ingestão de dados, armazenamento e outros. Toda a transformação e limpeza de dados são feitas no Databricks, garantindo que os dados brutos sejam transformados em ativos de dados reutilizáveis, com qualidade verificada e confiáveis. Com esta solução, a Bayer também pode disponibilizar o Azure ML e outros serviços de IA do Azure para que seus desenvolvedores os aproveitem.

O Databricks oferece uma plataforma unificada e integrada para atender às necessidades dos engenheiros de dados da Bayer, seja na criação de relatórios de BI, soluções de ML ou aplicativos analíticos. Com o Databricks como sua plataforma unificada, a Bayer pode executar vários projetos com muitas equipes trabalhando em paralelo, sem que uma afete negativamente a outra. Cada equipe pode gerenciar de forma independente o ciclo de vida de novos produtos de dados. Sabendo que seus mercados locais teriam necessidades de dados exclusivas que diferem da analítica global, era necessário um sistema que centralizasse todos os seus dados para evitar várias cópias e o “turismo de dados”, e ao mesmo tempo fornecesse flexibilidade para cada equipe aproveitar os dados de maneiras que se ajustem aos seus mercados. “Aproveitamos o Databricks para criar ambientes baseados em padrões com instâncias de serviço dedicadas que garantem o isolamento adequado de recursos e o gerenciamento do ciclo de vida”, disse Wuthenow.

O Unity Catalog fornece a governança centralizada e a camada de metadados nesses ambientes, permitindo governar os principais ativos de dados uma vez, ao mesmo tempo em que possibilita que as equipes os consumam e reutilizem com segurança em projetos e regiões.

Implementação mais rápida de produtos de dados e relatórios de autosserviço

Com a introdução do Unity Catalog como substituto do Hive Metastore, a Bayer passou de uma abordagem de compartilhamento de dados baseada em push para uma baseada em pull. Os consumidores de dados só precisam de permissão para acessar ativos de dados principais governados e confiáveis. Assim, cada equipe de domínio de dados pode definir por conta própria o que compartilhar e com quem, sem copiar dados entre ambientes. Com a introdução do serverless em combinação com o Unity Catalog, a Bayer Consumer Health habilitou a conectividade segura do Ambiente de Desenvolvimento para os Ativos de Dados Essenciais de Produção. Isso permitiu que os engenheiros de dados criassem novas soluções em seu ambiente de desenvolvimento com dados de nível de produção, levando a um tempo de lançamento mais rápido para novas soluções de analítica, ao mesmo tempo em que aplicava medidas de exfiltração de dados. “O Unity Catalog foi um divisor de águas para nós”, disse Wuthenow. “O novo modelo facilita a garantia de que os produtos de dados em todas as fases tenham os dados mais recentes disponíveis, o que acelera a construção e o teste de novas soluções porque os engenheiros podem usar dados de produção para testar suas soluções.”

A Bayer Consumer Health também introduziu um endpoint de relatórios central que se conecta a todos os seus catálogos. Como os Ativos de Dados Centrais globais são gerenciados em uma única região, os funcionários podem descobrir e combinar facilmente dados entre domínios por meio de um ponto de entrada único e governado, garantindo que a analítica de autosserviço possa escalar sem reintroduzir silos ou definições inconsistentes.

Com a Databricks e o Unity Catalog, a Bayer Consumer Health estabeleceu padrões compartilhados para acesso, nomenclatura e segurança de dados, preservando a flexibilidade. A governança é incorporada à plataforma em vez de ser aplicada posteriormente, permitindo escalar a analítica de autoatendimento com confiança. Como diz Wuthenow, “estamos construindo ativos centrais reutilizáveis, permitindo a analítica de autoatendimento e promovendo uma organização data-driven que fornece insights para todos, sem silos de dados para ninguém.”

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.

Ver todos os blogs

Fragmentação global e “turismo de dados”

Ambientes baseados em padrões no Databricks

Implementação mais rápida de produtos de dados e relatórios de autosserviço

Receba os posts mais recentes na sua caixa de entrada

Sign up