Organizações que visam se tornar orientadas por IA e dados frequentemente precisam fornecer às suas equipes internas produtos de dados confiáveis e de alta qualidade. A construção de tais produtos de dados garante que as organizações estabeleçam padrões e uma base confiável de verdade de negócios para seus objetivos de dados e IA. Uma abordagem para colocar qualidade e usabilidade em primeiro plano é através do uso do paradigma de data mesh para democratizar a propriedade e o gerenciamento de ativos de dados. Nossos posts de blog (Parte 1, Parte 2) oferecem orientação sobre como os clientes podem alavancar o Databricks em suas empresas para abordar os pilares fundamentais do data mesh, um dos quais é "dados como produto".
Embora a ideia de tratar dados como produtos possa ter ganhado popularidade com o surgimento do data mesh, observamos que a aplicação do pensamento de produto ressoa mesmo com clientes que não optaram por adotar o data mesh. Independentemente da estrutura organizacional ou arquitetura de dados, a tomada de decisão orientada por dados permanece um princípio orientador universal. A qualidade e a usabilidade dos dados são primordiais para garantir que essas decisões orientadas por dados sejam tomadas com base em informações válidas. Este blog descreverá algumas de nossas recomendações para a construção de produtos de dados prontos para empresas, tanto em geral quanto especificamente com o Databricks.
Produtos de dados, em última análise, entregam valor quando usuários e aplicações têm os dados certos no momento certo, com a qualidade certa, no formato certo. Embora esse valor tenha sido tradicionalmente realizado na forma de operações mais eficientes por meio de custos mais baixos, processos mais rápidos e riscos mitigados, produtos de dados modernos também podem abrir caminho para novas ofertas de valor agregado e oportunidades de compartilhamento de dados dentro do setor de uma organização ou ecossistema de parceiros.
Embora os produtos de dados possam ser definidos de várias maneiras, eles geralmente se alinham com a definição encontrada em Data Jujitsu: The Art of Turning Data into Product de DJ Patil: "Para começar, ..., uma boa definição de um produto de dados é um produto que facilita um objetivo final através do uso de dados". Como tal, os produtos de dados não se limitam a dados tabulares; eles também podem ser modelos de ML, dashboards, etc. Para aplicar tal pensamento de produto aos dados, é fortemente recomendado que cada produto de dados tenha um proprietário do produto de dados.
Os proprietários de produtos de dados gerenciam o desenvolvimento e monitoram o uso e o desempenho de seus produtos de dados. Para fazer isso, eles devem entender o negócio subjacente e ser capazes de traduzir os requisitos dos consumidores de dados em um projeto para um produto de dados de alta qualidade e fácil de usar. Juntamente com outros na organização, eles preenchem a lacuna entre colegas de negócios e técnicos, como engenheiros de dados. O proprietário do produto de dados é responsável por garantir que os produtos em seu portfólio estejam alinhados com os padrões organizacionais em características de confiabilidade.
Existem cinco características principais que um produto de dados deve atender:
Um ciclo de vida típico de produto de dados consiste nas seguintes fases:
Na figura acima, o proprietário do produto de dados é responsável por todas as fases, desde a iniciação até a aposentadoria de um produto de dados. No entanto, a responsabilidade por tarefas individuais pode ser compartilhada com outras partes interessadas, como curadores de dados, engenheiros de dados, etc.
A implementação de produtos de dados de alta qualidade com Databricks requer uma abordagem ponderada além da simples execução técnica. Comece estabelecendo propriedade clara, com proprietários de produtos de dados dedicados que entendam tanto as necessidades de negócios quanto os requisitos técnicos. Defina contratos de dados abrangentes antecipadamente que incluam métricas de qualidade, definições de esquema, políticas de uso e parâmetros de segurança para garantir o alinhamento entre produtores e consumidores.
Ao construir pipelines, utilize Delta Live Tables (DLT) com controles de qualidade implementados diretamente em seu código, aproveitando expectativas e restrições integradas para validar dados em cada estágio. Implemente uma abordagem de desenvolvimento em estágios com ambientes separados de desenvolvimento, teste e produção para garantir a qualidade antes da publicação. Automatize o monitoramento usando Lakehouse Monitoring, configurando alertas para limites de métricas de qualidade para capturar problemas precocemente.
Documente extensivamente dentro do Unity Catalog, usando tanto especificações técnicas quanto contexto de negócios para ajudar os usuários a entender e utilizar corretamente seus produtos de dados. Para eficiência de governança, padronize convenções de nomenclatura e metadados entre os produtos de dados para melhorar a descoberta e a interoperabilidade. Finalmente, implemente um loop de feedback formal com os consumidores para melhorar continuamente seus produtos de dados com base nos padrões de uso reais e nas necessidades dos usuários.
A Databricks Data Intelligence Platform pode ser aproveitada para várias das atividades envolvidas no ciclo de vida do produto de dados:
Para algumas das atividades do ciclo de vida do produto de dados, como o design do produto de dados e do contrato de dados, a Databricks não possui atualmente recursos para suportá-lo. Esses processos devem ser feitos fora da Databricks Platform e os resultados, então, documentados no Unity Catalog assim que o produto de dados for publicado.
Um contrato de dados é uma forma formal de alinhar os domínios e implementar a governança federada. O produtor de dados deve fornecê-lo; no entanto, ele deve ser projetado com o consumidor em mente. O contrato deve ser formulado de maneira que seja consumível por todos os tipos de usuários.
Um contrato de dados típico tem os seguintes atributos:
Além disso, ativos de suporte como notebooks, dashboards, etc., podem ser fornecidos para ajudar o consumidor a entender e analisar o produto de dados, facilitando assim uma adoção mais fácil.
Uma equipe de governança de dados em uma empresa geralmente é composta por representantes de diferentes grupos, como proprietários de negócios, especialistas em conformidade e segurança, e profissionais de dados. Essa equipe deve atuar como um Centro de Excelência (CoE) para tópicos de conformidade e segurança de dados e apoiar o proprietário do produto de dados, que é o responsável pelo produto de dados. Eles desempenham um papel crucial na elaboração do contrato de dados, estendendo as políticas de uso e influenciando a decisão de quem tem permissão para usar o produto de dados. Para grandes organizações, tal equipe pode ajudar a direcionar e padronizar o processo de elaboração de contratos de dados em alinhamento com funções globais, como um escritório de gerenciamento de dados.
Apesar dos contratos de dados estabelecidos, a governança de produtos de dados permanece um assunto amplo, abrangendo aspectos como controles de acesso, classificação de Informações de Identificação Pessoal (PII) e várias políticas de uso, que podem diferir entre as organizações. No entanto, uma tendência consistente que observamos diz respeito à publicação de produtos de dados. À medida que os consumidores encontram um número crescente de conjuntos de dados, eles frequentemente exigem a garantia de que os dados são curados, padronizados e oficialmente aprovados para uso. Por exemplo, um caso de uso de relatórios ou gerenciamento de dados mestre dentro de uma grande organização pode exigir um alto grau de consistência semântica e interoperabilidade entre diversos ativos de dados na empresa.
É aqui que o conceito de 'certificação' de produto de dados pode se tornar valioso para certos produtos de dados. Nesse processo, os produtores de dados podem primeiro propor uma especificação de contrato de dados, geralmente sujeita à revisão por um curador ou equipe de governança de dados. Após a aprovação, processos de Integração Contínua/Implantação Contínua (CI/CD) podem ser executados para implantar pipelines de produção que gravam fisicamente dados nas contas de armazenamento em nuvem do cliente. Esses dados podem então ser publicados e facilmente descobertos por meio de tabelas, visualizações ou até mesmo volumes para dados não tabulares do Unity Catalog. Nesse contexto, o Unity Catalog suporta o uso de tags, bem como markdown, para indicar o status de certificação e os detalhes de um produto de dados.
Alguns clientes podem até optar por promover seus produtos de dados certificados publicando uma listagem privada correspondente no Databricks Marketplace com guias abrangentes e exemplos de uso. Além disso, as APIs REST da Databricks e integrações com soluções de catálogo corporativo como Alation, Atlan e Collibra também facilitam a descoberta de produtos de dados certificados por múltiplos canais, mesmo aqueles fora da Databricks.
Automotivo: Plataforma de Inteligência Veicular da Rivian
A Rivian, fabricante de veículos elétricos, utiliza a Databricks para processar dados de sensores IoT de mais de 25.000 veículos em circulação, cada um gerando terabytes de dados diariamente. Sua equipe de sistemas avançados de assistência ao motorista (ADAS) usa essa plataforma para analisar dados telemétricos, incluindo informações sobre inclinação, rolagem, velocidade, suspensão e atividade de airbag, o que ajuda a Rivian a entender o desempenho do veículo e os padrões de direção. Ao alavancar a Databricks Lakehouse Platform, eles alcançaram um aumento de 30% a 50% no desempenho de tempo de execução, levando a insights mais rápidos e melhor precisão do modelo. Essa abordagem orientada por dados permite que a Rivian implemente manutenção preditiva, otimize a confiabilidade dos componentes e melhore continuamente a experiência de direção do cliente.
Saúde: Personalização de Prescrições da Walgreens
A Walgreens, uma das maiores redes de farmácias da América, transformou sua experiência do paciente usando Databricks para processar dados de prescrição em escala massiva. Com mais de 825 milhões de prescrições preenchidas anualmente em quase 9.000 locais, a Walgreens construiu sua plataforma de Informação, Dados e Insights (IDI) na Databricks para processar 40.000 eventos de dados por segundo. Isso otimizou sua cadeia de suprimentos, ajustando os níveis de estoque para economizar milhões de dólares e aumentando a produtividade dos farmacêuticos em 20%. A plataforma permite que os farmacêuticos forneçam um atendimento melhor com perfis de pacientes robustos que incluem alertas de interação medicamentosa, alterações nos perfis de medicamentos e outras informações críticas para um gerenciamento de prescrições mais seguro.
Manufatura: Análises com IA da Mahindra
A Mahindra & Mahindra Limited, um conglomerado global de manufatura, implementou soluções de IA em nível corporativo usando Databricks para aprimorar operações em seus negócios. Seu bot GenAI para analistas financeiros levou a uma redução de 70% no tempo gasto em tarefas rotineiras, permitindo que as equipes se concentrassem em iniciativas estratégicas de maior valor. A empresa está alavancando a Databricks Data Intelligence Platform para múltiplos casos de uso, incluindo um chatbot Voice of the Customer construído com o LLM de código aberto DBRX da Databricks, que integra dados internos via Delta Lake e dados externos de sites e mídias sociais. Essa abordagem abrangente está ajudando a Mahindra a impulsionar o crescimento, aprimorar a experiência do cliente e otimizar a eficiência operacional.
Telecomunicações: Arquitetura de Data Mesh da T-Mobile
A T-Mobile implementou com sucesso uma arquitetura de data mesh usando Databricks para democratizar o acesso a dados, mantendo a segurança e a governança. A gigante das telecomunicações integrou seu lakehouse em um Data Mesh usando Unity Catalog e Delta Sharing, permitindo que equipes em toda a empresa acessem e utilizem dados, mantendo um modelo de segurança racional e de fácil compreensão. Essa abordagem capacitou as equipes de domínio a criar e gerenciar seus próprios produtos de dados, garantindo governança consistente, acelerando iniciativas de análise em toda a organização e melhorando a tomada de decisões orientada por dados.
Tendências Futuras em Produtos de Dados
O futuro dos produtos de dados está sendo moldado por várias tendências emergentes que impactarão como as organizações alavancam plataformas como Databricks. Produtos de dados em tempo real estão ganhando destaque, pois as empresas exigem insights cada vez mais atuais, com arquiteturas de streaming se tornando padrão para produtos de dados operacionais críticos. Também estamos vendo o aumento da criação de produtos de dados self-service, com especialistas de domínio de negócios usando interfaces low-code/no-code para definir e construir produtos de dados, mantendo os mecanismos de governança.
Produtos de dados enriquecidos com IA que incorporam automaticamente recursos e insights de machine learning estão se tornando mais comuns, obscurecendo a linha entre dados tradicionais e ativos de IA. Arquiteturas de data mesh estão amadurecendo, com organizações implementando governança computacional federada que equilibra padrões centrais com autonomia de domínio. Produtos de dados interorganizacionais que abrangem com segurança os limites empresariais estão emergindo, com data clean rooms e computação que preserva a privacidade permitindo novas colaborações de insights.
Contratos de dados estão evoluindo para incluir garantias de qualidade mais sofisticadas, controles de privacidade e direitos de uso, tornando-se especificações executáveis em vez de documentação estática. A análise embarcada em aplicações operacionais está crescendo, com produtos de dados projetados especificamente para potencializar insights dentro do aplicativo, em vez de ambientes analíticos separados. Finalmente, métricas de sustentabilidade estão sendo incorporadas aos produtos de dados, rastreando o impacto ambiental ao lado de KPIs de negócios tradicionais para apoiar relatórios ESG e iniciativas verdes.
Formular produtos de dados e contratos de dados pode se tornar um exercício complexo em um ambiente corporativo de grande porte. Dada a emergência de novas tecnologias para interagir com dados, juntamente com os requisitos modernos de negócios e regulatórios, as especificações para produtos e contratos de dados estão em constante evolução. Atualmente, o Databricks Marketplace e o Unity Catalog servem como componentes centrais para a experiência de descoberta e onboarding de dados para consumidores de dados. Para produtores de dados, o Unity Catalog oferece funcionalidades essenciais de governança corporativa, incluindo linhagem, auditoria e controles de acesso.
À medida que os produtos de dados se estendem além de tabelas ou dashboards simples para abranger modelos de IA, streams e mais, os clientes podem se beneficiar de uma experiência de governança unificada e consistente no Databricks para todos os principais personas de usuários.
Os principais aspectos dos produtos de dados corporativos destacados neste blog podem servir como princípios orientadores ao abordar o tópico. Para saber mais sobre como construir produtos de dados de alta qualidade usando a Plataforma de Inteligência de Dados Databricks, entre em contato com seu representante Databricks.
Qual é a diferença entre um produto de dados e um conjunto de dados regular?
Um produto de dados vai além de apenas fornecer dados; ele é projetado com necessidades específicas do usuário em mente, inclui garantias de qualidade, documentação e elementos de suporte. Diferente de um conjunto de dados regular, um produto de dados tem propriedade clara, SLAs definidos e é ativamente gerenciado ao longo de seu ciclo de vida para garantir que continue atendendo às necessidades do consumidor.
Quem deve possuir produtos de dados em nossa organização?
Os produtos de dados devem ser de propriedade de indivíduos que entendem tanto o domínio de negócios quanto os aspectos técnicos dos dados. Esses proprietários de produtos de dados são responsáveis pela qualidade, usabilidade e alinhamento com os objetivos de negócios. Dependendo da sua estrutura organizacional, eles podem estar dentro dos domínios de negócios (em uma abordagem de data mesh) ou dentro de uma equipe de dados central.
Como medimos o sucesso de nossos produtos de dados?
As métricas de sucesso devem incluir aspectos técnicos (qualidade, disponibilidade, desempenho) e medidas de impacto nos negócios. Rastreie padrões de uso, satisfação do usuário, tempo para insights dos consumidores e resultados de negócios diretos possibilitados pelo produto de dados. Estabeleça métricas de base antes da implementação e meça as melhorias ao longo do tempo.
Qual papel o Unity Catalog desempenha no gerenciamento de produtos de dados?
O Unity Catalog serve como a base para a governança de produtos de dados, fornecendo gerenciamento centralizado de metadados, controles de acesso, rastreamento de linhagem e recursos de descoberta. Ele permite que você implemente contratos de dados por meio de recursos como marcação, comentários e definições de esquema, ao mesmo tempo em que fornece auditabilidade e controles de conformidade necessários para produtos de dados corporativos.
Como lidamos com mudanças em produtos de dados publicados?
Implemente processos formais de versionamento e gerenciamento de mudanças para produtos de dados. Comunique as mudanças aos consumidores com antecedência, mantenha a compatibilidade retroativa sempre que possível e forneça caminhos de migração para mudanças que quebram a compatibilidade. Use os recursos do Unity Catalog para rastrear versões e gerenciar a transição entre elas.
Podemos criar produtos de dados sem adotar uma arquitetura completa de data mesh?
Absolutamente. Embora o data mesh enfatize a propriedade de domínio de produtos de dados, você pode aplicar o pensamento de produto aos seus ativos de dados, independentemente da sua estrutura organizacional. Concentre-se nas necessidades do usuário, na qualidade e na usabilidade dos seus dados e implemente propriedade e governança claras — esses princípios criam valor mesmo sem uma implementação completa de data mesh.
Como garantimos que nossos produtos de dados permaneçam em conformidade com regulamentações em evolução?
Incorpore a conformidade ao ciclo de vida do seu produto de dados, com revisões regulares pela sua equipe de governança. Implemente controles baseados em metadados no Unity Catalog para impor políticas automaticamente e use recursos de linhagem para entender o impacto das mudanças regulatórias em seus produtos de dados. Documente os requisitos de conformidade em seus contratos de dados e monitore a adesão por meio de logs de auditoria.
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
