Ir para o conteúdo principal

Construindo Produtos de Dados Confiáveis e de Alta Qualidade com Databricks

Building High-Quality and Trusted Data Products with Databricks

Introdução

Organizações que visam se tornar orientadas por IA e dados frequentemente precisam fornecer às suas equipes internas produtos de dados confiáveis e de alta qualidade. A construção de tais produtos de dados garante que as organizações estabeleçam padrões e uma base confiável de verdade de negócios para seus objetivos de dados e IA. Uma abordagem para colocar qualidade e usabilidade em primeiro plano é através do uso do paradigma de data mesh para democratizar a propriedade e o gerenciamento de ativos de dados. Nossos posts de blog (Parte 1, Parte 2) oferecem orientação sobre como os clientes podem alavancar o Databricks em suas empresas para abordar os pilares fundamentais do data mesh, um dos quais é "dados como produto".

Embora a ideia de tratar dados como produtos possa ter ganhado popularidade com o surgimento do data mesh, observamos que a aplicação do pensamento de produto ressoa mesmo com clientes que não optaram por adotar o data mesh. Independentemente da estrutura organizacional ou arquitetura de dados, a tomada de decisão orientada por dados permanece um princípio orientador universal. A qualidade e a usabilidade dos dados são primordiais para garantir que essas decisões orientadas por dados sejam tomadas com base em informações válidas. Este blog descreverá algumas de nossas recomendações para a construção de produtos de dados prontos para empresas, tanto em geral quanto especificamente com o Databricks.

Produtos de dados, em última análise, entregam valor quando usuários e aplicações têm os dados certos no momento certo, com a qualidade certa, no formato certo. Embora esse valor tenha sido tradicionalmente realizado na forma de operações mais eficientes por meio de custos mais baixos, processos mais rápidos e riscos mitigados, produtos de dados modernos também podem abrir caminho para novas ofertas de valor agregado e oportunidades de compartilhamento de dados dentro do setor de uma organização ou ecossistema de parceiros.

Produtos de Dados

Embora os produtos de dados possam ser definidos de várias maneiras, eles geralmente se alinham com a definição encontrada em Data Jujitsu: The Art of Turning Data into Product de DJ Patil: "Para começar, ..., uma boa definição de um produto de dados é um produto que facilita um objetivo final através do uso de dados". Como tal, os produtos de dados não se limitam a dados tabulares; eles também podem ser modelos de ML, dashboards, etc. Para aplicar tal pensamento de produto aos dados, é fortemente recomendado que cada produto de dados tenha um proprietário do produto de dados.

Figura 1: Aspectos chave de um produto de dados
Figura 1: Aspectos chave de um produto de dados

Os proprietários de produtos de dados gerenciam o desenvolvimento e monitoram o uso e o desempenho de seus produtos de dados. Para fazer isso, eles devem entender o negócio subjacente e ser capazes de traduzir os requisitos dos consumidores de dados em um projeto para um produto de dados de alta qualidade e fácil de usar. Juntamente com outros na organização, eles preenchem a lacuna entre colegas de negócios e técnicos, como engenheiros de dados. O proprietário do produto de dados é responsável por garantir que os produtos em seu portfólio estejam alinhados com os padrões organizacionais em características de confiabilidade.

Existem cinco características principais que um produto de dados deve atender:

  • Qualidade e Observabilidade: A qualidade dos dados inclui precisão, consistência, confiabilidade, pontualidade, bem como clareza da documentação. Métricas de qualidade definidas sobre o produto de dados podem ser monitoradas e expostas para garantir que a qualidade esperada dos dados seja mantida ao longo do tempo. O objetivo geral é tornar o produto de dados uma fonte confiável para os consumidores de dados.
  • Consistência Semântica: O objetivo de uma arquitetura de lakehouse é facilitar o trabalho com dados. Portanto, produtos de dados que se destinam a ser usados em conjunto devem ser semanticamente consistentes. Em outras palavras, eles devem seguir as regras de governança acordadas e ter definições compartilhadas de terminologia para que os consumidores possam combinar esses produtos de dados de maneira significativa e correta.
  • Privacidade: Privacidade é sobre a confidencialidade e segurança da informação, concernente a como os dados são coletados, compartilhados e usados. A privacidade de dados é tipicamente governada por regulamentos e leis (por exemplo, GDPR, CCPA). O cumprimento das regras de privacidade de dados pode incluir tópicos como anonimização, criptografia, residência de dados, marcação de dados (por exemplo, PII), limitação de armazenamento a ambientes específicos e minimização de acesso a um pequeno número de funcionários.
  • Segurança: Além de ter uma plataforma de dados aprovada por segurança da informação em vigor, os proprietários de produtos de dados ainda precisam definir, por exemplo, permissões de acesso (quem pode acessar os dados, com quais parceiros os dados podem ser compartilhados, etc.) e políticas de uso aceitável para seus produtos de dados.
  • Descoberta: Produtos de dados precisam ser publicados de forma que todos na organização possam encontrá-los. Isso pode incluir locais como um catálogo de dados central ou um marketplace de dados interno. Os proprietários de produtos de dados devem incluir ativos com o produto publicado que facilitem a compreensão dos dados e como combiná-los com outros produtos de dados (por exemplo, notebooks de exemplo, dashboards, etc.).

Ciclo de Vida do Produto de Dados

Um ciclo de vida típico de produto de dados consiste nas seguintes fases:

  • Iniciação - É aqui que o valor de negócio para um produto de dados desejado é definido e um proprietário é designado. Métricas de desempenho e qualidade também devem ser definidas para fins de monitoramento.
  • Design - Nesta fase, detalhes concretos como a especificação de design e contratos de dados são criados, garantindo a consistência com outros produtos de dados.
  • Criação - A criação do produto de dados real pode incluir esquemas, tabelas, visualizações, modelos, arquivos arbitrários (volumes), dashboards, etc., juntamente com os pipelines que os criam. Esta fase também inclui o teste do produto de dados resultante contra o contrato de dados definido.
  • Publicação - A criação e publicação de um produto de dados são frequentemente tratadas como a mesma coisa, mas são bastante diferentes. Esta fase inclui atividades como a implantação de modelos, publicação de um esquema em um catálogo compartilhado, gerenciamento de permissões de acesso conforme o contrato de dados, etc. A publicação deve envolver gerenciamento de releases para versionar alterações nos produtos de dados publicados.
  • Operação e Governança - As operações envolvem atividades persistentes como monitoramento da qualidade, permissões e métricas de uso. A parte de governança inclui o tratamento de solicitações relacionadas à conformidade e auditoria de acesso ao produto de dados, etc.
  • Consumo e Criação de Valor - O produto de dados é usado no negócio para resolver uma variedade de problemas. Os consumidores podem fornecer feedback ao proprietário do produto de dados com base em sua experiência de uso do produto e recomendar aprimoramentos que possam facilitar a criação de valor futuro.
  • Aposentadoria - Pode haver várias razões para aposentar um produto de dados, como falta de uso, o produto de dados não estar mais em conformidade, etc. Em qualquer caso, o produto de dados deve ser aposentado graciosamente. Isso significa depreciar o produto, informar os consumidores, arquivar ativos e limpar recursos. Aqui, a visibilidade sobre o uso downstream será frequentemente importante e é significativamente facilitada se a linhagem for capturada automaticamente.
Figura 2: Ciclo de vida típico de um produto de dados
Figura 2: Ciclo de vida típico de um produto de dados

Na figura acima, o proprietário do produto de dados é responsável por todas as fases, desde a iniciação até a aposentadoria de um produto de dados. No entanto, a responsabilidade por tarefas individuais pode ser compartilhada com outras partes interessadas, como curadores de dados, engenheiros de dados, etc.

Melhores práticas para implementação de produtos de dados

A implementação de produtos de dados de alta qualidade com Databricks requer uma abordagem ponderada além da simples execução técnica. Comece estabelecendo propriedade clara, com proprietários de produtos de dados dedicados que entendam tanto as necessidades de negócios quanto os requisitos técnicos. Defina contratos de dados abrangentes antecipadamente que incluam métricas de qualidade, definições de esquema, políticas de uso e parâmetros de segurança para garantir o alinhamento entre produtores e consumidores. 

Ao construir pipelines, utilize Delta Live Tables (DLT) com controles de qualidade implementados diretamente em seu código, aproveitando expectativas e restrições integradas para validar dados em cada estágio. Implemente uma abordagem de desenvolvimento em estágios com ambientes separados de desenvolvimento, teste e produção para garantir a qualidade antes da publicação. Automatize o monitoramento usando Lakehouse Monitoring, configurando alertas para limites de métricas de qualidade para capturar problemas precocemente. 

Documente extensivamente dentro do Unity Catalog, usando tanto especificações técnicas quanto contexto de negócios para ajudar os usuários a entender e utilizar corretamente seus produtos de dados. Para eficiência de governança, padronize convenções de nomenclatura e metadados entre os produtos de dados para melhorar a descoberta e a interoperabilidade. Finalmente, implemente um loop de feedback formal com os consumidores para melhorar continuamente seus produtos de dados com base nos padrões de uso reais e nas necessidades dos usuários.

A Databricks Data Intelligence Platform pode ser aproveitada para várias das atividades envolvidas no ciclo de vida do produto de dados:

  • ETL Pipelines - Delta Live Tables (DLT) pode ser empregado para construir pipelines de dados robustos e com controle de qualidade. Auto Loader e tabelas de streaming podem ser usadas para carregar dados incrementalmente na camada Bronze para pipelines DLT ou consultas Databricks SQL.
  • Governança - O Unity Catalog da Databricks é rico em recursos e construído para permitir governança simples e unificada em toda a empresa. O Catalog Explorer pode ser usado para descoberta de dados e mecanismos de controle de acesso facilitam a publicação dos produtos de dados para os consumidores pretendidos. Lineage e System Tables são rastreados automaticamente e vitais para a governança operacional.
  • Monitoramento - Lakehouse Monitoring fornece uma solução única e unificada para monitorar a qualidade de ativos de dados e IA. Tal abordagem proativa é necessária para satisfazer os termos do contrato de dados.

Para algumas das atividades do ciclo de vida do produto de dados, como o design do produto de dados e do contrato de dados, a Databricks não possui atualmente recursos para suportá-lo. Esses processos devem ser feitos fora da Databricks Platform e os resultados, então, documentados no Unity Catalog assim que o produto de dados for publicado.

Contratos de Dados

Um contrato de dados é uma forma formal de alinhar os domínios e implementar a governança federada. O produtor de dados deve fornecê-lo; no entanto, ele deve ser projetado com o consumidor em mente. O contrato deve ser formulado de maneira que seja consumível por todos os tipos de usuários.

Um contrato de dados típico tem os seguintes atributos:

  • Descrição dos dados (nome, descrição, sistemas de origem, seleção de atributos, …)
  • Esquema de dados (tabelas, colunas, informações de anonimização e criptografia, filtros, máscaras, …) e formatos de dados (dados semiestruturados e não estruturados)
  • Políticas de uso (tags, PII, diretrizes, residência de dados, …)
  • Qualidade dos dados (verificações de qualidade aplicadas e restrições, métricas de qualidade, …)
  • Segurança (quem tem permissão para usar o produto de dados)
  • SLAs de dados (última atualização, datas de expiração, tempo de retenção, …)
  • Responsabilidades (proprietário, mantenedor, contato de escalonamento, processo de alteração, …)

Além disso, ativos de suporte como notebooks, dashboards, etc., podem ser fornecidos para ajudar o consumidor a entender e analisar o produto de dados, facilitando assim uma adoção mais fácil.

UM LÍDER 5X

Gartner®: Databricks, líder em banco de dados em nuvem

Equipe de Governança de Dados

Uma equipe de governança de dados em uma empresa geralmente é composta por representantes de diferentes grupos, como proprietários de negócios, especialistas em conformidade e segurança, e profissionais de dados. Essa equipe deve atuar como um Centro de Excelência (CoE) para tópicos de conformidade e segurança de dados e apoiar o proprietário do produto de dados, que é o responsável pelo produto de dados. Eles desempenham um papel crucial na elaboração do contrato de dados, estendendo as políticas de uso e influenciando a decisão de quem tem permissão para usar o produto de dados. Para grandes organizações, tal equipe pode ajudar a direcionar e padronizar o processo de elaboração de contratos de dados em alinhamento com funções globais, como um escritório de gerenciamento de dados.

Publicação e Certificação

Apesar dos contratos de dados estabelecidos, a governança de produtos de dados permanece um assunto amplo, abrangendo aspectos como controles de acesso, classificação de Informações de Identificação Pessoal (PII) e várias políticas de uso, que podem diferir entre as organizações. No entanto, uma tendência consistente que observamos diz respeito à publicação de produtos de dados. À medida que os consumidores encontram um número crescente de conjuntos de dados, eles frequentemente exigem a garantia de que os dados são curados, padronizados e oficialmente aprovados para uso. Por exemplo, um caso de uso de relatórios ou gerenciamento de dados mestre dentro de uma grande organização pode exigir um alto grau de consistência semântica e interoperabilidade entre diversos ativos de dados na empresa.

É aqui que o conceito de 'certificação' de produto de dados pode se tornar valioso para certos produtos de dados. Nesse processo, os produtores de dados podem primeiro propor uma especificação de contrato de dados, geralmente sujeita à revisão por um curador ou equipe de governança de dados. Após a aprovação, processos de Integração Contínua/Implantação Contínua (CI/CD) podem ser executados para implantar pipelines de produção que gravam fisicamente dados nas contas de armazenamento em nuvem do cliente. Esses dados podem então ser publicados e facilmente descobertos por meio de tabelas, visualizações ou até mesmo volumes para dados não tabulares do Unity Catalog. Nesse contexto, o Unity Catalog suporta o uso de tags, bem como markdown, para indicar o status de certificação e os detalhes de um produto de dados.

Figura 3: Processo de 'certificação' de produto de dados
Figura 3: Processo de 'certificação' de produto de dados

Alguns clientes podem até optar por promover seus produtos de dados certificados publicando uma listagem privada correspondente no Databricks Marketplace com guias abrangentes e exemplos de uso. Além disso, as APIs REST da Databricks e integrações com soluções de catálogo corporativo como Alation, Atlan e Collibra também facilitam a descoberta de produtos de dados certificados por múltiplos canais, mesmo aqueles fora da Databricks.

Casos de Uso e Histórias de Sucesso

Automotivo: Plataforma de Inteligência Veicular da Rivian
A Rivian, fabricante de veículos elétricos, utiliza a Databricks para processar dados de sensores IoT de mais de 25.000 veículos em circulação, cada um gerando terabytes de dados diariamente. Sua equipe de sistemas avançados de assistência ao motorista (ADAS) usa essa plataforma para analisar dados telemétricos, incluindo informações sobre inclinação, rolagem, velocidade, suspensão e atividade de airbag, o que ajuda a Rivian a entender o desempenho do veículo e os padrões de direção. Ao alavancar a Databricks Lakehouse Platform, eles alcançaram um aumento de 30% a 50% no desempenho de tempo de execução, levando a insights mais rápidos e melhor precisão do modelo. Essa abordagem orientada por dados permite que a Rivian implemente manutenção preditiva, otimize a confiabilidade dos componentes e melhore continuamente a experiência de direção do cliente.

Saúde: Personalização de Prescrições da Walgreens
A Walgreens, uma das maiores redes de farmácias da América, transformou sua experiência do paciente usando Databricks para processar dados de prescrição em escala massiva. Com mais de 825 milhões de prescrições preenchidas anualmente em quase 9.000 locais, a Walgreens construiu sua plataforma de Informação, Dados e Insights (IDI) na Databricks para processar 40.000 eventos de dados por segundo. Isso otimizou sua cadeia de suprimentos, ajustando os níveis de estoque para economizar milhões de dólares e aumentando a produtividade dos farmacêuticos em 20%. A plataforma permite que os farmacêuticos forneçam um atendimento melhor com perfis de pacientes robustos que incluem alertas de interação medicamentosa, alterações nos perfis de medicamentos e outras informações críticas para um gerenciamento de prescrições mais seguro.

Manufatura: Análises com IA da Mahindra
A Mahindra & Mahindra Limited, um conglomerado global de manufatura, implementou soluções de IA em nível corporativo usando Databricks para aprimorar operações em seus negócios. Seu bot GenAI para analistas financeiros levou a uma redução de 70% no tempo gasto em tarefas rotineiras, permitindo que as equipes se concentrassem em iniciativas estratégicas de maior valor. A empresa está alavancando a Databricks Data Intelligence Platform para múltiplos casos de uso, incluindo um chatbot Voice of the Customer construído com o LLM de código aberto DBRX da Databricks, que integra dados internos via Delta Lake e dados externos de sites e mídias sociais. Essa abordagem abrangente está ajudando a Mahindra a impulsionar o crescimento, aprimorar a experiência do cliente e otimizar a eficiência operacional.

Telecomunicações: Arquitetura de Data Mesh da T-Mobile
A T-Mobile implementou com sucesso uma arquitetura de data mesh usando Databricks para democratizar o acesso a dados, mantendo a segurança e a governança. A gigante das telecomunicações integrou seu lakehouse em um Data Mesh usando Unity Catalog e Delta Sharing, permitindo que equipes em toda a empresa acessem e utilizem dados, mantendo um modelo de segurança racional e de fácil compreensão. Essa abordagem capacitou as equipes de domínio a criar e gerenciar seus próprios produtos de dados, garantindo governança consistente, acelerando iniciativas de análise em toda a organização e melhorando a tomada de decisões orientada por dados.

Tendências Futuras em Produtos de Dados 
O futuro dos produtos de dados está sendo moldado por várias tendências emergentes que impactarão como as organizações alavancam plataformas como Databricks. Produtos de dados em tempo real estão ganhando destaque, pois as empresas exigem insights cada vez mais atuais, com arquiteturas de streaming se tornando padrão para produtos de dados operacionais críticos. Também estamos vendo o aumento da criação de produtos de dados self-service, com especialistas de domínio de negócios usando interfaces low-code/no-code para definir e construir produtos de dados, mantendo os mecanismos de governança. 

Produtos de dados enriquecidos com IA que incorporam automaticamente recursos e insights de machine learning estão se tornando mais comuns, obscurecendo a linha entre dados tradicionais e ativos de IA. Arquiteturas de data mesh estão amadurecendo, com organizações implementando governança computacional federada que equilibra padrões centrais com autonomia de domínio. Produtos de dados interorganizacionais que abrangem com segurança os limites empresariais estão emergindo, com data clean rooms e computação que preserva a privacidade permitindo novas colaborações de insights. 

Contratos de dados estão evoluindo para incluir garantias de qualidade mais sofisticadas, controles de privacidade e direitos de uso, tornando-se especificações executáveis em vez de documentação estática. A análise embarcada em aplicações operacionais está crescendo, com produtos de dados projetados especificamente para potencializar insights dentro do aplicativo, em vez de ambientes analíticos separados. Finalmente, métricas de sustentabilidade estão sendo incorporadas aos produtos de dados, rastreando o impacto ambiental ao lado de KPIs de negócios tradicionais para apoiar relatórios ESG e iniciativas verdes. 
 

Conclusão

Formular produtos de dados e contratos de dados pode se tornar um exercício complexo em um ambiente corporativo de grande porte. Dada a emergência de novas tecnologias para interagir com dados, juntamente com os requisitos modernos de negócios e regulatórios, as especificações para produtos e contratos de dados estão em constante evolução. Atualmente, o Databricks Marketplace e o Unity Catalog servem como componentes centrais para a experiência de descoberta e onboarding de dados para consumidores de dados. Para produtores de dados, o Unity Catalog oferece funcionalidades essenciais de governança corporativa, incluindo linhagem, auditoria e controles de acesso.

À medida que os produtos de dados se estendem além de tabelas ou dashboards simples para abranger modelos de IA, streams e mais, os clientes podem se beneficiar de uma experiência de governança unificada e consistente no Databricks para todos os principais personas de usuários.

Os principais aspectos dos produtos de dados corporativos destacados neste blog podem servir como princípios orientadores ao abordar o tópico. Para saber mais sobre como construir produtos de dados de alta qualidade usando a Plataforma de Inteligência de Dados Databricks, entre em contato com seu representante Databricks.

FAQ

Qual é a diferença entre um produto de dados e um conjunto de dados regular?
Um produto de dados vai além de apenas fornecer dados; ele é projetado com necessidades específicas do usuário em mente, inclui garantias de qualidade, documentação e elementos de suporte. Diferente de um conjunto de dados regular, um produto de dados tem propriedade clara, SLAs definidos e é ativamente gerenciado ao longo de seu ciclo de vida para garantir que continue atendendo às necessidades do consumidor.

Quem deve possuir produtos de dados em nossa organização?
Os produtos de dados devem ser de propriedade de indivíduos que entendem tanto o domínio de negócios quanto os aspectos técnicos dos dados. Esses proprietários de produtos de dados são responsáveis pela qualidade, usabilidade e alinhamento com os objetivos de negócios. Dependendo da sua estrutura organizacional, eles podem estar dentro dos domínios de negócios (em uma abordagem de data mesh) ou dentro de uma equipe de dados central.

Como medimos o sucesso de nossos produtos de dados?
As métricas de sucesso devem incluir aspectos técnicos (qualidade, disponibilidade, desempenho) e medidas de impacto nos negócios. Rastreie padrões de uso, satisfação do usuário, tempo para insights dos consumidores e resultados de negócios diretos possibilitados pelo produto de dados. Estabeleça métricas de base antes da implementação e meça as melhorias ao longo do tempo.

Qual papel o Unity Catalog desempenha no gerenciamento de produtos de dados?
O Unity Catalog serve como a base para a governança de produtos de dados, fornecendo gerenciamento centralizado de metadados, controles de acesso, rastreamento de linhagem e recursos de descoberta. Ele permite que você implemente contratos de dados por meio de recursos como marcação, comentários e definições de esquema, ao mesmo tempo em que fornece auditabilidade e controles de conformidade necessários para produtos de dados corporativos.

Como lidamos com mudanças em produtos de dados publicados?
Implemente processos formais de versionamento e gerenciamento de mudanças para produtos de dados. Comunique as mudanças aos consumidores com antecedência, mantenha a compatibilidade retroativa sempre que possível e forneça caminhos de migração para mudanças que quebram a compatibilidade. Use os recursos do Unity Catalog para rastrear versões e gerenciar a transição entre elas.

Podemos criar produtos de dados sem adotar uma arquitetura completa de data mesh?
Absolutamente. Embora o data mesh enfatize a propriedade de domínio de produtos de dados, você pode aplicar o pensamento de produto aos seus ativos de dados, independentemente da sua estrutura organizacional. Concentre-se nas necessidades do usuário, na qualidade e na usabilidade dos seus dados e implemente propriedade e governança claras — esses princípios criam valor mesmo sem uma implementação completa de data mesh.

Como garantimos que nossos produtos de dados permaneçam em conformidade com regulamentações em evolução?
Incorpore a conformidade ao ciclo de vida do seu produto de dados, com revisões regulares pela sua equipe de governança. Implemente controles baseados em metadados no Unity Catalog para impor políticas automaticamente e use recursos de linhagem para entender o impacto das mudanças regulatórias em seus produtos de dados. Documente os requisitos de conformidade em seus contratos de dados e monitore a adesão por meio de logs de auditoria.

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada