Ir para o conteúdo principal

Linhagem de dados

O que é linhagem de dados?

Linhagem de dados é o processo de registrar, acompanhar e visualizar dados e AI ao longo do tempo, da origem ao consumo. Uma linhagem de dados eficaz oferece às equipes de dados uma visão de ponta a ponta de como os dados são transformados e fluem por todo o seu ecossistema de dados.

A linhagem de dados registra as informações e os eventos relevantes associados aos dados ao longo do seu ciclo de vida, incluindo:

  • A origem dos dados
  • Quais outros conjuntos de dados foram usados para criá-lo
  • Quem criou e quando?
  • Como foi transformado
  • Quais outros conjuntos de dados aproveitam isso
  • Como os dados podem ser usados
  • Quem é responsável por usar e alterar os dados

À medida que as organizações adotam uma cultura orientada por dados e buscam democratizar e escalar dados e AI, a linhagem de dados é um pilar essencial de uma estratégia de gestão e governança de dados.

Continue explorando

Por que a linhagem de dados é importante?

A linhagem de dados permite que as empresas vejam de onde os dados vêm, como mudam ao longo do tempo e onde são armazenados e usados, trazendo transparência e confiança. É um habilitador essencial para compreensão e integridade dos dados, ajudando as organizações a tomar decisões informadas, garantir conformidade e melhorar a gestão de riscos.

A linhagem de dados é essencial para a governança de dados, os princípios, práticas e ferramentas que uma organização usa para gerenciar seus ativos de dados. A linhagem de dados oferece a visibilidade necessária para garantir que os dados sejam gerenciados de acordo com a estrutura de governança de dados da organização, assegurando dados de qualidade e criando a base para insights valiosos sobre dados.

A linhagem de dados permite validar a precisão e a consistência dos dados para assegurar a qualidade, e a trilha de auditoria granular fornecida pela linhagem é crucial para identificar e depurar rapidamente erros de dados dentro de um pipeline.

Práticas adequadas de linhagem de dados são essenciais para a conformidade regulatória e permitem que as organizações forneçam uma trilha de auditoria de onde os dados se originaram e como foram tratadas. A linhagem de dados também ajuda as organizações a acompanhar o fluxo de dados sensíveis, garantindo alinhamento com políticas e controles e ajudando a identificar riscos potenciais.

Quais são os casos de uso da linhagem de dados?

A linhagem de dados é essencial para uma estratégia eficaz de gestão e governança de dados, à medida que as organizações buscam democratizar e escalar dados e AI. Casos de uso comuns incluem:

Análise de impacto e gestão de riscos: À medida que os dados passam por transformações ao longo do ciclo de vida, é importante analisar o impacto dessas mudanças em sistemas e usuários que dependem desses dados e avaliar riscos potenciais. A linhagem de dados permite que as equipes de dados vejam todos os consumidores a jusante — como aplicativos, painéis e modelos de aprendizado de máquina — e entendam o impacto das mudanças e notifiquem as partes interessadas.

Compreensão e transparência dos dados: Construir uma melhor compreensão do contexto em torno dos dados é fundamental para garantir a confiabilidade dos dados, especialmente à medida que as organizações lidam com um volume cada vez maior de dados de várias fontes. A linhagem de dados permite que os usuários de dados entendam o contexto enquanto analisam os dados, o que resulta em resultados de melhor qualidade.

Depuração e diagnóstico: A linhagem de dados ajuda as equipes a encontrar a causa raiz de qualquer erro em pipelines de dados, rastreando o erro até sua origem. Isso reduz muito o tempo de depuração, aumentando a eficiência.

Conformidade e prontidão para auditoria: A rastreabilidade dos dados é essencial para a conformidade. Muitas normas de conformidade, como o Regulamento Geral de Proteção de Dados (GDPR), a Lei de Privacidade do Consumidor da Califórnia (CCPA), a Lei de Portabilidade e Responsabilidade de Seguros de Saúde (HIPAA), o Comitê de Basileia para Supervisão Bancária (BCBS) 239 e a Lei Sarbanes-Oxley (SOX), exigem que as organizações tenham um entendimento claro e visibilidade sobre o fluxo de dados. Com práticas eficazes de linhagem de dados, as organizações têm essas informações à mão e estão prontas para auditorias.

Modelagem de dados: A linhagem de dados é útil para a modelagem de dados, o processo de visualizar como os dados são organizados e acessados. A linhagem de dados pode ajudar a atualizar e aprimorar modelos de dados ao revelar relacionamentos entre ativos de dados e oferecer contexto sobre os fluxos de dados atuais.

Migração de dados: A linhagem de dados fornece informações sobre a localização e o ciclo de vida dos dados, algo importante para migrações de dados — a transferência de dados para novos sistemas de software ou de armazenamento. As organizações usam informações de linhagem de dados para planejar migrações e reduzir riscos. A linhagem de dados também pode ajudar as equipes a limpar e reduzir a quantidade de dados que precisa ser migrada.

Boas práticas para implementar linhagem de dados

Implementar uma linhagem de dados eficaz exige uma abordagem estratégica com processos bem definidos. Veja as principais boas práticas que as organizações devem seguir:

  • Catálogo unificado de dados e AI – Crie um catálogo centralizado que integre ativos de dados e de AI, garantindo visibilidade e governança em um só lugar
  • Governança de dados robusta – Defina estratégias, processos e ferramentas claras para gerenciar os dados com eficiência e garantir qualidade, segurança e conformidade
  • Documentação abrangente – Mantenha registros detalhados de fontes de dados, transformações e mudanças para fornecer um histórico completo e preciso
  • Automação – Aproveite ferramentas automatizadas de rastreamento de linhagem para aumentar a precisão, melhorar a eficiência e reduzir o esforço manual no monitoramento de fluxos de dados até o nível de coluna
  • Propriedade clara dos dados – Atribua propriedade aos ativos de dados para estabelecer responsabilidade, agilizar a resolução de problemas e promover a colaboração
  • Auditoria contínua – Revise e atualize regularmente os registros de linhagem para manter precisão, completude e conformidade com as políticas de governança

Automatize a linhagem para dados e AI com o Databricks Unity Catalog

Unity Catalog oferece uma solução unificada de governança para dados, análises e AI, permitindo que as equipes de dados cataloguem todos os seus dados e ativos de AI, definam permissões de acesso detalhadas, auditem o acesso aos dados e compartilhem dados entre nuvens, regiões e plataformas de dados. Com a linhagem de dados no Unity Catalog automatizada, as equipes de dados podem rastrear automaticamente dados sensíveis até o nível de coluna para atender a requisitos de conformidade e relatórios de auditoria, garantir a qualidade dos dados em todas as cargas de trabalho, realizar análise de impacto ou gestão de mudanças de quaisquer alterações de dados em todo o lakehouse e conduzir análise de causa raiz de quaisquer erros em seus pipelines de dados.

Linhagem de dados com o Unity Catalog
Automated column-level lineage with Databricks Unity Catalog
Voltar ao glossário