• A qualidade de dados manual e baseada em regras não escala à medida que os patrimônios de dados crescem para analítica e AI.
• O monitoramento agêntico da qualidade de dados aprende os padrões de dados esperados e detecta problemas em datasets críticos.
• Sinais nativos da plataforma, como a linhagem do Unity Catalog, ajudam as equipes a resolver problemas mais rapidamente em escala empresarial.
À medida que as organizações criam mais produtos de dados e IA, manter a qualidade dos dados se torna mais difícil. Os dados alimentam tudo, desde painéis executivos até bots de Q&A para toda a empresa. Uma tabela desatualizada leva a respostas desatualizadas ou até mesmo incorretas, afetando diretamente os resultados de negócios.
A maioria das abordagens de qualidade de dados não se adapta a essa realidade. As equipes de dados dependem de regras definidas manualmente aplicadas a um pequeno conjunto de tabelas. À medida que os patrimônios de dados crescem, eles criam pontos cegos e limitam a visibilidade da saúde geral.
As equipes adicionam continuamente novas tabelas, cada uma com seus próprios padrões de dados. Manter verificações personalizadas para cada dataset não é sustentável. Na prática, apenas algumas tabelas críticas são monitoradas, enquanto a maior parte do patrimônio de dados permanece sem verificação.
O resultado é que as organizações têm mais dados do que nunca, mas menos confiança para usá-los.
Hoje, a Databricks anuncia o Public Preview do Monitoramento da Qualidade de Dados no AWS, Azure Databricks e GCP.
O monitoramento da qualidade de dados substitui as verificações manuais e fragmentadas por uma abordagem agêntica desenvolvida para escala. Em vez de limites estáticos, os agentes de IA aprendem padrões de dados normais, se adaptam a mudanças e monitoram o patrimônio de dados continuamente.
A integração profunda com a Databricks Platform vai além da detecção.
Com o monitoramento nativo da plataforma, as equipes detectam problemas mais cedo, se concentram no que é mais importante e resolvem problemas mais rapidamente em escala empresarial.
“Nosso objetivo sempre foi que nossos dados nos avisassem quando houvesse um problema. O monitoramento da Qualidade dos Dados do Databricks finalmente faz isso por meio de sua abordagem orientada por AI. Ele se integra perfeitamente à UI, com o monitoramento de todas as nossas tabelas com uma abordagem automatizada e sem necessidade de configuração, o que sempre foi um fator limitante em outros produtos. Em vez de os usuários relatarem problemas, nossos dados os sinalizam primeiro, melhorando a qualidade, a confiança e a integridade em nossa plataforma.” — Jake Roussis, Engenheiro de dados líder da Alinta Energy
O monitoramento da qualidade de dados oferece percepções acionáveis por meio de dois métodos complementares.
Habilitada no nível do esquema, a detecção de anomalias monitora todas as tabelas críticas sem configuração manual. Agentes de IA aprendem padrões históricos e comportamento sazonal para identificar mudanças inesperadas.
Habilitado no nível da tabela, o perfil de dados captura estatísticas de resumo e rastreia suas alterações ao longo do tempo. Essas métricas fornecem contexto histórico e serão fornecidas à detecção de anomalias para que você possa identificar problemas facilmente.

“Na OnePay, nossa missão é ajudar as pessoas a alcançar o progresso financeiro, capacitando-as a economizar, gastar, tomar empréstimos e fazer seu dinheiro render. Dados de alta qualidade em todos os nossos datasets são essenciais para cumprir essa missão. Com o Monitoramento da Qualidade de Dados, podemos detectar problemas com antecedência e tomar medidas rápidas. Conseguimos garantir a precisão em nossa analítica, relatórios e no desenvolvimento de modelos de ML robustos, o que contribui para atendermos melhor nossos clientes.” — Nameet Pai, Head de Engenharia de Plataforma e Dados da OnePay
Com o monitoramento de qualidade automatizado implementado, as equipes da plataforma de dados podem acompanhar a saúde geral de seus dados e garantir a resolução oportuna de quaisquer problemas.
Monitoramento agêntico com um clique: Monitore esquemas inteiros sem a necessidade de criar regras manuais e configurar limites. O monitoramento da qualidade de dados aprende padrões históricos e comportamentos sazonais (por exemplo, quedas de volume nos fins de semana, período de imposto de renda etc.) para detectar anomalias de forma inteligente em todas as suas tabelas.
Visão holística da integridade dos dados: Acompanhe facilmente a integridade de todas as tabelas em uma visão consolidada e garanta que os problemas sejam corrigidos.

Indicador de integridade: Sinais de qualidade consistentes são populados de pipelines de upstream para superfícies de negócios de downstream. As equipes de engenharia de dados são notificadas primeiro sobre os problemas, e os consumidores podem saber instantaneamente se os dados são seguros para uso.

Veja o que está em nosso roteiro para os próximos meses:
Experimente o monitoramento inteligente em grande escala e crie uma plataforma de dados self-service confiável. Experimente o Public Preview hoje mesmo:
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
Produto
June 12, 2024/11 min de leitura

