Ir para o conteúdo principal

Encontre dados sensíveis em escala com a Classificação de Dados no Unity Catalog

Detecte, marque e rastreie automaticamente PII em todo o seu ambiente de dados usando agentes de IA, sem marcação manual ou scripts.

Blog: Find Sensitive Data at Scale with Data Classification in Unity Catalog

Published: October 27, 2025

Produto6 min de leitura

Summary

• A Classificação de Dados da Databricks facilita a descoberta contínua de dados sensíveis e a eliminação de pontos cegos de conformidade em todo o seu patrimônio de dados.
• A classificação de dados utiliza IA agêntica para identificar e aplicar tags a PII automaticamente e em escala, mantendo os dados sensíveis visíveis, auditáveis e governados à medida que novas tabelas e colunas são criadas.
• As equipes podem usar a classificação de dados para automatizar a proteção com ABAC, impor políticas de acesso consistentes e compartilhar dados com confiança sem aumentar o risco.

Por que os dados confidenciais passam despercebidos

À medida que as organizações escalam suas plataformas de dados, informações confidenciais muitas vezes ficam à vista de todos. Novas tabelas chegam todos os dias, os cenários regulatórios estão se tornando cada vez mais complexos e os riscos estão mais altos do que nunca. De acordo com o GDPR Enforcement Tracker Report, só as multas do GDPR ultrapassaram 5,6 bilhões de euros em 2025, um crescimento de 1,17 bilhão de euros desde 2024.

Os métodos de descoberta manual simplesmente não escalam. O que funcionava para centenas de tabelas falha em milhares. O resultado? Pontos cegos de conformidade, auditorias caras e paralisação da democratização de dados. O problema fundamental é que você simplesmente não consegue proteger o que não encontra.

Apresentando a Classificação de Dados Agêntica

Hoje, temos o prazer de anunciar o Public Preview do Databricks Data Classification na AWS, Azure Databricks e GCP.

A Classificação de Dados usa um sistema de IA agentiva para descobrir e marcar automaticamente dados sensíveis em todos os seus catálogos. Ele fornece visibilidade contínua de onde residem as informações de identificação pessoal (PII), permitindo que você permaneça em conformidade, automatize a proteção e compartilhe dados com segurança entre as equipes, mesmo com o crescimento dos seus dados. 

A Classificação de Dados oferece detecção de PII abrangente e automatizada em todo o nosso ambiente de dados em expansão, garantindo que as informações confidenciais sejam claramente identificadas e permitindo uma proteção consistente. Essa abordagem não só ajuda a proteger ativos confidenciais, mas também reduz as cargas de trabalho manuais. À medida que implementamos isso de forma mais ampla, esperamos liberar nossas equipes para iniciativas de maior valor. —  Gregg Rinsler, Diretor Sênior de Governança de Dados, FanDuel

Transforme auditorias manuais em visibilidade contínua

Com a classificação automatizada implementada, suas equipes podem passar da classificação manual para a governança estratégica:

  • Prontidão para auditoria: Extraia logs completos para mostrar onde as PII residem e exatamente quais usuários e grupos têm acesso a elas.
  • Linhagem completa: Rastreie exatamente onde a PII existe e para onde ela flui nos processos seguintes. Não corra o risco de ignorar pontos em que a PII foi copiada acidentalmente para conjuntos de dados subsequentes.
  • Solicitações de exclusão de dados: Localize e limpe todas as instâncias de dados do usuário em todas as suas tabelas.
O ativo mais valioso de toda equipe de dados é a confiança, que é "consistência ao longo do tempo". O Data Classification ajuda a entregar essa confiança, verificando nosso ambiente de dados em busca de PII e automatizando os fluxos de trabalho de correção. O resultado são dados verificados e em conformidade nos quais as equipes podem confiar. — Sam Shah, vice-presidente de engenharia, equipe de dados da Databricks

Como funciona a Classificação de Dados

A classificação de dados foi projetada para oferecer uma classificação automatizada e agentiva que abrange todos os seus dados. Veja como fazemos: 

IA agentiva para classificação precisa: Combina reconhecimento de padrões comprovado, metadados e modelos de linguagem grande com precisão até 60% maior do que as ferramentas somente de regex. Seus dados nunca saem do seu ambiente, seguindo os padrões de controles de segurança de IA do Databricks (AWSAzure GCP). 

Verificação eficiente e inteligente para escala empresarial: Verifica todo o seu catálogo uma vez e depois verifica novamente apenas tabelas e colunas novas ou alteradas. A linhagem do Unity Catalog garante que conjuntos de dados críticos sejam verificados incrementalmente, garantindo que PII sejam detectadas assim que aparecem. Desde nosso lançamento Beta inicial, melhoramos significativamente a velocidade de detecção e reduzimos os custos de verificação em até 75%. Este sistema foi testado em condições reais para garantir alto desempenho à medida que sua plataforma de dados cresce.

Revisão e validação: Obtenha visibilidade completa das colunas que contêm PII e de quem tem acesso a esses dados atualmente. Nossa UI de revisão focada exibe detecções de alta confiança com dados de amostra, permitindo que você aplique tags em massa facilmente. Os resultados completos são armazenados em tabelas do sistema para relatórios personalizados ou aplicação de tags. 

O Data Classification está transformando nossa abordagem de conformidade, automatizando a detecção de PII. Usamos os resultados da classificação junto com um fluxo de trabalho de autorização via Databricks Apps para habilitar controles de acesso Just-In-Time. Isso nos permite manter os dados confidenciais acessíveis apenas quando necessário. Eliminamos os esforços manuais para isso e, em vez disso, criamos detecção e proteção automatizadas em todos os nossos dados que residem na Databricks Platform. — Abhijit Joshi, Staff Data Engineer, Oportun

Crie um controle de acesso escalável 

Quando você sabe onde os dados sensíveis estão, fica mais fácil protegê-los e o acesso pode escalar com segurança.

  • Automatize os níveis de confidencialidade: Automatize os fluxos de trabalho de solicitação de acesso existentes, em que os usuários são aprovados com base na confidencialidade do conjunto de dados. Por exemplo, use as tags de Classificação de Dados para categorizar tabelas automaticamente de acordo com os níveis de confidencialidade da sua organização (por exemplo, confidencial, restrito, interno ou público). 
  • Escale a governança com políticas ABAC: políticas de Controle de Acesso Baseado em Atributos (ABAC) mascaram ou criptografam automaticamente colunas sensíveis. Por exemplo, configure uma política que mascara todas as colunas marcadas como [class.name], [class.email_address] e [class.phone_number] para todos, exceto para sua equipe de segurança. Uma vez configurada, essa política se aplica automaticamente a dados marcados como sensíveis, garantindo uma proteção de dados consistente que escala com o seu negócio.

  • Use o ABAC para liberar o acesso com segurança: Considere a tabela de transações de clientes no exemplo acima, que pode conter tanto colunas confidenciais (por exemplo, customer_name, email, phone) quanto colunas não confidenciais (por exemplo, as colunas transaction_id ou customer_id). As políticas de ABAC mascaram apenas as colunas confidenciais, deixando os campos não confidenciais abertos. Não é necessário bloquear tabelas inteiras ou manter lógicas de visualização complexas.

E agora?

Confira o que está em nosso roadmap para os próximos meses:

  • Suporte a API e Terraform *Disponível em Public Preview em breve*
  • Classificadores regionais e específicos de domínio integrados como PHI e PCI *Disponível em breve no Public Preview*
  • Regras de classificação personalizadas para padrões de dados específicos do negócio. Estamos usando sistemas de IA agênticos para desenvolver padrões específicos para os dados da sua empresa *Em Private Preview* 

Comece a usar o Public Preview hoje

Pronto para transformar processos manuais em Classificação de Dados automatizada? Comece a usar nossos recursos abaixo: 

  • Leia a documentação do nosso produto (AWS | Azure | GCP)
  • O produto é compatível com HIPAA e segue os padrões de confiança e segurança dos recursos de IA da Databricks. Leia mais em nossas Perguntas frequentes sobre segurança aqui (AWS | Azure | GCP).
  • Entre em contato com seu representante de contas para se inscrever no nosso Private Preview de classificadores personalizados
  • Comece hoje mesmo e habilite a Classificação de Dados em qualquer guia de Detalhes do Catálogo

 

(This blog post has been translated using AI-powered tools) Original Post

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada