• A Classificação de Dados da Databricks facilita a descoberta contínua de dados sensíveis e a eliminação de pontos cegos de conformidade em todo o seu patrimônio de dados.
• A classificação de dados utiliza IA agêntica para identificar e aplicar tags a PII automaticamente e em escala, mantendo os dados sensíveis visíveis, auditáveis e governados à medida que novas tabelas e colunas são criadas.
• As equipes podem usar a classificação de dados para automatizar a proteção com ABAC, impor políticas de acesso consistentes e compartilhar dados com confiança sem aumentar o risco.
À medida que as organizações escalam suas plataformas de dados, informações confidenciais muitas vezes ficam à vista de todos. Novas tabelas chegam todos os dias, os cenários regulatórios estão se tornando cada vez mais complexos e os riscos estão mais altos do que nunca. De acordo com o GDPR Enforcement Tracker Report, só as multas do GDPR ultrapassaram 5,6 bilhões de euros em 2025, um crescimento de 1,17 bilhão de euros desde 2024.
Os métodos de descoberta manual simplesmente não escalam. O que funcionava para centenas de tabelas falha em milhares. O resultado? Pontos cegos de conformidade, auditorias caras e paralisação da democratização de dados. O problema fundamental é que você simplesmente não consegue proteger o que não encontra.
Hoje, temos o prazer de anunciar o Public Preview do Databricks Data Classification na AWS, Azure Databricks e GCP.
A Classificação de Dados usa um sistema de IA agentiva para descobrir e marcar automaticamente dados sensíveis em todos os seus catálogos. Ele fornece visibilidade contínua de onde residem as informações de identificação pessoal (PII), permitindo que você permaneça em conformidade, automatize a proteção e compartilhe dados com segurança entre as equipes, mesmo com o crescimento dos seus dados.
A Classificação de Dados oferece detecção de PII abrangente e automatizada em todo o nosso ambiente de dados em expansão, garantindo que as informações confidenciais sejam claramente identificadas e permitindo uma proteção consistente. Essa abordagem não só ajuda a proteger ativos confidenciais, mas também reduz as cargas de trabalho manuais. À medida que implementamos isso de forma mais ampla, esperamos liberar nossas equipes para iniciativas de maior valor. — Gregg Rinsler, Diretor Sênior de Governança de Dados, FanDuel
Com a classificação automatizada implementada, suas equipes podem passar da classificação manual para a governança estratégica:
O ativo mais valioso de toda equipe de dados é a confiança, que é "consistência ao longo do tempo". O Data Classification ajuda a entregar essa confiança, verificando nosso ambiente de dados em busca de PII e automatizando os fluxos de trabalho de correção. O resultado são dados verificados e em conformidade nos quais as equipes podem confiar. — Sam Shah, vice-presidente de engenharia, equipe de dados da Databricks

A classificação de dados foi projetada para oferecer uma classificação automatizada e agentiva que abrange todos os seus dados. Veja como fazemos:
IA agentiva para classificação precisa: Combina reconhecimento de padrões comprovado, metadados e modelos de linguagem grande com precisão até 60% maior do que as ferramentas somente de regex. Seus dados nunca saem do seu ambiente, seguindo os padrões de controles de segurança de IA do Databricks (AWS | Azure | GCP).
Verificação eficiente e inteligente para escala empresarial: Verifica todo o seu catálogo uma vez e depois verifica novamente apenas tabelas e colunas novas ou alteradas. A linhagem do Unity Catalog garante que conjuntos de dados críticos sejam verificados incrementalmente, garantindo que PII sejam detectadas assim que aparecem. Desde nosso lançamento Beta inicial, melhoramos significativamente a velocidade de detecção e reduzimos os custos de verificação em até 75%. Este sistema foi testado em condições reais para garantir alto desempenho à medida que sua plataforma de dados cresce.
Revisão e validação: Obtenha visibilidade completa das colunas que contêm PII e de quem tem acesso a esses dados atualmente. Nossa UI de revisão focada exibe detecções de alta confiança com dados de amostra, permitindo que você aplique tags em massa facilmente. Os resultados completos são armazenados em tabelas do sistema para relatórios personalizados ou aplicação de tags.
O Data Classification está transformando nossa abordagem de conformidade, automatizando a detecção de PII. Usamos os resultados da classificação junto com um fluxo de trabalho de autorização via Databricks Apps para habilitar controles de acesso Just-In-Time. Isso nos permite manter os dados confidenciais acessíveis apenas quando necessário. Eliminamos os esforços manuais para isso e, em vez disso, criamos detecção e proteção automatizadas em todos os nossos dados que residem na Databricks Platform. — Abhijit Joshi, Staff Data Engineer, Oportun

Quando você sabe onde os dados sensíveis estão, fica mais fácil protegê-los e o acesso pode escalar com segurança.
Escale a governança com políticas ABAC: políticas de Controle de Acesso Baseado em Atributos (ABAC) mascaram ou criptografam automaticamente colunas sensíveis. Por exemplo, configure uma política que mascara todas as colunas marcadas como [class.name], [class.email_address] e [class.phone_number] para todos, exceto para sua equipe de segurança. Uma vez configurada, essa política se aplica automaticamente a dados marcados como sensíveis, garantindo uma proteção de dados consistente que escala com o seu negócio.

Use o ABAC para liberar o acesso com segurança: Considere a tabela de transações de clientes no exemplo acima, que pode conter tanto colunas confidenciais (por exemplo, customer_name, email, phone) quanto colunas não confidenciais (por exemplo, as colunas transaction_id ou customer_id). As políticas de ABAC mascaram apenas as colunas confidenciais, deixando os campos não confidenciais abertos. Não é necessário bloquear tabelas inteiras ou manter lógicas de visualização complexas.

Confira o que está em nosso roadmap para os próximos meses:
Pronto para transformar processos manuais em Classificação de Dados automatizada? Comece a usar nossos recursos abaixo:
(This blog post has been translated using AI-powered tools) Original Post
Produto
June 11, 2024/11 min de leitura

