Catálogo Unity (UC) tabelas gerenciadas combinam forte governança com perfeita interoperabilidade entre ferramentas. Como os dados estão armazenados na nuvem do cliente, as organizações mantêm total controle sobre sua localização física, enquanto se beneficiam da inteligência e automação integradas da Databricks.
Hoje, as tabelas gerenciadas UC são o tipo de tabela mais comumente usado no Databricks; duas em cada três tabelas UC são gerenciadas. Essa adoção reflete sua capacidade de simplificar operações, reduzir custos e melhorar o desempenho em escala.
Com as tabelas gerenciadas UC, as organizações podem ter certeza de que estão sempre usando os recursos mais recentes da tabela. Essas tabelas são atualizadas automaticamente e, ao contrário de outros tipos de tabelas, elas entendem os padrões de uso, permitindo que novas capacidades sejam habilitadas de forma segura e incremental, sem intervenção manual.
A estrutura das tabelas gerenciadas UC também permite capacidades avançadas de IA que não eram possíveis antes. Como todas as leituras e gravações são feitas através do Unity Catalog, o Databricks pode otimizar inteligentemente os dados com base no uso real, melhorando o desempenho das consultas, reduzindo os custos de armazenamento e eliminando a manutenção de rotina.
Os principais benefícios incluem:
Neste blog, forneceremos uma análise detalhada das características que tornam as tabelas gerenciadas UC eficazes, juntamente com melhorias recentes e uma prévia do que está por vir.
"As otimizações automáticas das tabelas gerenciadas pelo Unity Catalog nos economizaram mais de $1 milhão por ano em custos de armazenamento, eliminando a necessidade de um esforço manual tedioso diariamente." —Abhinav Raghuvanshi, Diretor Associado de Engenharia de Dados na Zepto
As tabelas gerenciadas pelo UC são otimizadas por padrão, sem necessidade de ajuste manual. Eles se adaptam continuamente com base nas cargas de trabalho de consulta para melhorar o desempenho, reduzir os custos de armazenamento e simplificar o gerenciamento do ciclo de vida.
As tabelas gerenciadas pelo UC também simplificam as operações com recursos integrados como aspiração automática, compactação de arquivos e cache de metadados. Como são construídas em formatos abertos como Delta e Iceberg, as tabelas gerenciadas UC se integram facilmente com ferramentas e motores de terceiros.
As tabelas gerenciadas pelo UC aplicam um conjunto de técnicas orientadas por IA para oferecer até economia de custos de mais de 50% e consultas 20 vezes mais rápidas:
As tabelas gerenciadas pela UC agrupam automaticamente os dados com base em padrões de consulta observados, sem necessidade de qualquer configuração manual. Em contraste, as tabelas externas da UC exigem que os engenheiros de dados executem comandos OPTIMIZE e definam manualmente as chaves de agrupamento. Com as tabelas gerenciadas, a Otimização Preditiva lida com o agrupamento dinamicamente, melhorando o desempenho da consulta e reduzindo os custos de armazenamento sem esforço adicional. [Leia mais]
Nas tabelas gerenciadas UC, a Otimização Preditiva identifica automaticamente quando uma operação VACUUM é benéfica e a agenda de acordo. VACUUM remove arquivos associados a linhas excluídas após um período de retenção definido, ajudando a reduzir o uso de armazenamento. Para tabelas externas UC, este processo deve ser gerenciado manualmente executando o comando VACUUM.
Quando uma tabela gerenciada UC é descartada, os dados subjacentes no armazenamento em nuvem são automaticamente excluídos após 7 dias, ajudando a reduzir os custos de armazenamento e evitar arquivos órfãos. Em contraste, a exclusão de uma tabela externa UC não deleta os dados; os usuários devem remover manualmente os arquivos de seu bucket de armazenamento. Se esta etapa for ignorada, os dados permanecem, levando ao uso desnecessário de armazenamento. Consulte a seção de roteiro para melhorias futuras neste comportamento.
As tabelas gerenciadas UC coletam automaticamente estatísticas que melhoram o desempenho da consulta através de uma melhor omissão de dados e planejamento de junção. Métricas-chave, como valores mínimos e máximos de colunas, ajudam o sistema a identificar e ignorar arquivos irrelevantes durante a execução da consulta, reduzindo a sobrecarga de computação. Enquanto as tabelas externas UC geram estatísticas nas primeiras 32 colunas por padrão, as tabelas gerenciadas UC priorizam dinamicamente as colunas mais relevantes para as cargas de trabalho de consulta reais. [Leia mais]
As tabelas gerenciadas UC usam o cache em memória dos metadados de transação para reduzir o acesso aos logs de transação baseados em nuvem. Isso reduz os custos de computação e melhora o desempenho do planejamento de consultas. O recurso é exclusivo para tabelas gerenciadas pelo UC, onde o Databricks pode rastrear todas as gravações e garantir que os metadados em cache permaneçam consistentes com o estado atual.
O Databricks usa IA para compactar automaticamente os arquivos para tamanhos ótimos, com base em padrões aprendidos a partir de milhares de implantações no mundo real. Essa otimização ocorre à medida que os dados são escritos e ajuda a melhorar o desempenho da consulta, reduzindo a fragmentação de arquivos e a sobrecarga de varredura. [Leia Mais]
As tabelas gerenciadas UC são construídas em formatos abertos como Delta e Iceberg, permitindo ampla compatibilidade em todo o ecossistema moderno de dados. Elas podem ser acessadas por qualquer motor que suporte esses formatos, incluindo Trino, DuckDB, Apache Spark™, Daft, e ferramentas integradas com o catálogo REST Iceberg, como o Dremio.
O acesso seguro é possibilitado através de APIs abertas e fornecimento de credenciais, permitindo que ferramentas externas interajam com dados governados sem duplicá-los. Isso simplifica a arquitetura e permite uma única fonte de verdade em análises e cargas de trabalho de IA.
O suporte para gravações de terceiros também está se expandindo. Em Prévia Privada, as tabelas gerenciadas UC agora aceitam gravações de clientes Delta não-Databricks - como o Apache Spark - tornando mais fácil a integração com frameworks de processamento externos enquanto mantém a governança do Catálogo Unity.
O Delta Sharing, único protocolo de compartilhamento aberto da indústria, aumenta ainda mais a interoperabilidade, permitindo acesso seguro e somente leitura aos dados subjacentes, mesmo para destinatários que não usam o Databricks. Essas capacidades ajudam a estender o acesso a dados governados através de plataformas, parceiros e aplicações.
Como essas otimizações se aplicam no nível do layout de dados, os ganhos de desempenho são universais. Ferramentas externas se beneficiam do mesmo layout em cluster, arquivos compactados e estatísticas ricas, resultando em consultas mais rápidas e leituras mais eficientes, independentemente do motor.
Várias novas funcionalidades estão chegando em breve que tornarão as tabelas gerenciadas UC ainda mais poderosas e flexíveis:
Ganhe visibilidade sobre tabelas não utilizadas, janelas de retenção, tendências de tamanho de tabela e metadados personalizados, facilitando o gerenciamento de custos e a aplicação das melhores práticas.
Personalize a janela de retenção para tabelas excluídas, incluindo suporte para exclusão imediata para reduzir ainda mais os custos de armazenamento.
Comandos para mover tabelas entre catálogos e esquemas, ajudando as equipes a manter os conjuntos de dados logicamente organizados à medida que os ambientes evoluem.
Suporte para commits atômicos em várias tabelas. Se qualquer operação falhar, toda a transação é revertida, melhorando a confiabilidade para operações de dados complexas.
As tabelas gerenciadas UC são ativadas por padrão e fáceis de adotar, seja criando novas tabelas ou convertendo as existentes.
Para novas cargas de trabalho, as tabelas gerenciadas pela UC são criadas sem a necessidade de especificar um local de armazenamento. O Databricks gerencia automaticamente o caminho dos dados no armazenamento em nuvem de propriedade do cliente:
CREATE OR REPLACE TABLE catalog.schema.my_managed_table
Organizações que desejam converter para tabelas gerenciadas podem usar o seguinte comando para converter tabelas externas UC:
ALTER TABLE catalog.schema.my_external_table SET MANAGED
Visualize a documentação e solicite acesso à pré-visualização pública restrita usando este formulário.
Para equipes que estão migrando de tipos de tabelas estrangeiras, a conversão para tabelas gerenciadas pela UC está disponível em Visualização Privada. Isso facilita a consolidação da governança e otimização sob o Unity Catalog. Você pode solicitar acesso à visualização restrita usando este formulário.
Para experimentar recursos como escritas de terceiros em tabelas gerenciadas, transações multi-tabelas ou reorganização de esquema, entre em contato com a sua equipe de conta Databricks para participar dos programas de pré-visualização relevantes.
(This blog post has been translated using AI-powered tools) Original Post