Ir para o conteúdo principal

Como as Tabelas Gerenciadas do Catálogo Unity Automatizam o Desempenho em Escala

Otimizações de IA integradas proporcionam economia de custos de mais de 50% e consultas 20 vezes mais rápidas - sem necessidade de ajustes manuais

Image shows the AI-powered data optimization cycle. The model learns from table data and query patterns, then predicts the best optimizations, and optimizations are automatically run. This then feeds back into the learning loop.

Published: June 30, 2025

Produto7 min de leitura

Summary

  • Aprenda sobre as características que fazem das tabelas gerenciadas do Catálogo Unity (UC) a melhor prática padrão para gerenciamento de dados
  • Reduza os custos em 50%+ e melhore o desempenho das consultas em 20x+ com a Otimização Preditiva em tabelas gerenciadas UC
  • Economize tempo de engenharia de dados com otimizações de dados automáticas e inteligentes que se adaptam aos padrões de uso

Catálogo Unity (UC) tabelas gerenciadas combinam forte governança com perfeita interoperabilidade entre ferramentas. Como os dados estão armazenados na nuvem do cliente, as organizações mantêm total controle sobre sua localização física, enquanto se beneficiam da inteligência e automação integradas da Databricks.

Hoje, as tabelas gerenciadas UC são o tipo de tabela mais comumente usado no Databricks; duas em cada três tabelas UC são gerenciadas. Essa adoção reflete sua capacidade de simplificar operações, reduzir custos e melhorar o desempenho em escala. 

Com as tabelas gerenciadas UC, as organizações podem ter certeza de que estão sempre usando os recursos mais recentes da tabela. Essas tabelas são atualizadas automaticamente e, ao contrário de outros tipos de tabelas, elas entendem os padrões de uso, permitindo que novas capacidades sejam habilitadas de forma segura e incremental, sem intervenção manual.

A imagem mostra o ciclo de vida da otimização de dados alimentado por IA. O modelo aprende a partir de dados de tabela e padrões de consulta, prevê as melhores otimizações, executa-as automaticamente e observa mudanças nos dados da tabela e padrões de consulta em um ciclo de feedback.

A estrutura das tabelas gerenciadas UC também permite capacidades avançadas de IA que não eram possíveis antes. Como todas as leituras e gravações são feitas através do Unity Catalog, o Databricks pode otimizar inteligentemente os dados com base no uso real, melhorando o desempenho das consultas, reduzindo os custos de armazenamento e eliminando a manutenção de rotina.

Os principais benefícios incluem:

  • Atualizações automáticas com os recursos mais recentes
  • Automanutenção com compactação, agrupamento e aspiração
  • Economia de custos de armazenamento e computação através da otimização inteligente
  • Acesso seguro via APIs abertas, mesmo para clientes não-Databricks
  • Consultas mais rápidas em todos os clientes, não apenas no Databricks

Neste blog, forneceremos uma análise detalhada das características que tornam as tabelas gerenciadas UC eficazes, juntamente com melhorias recentes e uma prévia do que está por vir.

"As otimizações automáticas das tabelas gerenciadas pelo Unity Catalog nos economizaram mais de $1 milhão por ano em custos de armazenamento, eliminando a necessidade de um esforço manual tedioso diariamente." —Abhinav Raghuvanshi, Diretor Associado de Engenharia de Dados na Zepto

Quais são os benefícios das tabelas gerenciadas pelo Catálogo Unity?

As tabelas gerenciadas pelo UC são otimizadas por padrão, sem necessidade de ajuste manual. Eles se adaptam continuamente com base nas cargas de trabalho de consulta para melhorar o desempenho, reduzir os custos de armazenamento e simplificar o gerenciamento do ciclo de vida.

As tabelas gerenciadas pelo UC também simplificam as operações com recursos integrados como aspiração automática, compactação de arquivos e cache de metadados. Como são construídas em formatos abertos como Delta e Iceberg, as tabelas gerenciadas UC se integram facilmente com ferramentas e motores de terceiros.

Otimizações Inteligentes Impulsionam Ganhos de Custo e Desempenho

As tabelas gerenciadas pelo UC aplicam um conjunto de técnicas orientadas por IA para oferecer até economia de custos de mais de 50% e consultas 20 vezes mais rápidas:

Agrupamento Líquido Automático

As tabelas gerenciadas pela UC agrupam automaticamente os dados com base em padrões de consulta observados, sem necessidade de qualquer configuração manual. Em contraste, as tabelas externas da UC exigem que os engenheiros de dados executem comandos OPTIMIZE e definam manualmente as chaves de agrupamento. Com as tabelas gerenciadas, a Otimização Preditiva lida com o agrupamento dinamicamente, melhorando o desempenho da consulta e reduzindo os custos de armazenamento sem esforço adicional. [Leia mais]

o agrupamento líquido automático ignora 90% dos arquivos para consultas mais rápidas e custos de computação mais baixos

VACUUM Automático

Nas tabelas gerenciadas UC, a Otimização Preditiva identifica automaticamente quando uma operação VACUUM é benéfica e a agenda de acordo. VACUUM remove arquivos associados a linhas excluídas após um período de retenção definido, ajudando a reduzir o uso de armazenamento. Para tabelas externas UC, este processo deve ser gerenciado manualmente executando o comando VACUUM.

A limpeza automática exclui dados que não são mais referenciados por nenhuma tabela ativa, economizando espaço de armazenamento

DROP Adiado com Limpeza Automática

Quando uma tabela gerenciada UC é descartada, os dados subjacentes no armazenamento em nuvem são automaticamente excluídos após 7 dias, ajudando a reduzir os custos de armazenamento e evitar arquivos órfãos. Em contraste, a exclusão de uma tabela externa UC não deleta os dados; os usuários devem remover manualmente os arquivos de seu bucket de armazenamento. Se esta etapa for ignorada, os dados permanecem, levando ao uso desnecessário de armazenamento. Consulte a seção de roteiro para melhorias futuras neste comportamento.

Coleta Automática de Estatísticas

As tabelas gerenciadas UC coletam automaticamente estatísticas que melhoram o desempenho da consulta através de uma melhor omissão de dados e planejamento de junção. Métricas-chave, como valores mínimos e máximos de colunas, ajudam o sistema a identificar e ignorar arquivos irrelevantes durante a execução da consulta, reduzindo a sobrecarga de computação. Enquanto as tabelas externas UC geram estatísticas nas primeiras 32 colunas por padrão, as tabelas gerenciadas UC priorizam dinamicamente as colunas mais relevantes para as cargas de trabalho de consulta reais. [Leia mais]

A imagem mostra como as Estatísticas Automáticas são coletadas automaticamente para colunas, para que arquivos irrelevantes possam ser ignorados. Isso resulta em consultas mais rápidas e custos de computação mais baixos.

Cache de Metadados

As tabelas gerenciadas UC usam o cache em memória dos metadados de transação para reduzir o acesso aos logs de transação baseados em nuvem. Isso reduz os custos de computação e melhora o desempenho do planejamento de consultas. O recurso é exclusivo para tabelas gerenciadas pelo UC, onde o Databricks pode rastrear todas as gravações e garantir que os metadados em cache permaneçam consistentes com o estado atual.

O cache de metadados reduz o número de chamadas feitas para o armazenamento em nuvem, o que acelera as consultas

Otimização do Tamanho do Arquivo

O Databricks usa IA para compactar automaticamente os arquivos para tamanhos ótimos, com base em padrões aprendidos a partir de milhares de implantações no mundo real. Essa otimização ocorre à medida que os dados são escritos e ajuda a melhorar o desempenho da consulta, reduzindo a fragmentação de arquivos e a sobrecarga de varredura. [Leia Mais]

As tabelas gerenciadas pelo Unity Catalog compactam automaticamente os arquivos para terem o tamanho certo.

Aberto e Interoperável por Design

As tabelas gerenciadas UC são construídas em formatos abertos como Delta e Iceberg, permitindo ampla compatibilidade em todo o ecossistema moderno de dados. Elas podem ser acessadas por qualquer motor que suporte esses formatos, incluindo Trino, DuckDB, Apache Spark™, Daft, e ferramentas integradas com o catálogo REST Iceberg, como o Dremio.

O acesso seguro é possibilitado através de APIs abertas e fornecimento de credenciais, permitindo que ferramentas externas interajam com dados governados sem duplicá-los. Isso simplifica a arquitetura e permite uma única fonte de verdade em análises e cargas de trabalho de IA.

O suporte para gravações de terceiros também está se expandindo. Em Prévia Privada, as tabelas gerenciadas UC agora aceitam gravações de clientes Delta não-Databricks - como o Apache Spark - tornando mais fácil a integração com frameworks de processamento externos enquanto mantém a governança do Catálogo Unity.

O Delta Sharing, único protocolo de compartilhamento aberto da indústria, aumenta ainda mais a interoperabilidade, permitindo acesso seguro e somente leitura aos dados subjacentes, mesmo para destinatários que não usam o Databricks. Essas capacidades ajudam a estender o acesso a dados governados através de plataformas, parceiros e aplicações.

Como essas otimizações se aplicam no nível do layout de dados, os ganhos de desempenho são universais. Ferramentas externas se beneficiam do mesmo layout em cluster, arquivos compactados e estatísticas ricas, resultando em consultas mais rápidas e leituras mais eficientes, independentemente do motor.

O que está no Roadmap

Várias novas funcionalidades estão chegando em breve que tornarão as tabelas gerenciadas UC ainda mais poderosas e flexíveis:

Observabilidade ao Nível da Tabela

Ganhe visibilidade sobre tabelas não utilizadas, janelas de retenção, tendências de tamanho de tabela e metadados personalizados, facilitando o gerenciamento de custos e a aplicação das melhores práticas.

Períodos UNDROP Configuráveis

Personalize a janela de retenção para tabelas excluídas, incluindo suporte para exclusão imediata para reduzir ainda mais os custos de armazenamento.

Ferramentas de Reorganização de Esquema e Catálogo

Comandos para mover tabelas entre catálogos e esquemas, ajudando as equipes a manter os conjuntos de dados logicamente organizados à medida que os ambientes evoluem.

Transações Multi-Declaração e Multi-Tabela (Prévia Privada)

Suporte para commits atômicos em várias tabelas. Se qualquer operação falhar, toda a transação é revertida, melhorando a confiabilidade para operações de dados complexas.

Começando com tabelas gerenciadas pela UC

As tabelas gerenciadas UC são ativadas por padrão e fáceis de adotar, seja criando novas tabelas ou convertendo as existentes.

Crie uma nova tabela gerenciada

Para novas cargas de trabalho, as tabelas gerenciadas pela UC são criadas sem a necessidade de especificar um local de armazenamento. O Databricks gerencia automaticamente o caminho dos dados no armazenamento em nuvem de propriedade do cliente:

CREATE OR REPLACE TABLE catalog.schema.my_managed_table 

Converter uma tabela externa UC existente para gerenciada

Organizações que desejam converter para tabelas gerenciadas podem usar o seguinte comando para converter tabelas externas UC:

ALTER TABLE catalog.schema.my_external_table SET MANAGED

Visualize a documentação e solicite acesso à pré-visualização pública restrita usando este formulário.

Converter tabelas estrangeiras (não-UC)

Para equipes que estão migrando de tipos de tabelas estrangeiras, a conversão para tabelas gerenciadas pela UC está disponível em Visualização Privada. Isso facilita a consolidação da governança e otimização sob o Unity Catalog. Você pode solicitar acesso à visualização restrita usando este formulário.

Experimente recursos avançados em prévia

Para experimentar recursos como escritas de terceiros em tabelas gerenciadas, transações multi-tabelas ou reorganização de esquema, entre em contato com a sua equipe de conta Databricks para participar dos programas de pré-visualização relevantes.

 

(This blog post has been translated using AI-powered tools) Original Post

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada