Ir para o conteúdo principal

Otimização Preditiva em Escala: um ano de inovação e o que vem a seguir

Consultas mais rápidas, custos de armazenamento mais baixos e automação completa em tabelas gerenciadas do Unity Catalog

Predictive Optimization at Scale: A Year of Innovation and What’s Next

Publicado: 18 de fevereiro de 2026

Produto8 min de leitura

Summary

  • A Otimização Preditiva agora é executada por default para novas tabelas gerenciadas do Unity Catalog e opera em grande escala
  • Novos recursos em 2025 proporcionaram consultas mais rápidas, manutenção de armazenamento mais barata e recursos aprimorados
  • Em 2026, a Otimização Preditiva se expande para a automação do ciclo de vida dos dados e observabilidade mais profunda

Introdução

O lakehouse mais performático e com o melhor custo-benefício é aquele que se otimiza à medida que os volumes de dados, os padrões de query e o uso organizacional continuam a evoluir. A Otimização Preditiva (PO) no Unity Catalog possibilita esse comportamento analisando continuamente como os dados são gravados e consultados e, em seguida, aplicando as ações de manutenção apropriadas automaticamente, sem exigir trabalho manual dos usuários ou das equipes de plataforma. Em 2025, a Otimização Preditiva passou de um recurso de automação opcional para o comportamento default da plataforma, gerenciando o desempenho e a eficiência do armazenamento em milhões de tabelas de produção e, ao mesmo tempo, removendo a carga operacional tradicionalmente associada ao ajuste de tabelas. Confira os marcos que nos trouxeram até aqui e o que vem a seguir em 2026.

Adoção em escala em todo o lakehouse

Ao longo de 2025, a Otimização Preditiva teve rápida adoção na Databricks Platform, à medida que os clientes passaram a depender cada vez mais da manutenção autônoma para gerenciar um patrimônio de dados crescente. A Otimização Preditiva cresceu rapidamente no último ano:

  • Exabytes de dados não referenciados foram vacuumed, resultando em dezenas de milhões de dólares em economia de custos de armazenamento
  • Centenas de petabytes de dados foram compactados e clusterizados para melhorar o desempenho de query e a eficiência da poda de arquivos
  • Milhões de tabelas adotaram o Automatic Liquid Clustering para gerenciamento autônomo da disposição de dados

Com base nas melhorias de desempenho consistentes observadas nessa escala, a Predictive Optimization agora está ativada por default para todas as novas tabelas gerenciadas, Workspaces e accounts do Unity Catalog.

Como a Otimização Preditiva funciona

Otimização Preditiva (PO) funciona como a camada de inteligência da plataforma para o lakehouse, otimizando continuamente o layout dos seus dados, reduzindo o espaço de armazenamento e mantendo as estatísticas de arquivo precisas necessárias para o planejamento eficiente de queries em tabelas gerenciadas do UC.

Com base nos padrões de uso observados, a PO determina automaticamente quando e como executar comandos como:

  • OPTIMIZE, que compacta arquivos pequenos e melhora a localidade dos dados para um acesso eficiente
  • VACUUM, que exclui arquivos não referenciados para controlar os custos de armazenamento
  • CLUSTER BY, que seleciona as colunas de clusterização ideais para tabelas com a Clusterização Líquida Automática
  • ANALYZE, que mantém estatísticas precisas para o planejamento de consultas e a omissão de dados

Todas as decisões de otimização são orientadas pela carga de trabalho e adaptáveis, eliminando a necessidade de gerenciar cronogramas, ajustar parâmetros ou revisar estratégias de otimização à medida que os padrões de query mudam.

UM LÍDER 5X

Gartner®: Databricks, líder em banco de dados em nuvem

Principais avanços em Otimização Preditiva em 2025

Estatísticas automáticas para queries 22% mais rápidas

Estatísticas precisas são essenciais para criar planos de consulta eficientes, no entanto, o gerenciamento manual de estatísticas se torna cada vez mais impraticável à medida que o volume de dados e a diversidade de consultas aumentam.

Com o Automatic Statistics (agora em disponibilidade geral), o Predictive Optimization determina quais colunas são importantes com base no comportamento de query observado e garante que as estatísticas permaneçam atualizadas sem comandos ANALYZE manuais.

As estatísticas são mantidas por meio de dois mecanismos complementares:

  • O Stats-on-write coleta estatísticas à medida que os dados são gravados com sobrecarga mínima, um método de 7 a 10 vezes mais eficiente do que executar o ANALYZE TABLE
  • A atualização em segundo plano atualiza as estatísticas quando elas se tornam obsoletas devido a alterações nos dados ou à evolução dos padrões de consulta.

Em cargas de trabalho de produção de clientes reais, essa abordagem proporcionou queries até 22% mais rápidas, ao mesmo tempo que removeu o custo operacional do gerenciamento manual de estatísticas.

VACUUMs 6x mais rápidos e 4x mais baratos

O VACUUM desempenha um papel fundamental no gerenciamento dos custos de armazenamento e da conformidade, excluindo arquivos de dados não referenciados. A operação de vacuum padrão requer a listagem de todos os arquivos em um diretório de tabela para identificar os candidatos à remoção, uma operação que pode levar mais de 40 minutos para tabelas com 10 milhões de arquivos.

A Otimização Preditiva agora aplica um caminho de execução VACUUM otimizado que aproveita o log de transações do Delta para identificar arquivos removíveis diretamente, evitando listagens de diretório dispendiosas sempre que possível.

Em escala, isso resultou em:

  • Execução de VACUUM até 6x mais rápida
  • Custo de computação até 4x menor em comparação com as abordagens padrão

O mecanismo determina dinamicamente quando usar essa abordagem baseada em log e quando executar uma varredura completa do diretório para limpar fragmentos de transações abortadas.

Clusterização Líquida Automática

Clusterização Líquida Automática atingiu a disponibilidade geral em 2025 e já está otimizando milhões de tabelas em produção.

O processo é totalmente orientado pela carga de trabalho:

  • Primeiro, a PO analisa a telemetria de todas as queries em sua tabela, observando métricas key como colunas de predicado, expressões de filtro e o número e o tamanho dos arquivos lidos e descartados.
  • Em seguida, ela executa a modelagem de cargas de trabalho, identificando e testando várias combinações de chaves de clusterização candidatas (por exemplo, clusterizadas por data, ou customer_id, ou ambos).
  • Por fim, o PO executa uma análise de custo-benefício para selecionar a melhor estratégia de clustering que maximizará a eliminação de query e reduzirá a varredura de dados, determinando até mesmo se a ordem de inserção existente da tabela já é suficiente.

Você obtém queries mais rápidas sem nenhum ajuste manual. Ao analisar automaticamente as cargas de trabalho e aplicar a disposição de dados ideal, a PO remove a tarefa complexa de seleção de keys de clusterização e garante que suas tabelas permaneçam com alto desempenho à medida que seus padrões de query evoluem.

Cobertura em toda a plataforma

A Otimização Preditiva se expandiu além das tabelas tradicionais para dar suporte a um conjunto mais amplo da Databricks Platform.

  • O PO agora se integra nativamente com Lakeflow Spark Declarative Pipelines (SDP), trazendo manutenção autônoma em segundo plano para Exibições Materializadas e Tabelas de transmissão.
  • A PO funciona em tabelas gerenciadas Delta e Iceberg
  • A PO é habilitada por padrão para todas as novas tabelas, workspaces e contas gerenciadas pelo Unity Catalog.

Isso garante a manutenção autônoma em todo o seu data estate, em vez da otimização isolada de tabelas individuais.

O que vem a seguir em 2026?

Temos o compromisso de oferecer recursos que substituem o ajuste manual de tabelas por manutenção automatizada. Em paralelo, estamos planejando ir além da integridade da tabela física para abordar a inteligência total do ciclo de vida dos dados— economia automatizada de custos de armazenamento, gerenciamento do ciclo de vida dos dados e exclusão de linhas. Também estamos priorizando a observabilidade aprimorada, integrando percepções da Predictive Optimization em operações comuns de tabela e no Governance Hub para fornecer visibilidade mais clara das operações do PO e seu ROI.

Auto-TTL (Exclusão Automática de Linha)

Gerenciar a retenção de dados ou controlar os custos de armazenamento é uma tarefa crítica, mas muitas vezes manual. Temos o prazer de apresentar o Auto-TTL, um novo recurso de Otimização Preditiva que automatiza completamente a exclusão de linhas. Usando esse recurso, você poderá definir uma política simples de tempo de vida (time-to-live) diretamente em qualquer tabela gerenciada pelo UC usando um comando como:

Depois que a política é definida, a Otimização Preditiva cuida do resto. Ela automatiza todo o processo de duas etapas, primeiro executando uma operação DELETE para fazer a exclusão lógica das linhas expiradas e, em seguida, executando um VACUUM para removê-las permanentemente do armazenamento físico.

Entre em contato com sua equipe de accounts hoje mesmo para experimentar isso na Private Preview!

Observabilidade aprimorada

Observabilidade aprimorada da Otimização Preditiva

Você poderá acompanhar o impacto direto e o ROI da Otimização Preditiva no novo Hub de Governança de Dados. Este painel de observabilidade oferecerá, de forma nativa, uma view centralizada das operações de PO, apresentando as key métricas que quantificam seu valor.

Use isso para ver exatamente o que o PO está fazendo nos bastidores, com visualizações claras de bytes compactados, bytes clusterizados pelo Liquid, bytes vacuumed e bytes analisados. O mais importante é que o hub traduz essas ações em valor comercial direto, mostrando sua economia estimada de custos de armazenamento. Isso tornará mais fácil do que nunca entender e comunicar o impacto positivo que o PO está tendo tanto nos seus custos de armazenamento quanto no desempenho das query.

Em DESCRIBED EXTENDED, você também poderá ver os motivos pelos quais a Otimização Preditiva pulou a otimização (por exemplo, tabela já bem clusterizada, tabela muito pequena para se beneficiar da compactação, etc).

Além disso, adicionamos a capacidade de ver as seleções de colunas para data skipping e Auto Liquid na tabela de sistema da PO.

Entre em contato com sua equipe de contas hoje mesmo para experimentar o Hub de governança de dados em Private Preview!

Observabilidade de armazenamento aprimorada no nível da tabela

Para fornecer maior clareza sobre o uso do seu armazenamento, apresentaremos recursos aprimorados de observabilidade para a Otimização Preditiva. Você poderá monitorar a integridade e a evolução de suas tabelas por meio de métricas de alto nível, como contagem de arquivos e crescimento do armazenamento. Ao apresentar essas percepções diretamente, tornamos mais fácil visualizar o impacto da manutenção automatizada e identificar novas oportunidades para reduzir custos e otimizar seu data estate.

Comece a usar a Otimização Preditiva

A Otimização Preditiva está disponível hoje para tabelas gerenciadas do Unity Catalog e está habilitada por padrão para novas cargas de trabalho.

Quando habilitada, os clientes se beneficiam automaticamente de uma execução mais rápida do VACUUM, de Estatísticas Automáticas cientes da carga de trabalho e de uma disposição de dados autônoma por meio da Clusterização Líquida Automática.

Você também pode explorar o Auto TTL e a observabilidade da Otimização Preditiva (Data Governance Hub) por meio da Private Preview, entrando em contato com sua equipe de contas.

 

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada

O que vem a seguir?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

12 de junho de 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

31 de janeiro de 2025/3 min de leitura

DeepSeek R1 no Databricks