O lakehouse mais performático e com o melhor custo-benefício é aquele que se otimiza à medida que os volumes de dados, os padrões de query e o uso organizacional continuam a evoluir. A Otimização Preditiva (PO) no Unity Catalog possibilita esse comportamento analisando continuamente como os dados são gravados e consultados e, em seguida, aplicando as ações de manutenção apropriadas automaticamente, sem exigir trabalho manual dos usuários ou das equipes de plataforma. Em 2025, a Otimização Preditiva passou de um recurso de automação opcional para o comportamento default da plataforma, gerenciando o desempenho e a eficiência do armazenamento em milhões de tabelas de produção e, ao mesmo tempo, removendo a carga operacional tradicionalmente associada ao ajuste de tabelas. Confira os marcos que nos trouxeram até aqui e o que vem a seguir em 2026.
Ao longo de 2025, a Otimização Preditiva teve rápida adoção na Databricks Platform, à medida que os clientes passaram a depender cada vez mais da manutenção autônoma para gerenciar um patrimônio de dados crescente. A Otimização Preditiva cresceu rapidamente no último ano:
Com base nas melhorias de desempenho consistentes observadas nessa escala, a Predictive Optimization agora está ativada por default para todas as novas tabelas gerenciadas, Workspaces e accounts do Unity Catalog.
Otimização Preditiva (PO) funciona como a camada de inteligência da plataforma para o lakehouse, otimizando continuamente o layout dos seus dados, reduzindo o espaço de armazenamento e mantendo as estatísticas de arquivo precisas necessárias para o planejamento eficiente de queries em tabelas gerenciadas do UC.
Com base nos padrões de uso observados, a PO determina automaticamente quando e como executar comandos como:
Todas as decisões de otimização são orientadas pela carga de trabalho e adaptáveis, eliminando a necessidade de gerenciar cronogramas, ajustar parâmetros ou revisar estratégias de otimização à medida que os padrões de query mudam.
Estatísticas precisas são essenciais para criar planos de consulta eficientes, no entanto, o gerenciamento manual de estatísticas se torna cada vez mais impraticável à medida que o volume de dados e a diversidade de consultas aumentam.
Com o Automatic Statistics (agora em disponibilidade geral), o Predictive Optimization determina quais colunas são importantes com base no comportamento de query observado e garante que as estatísticas permaneçam atualizadas sem comandos ANALYZE manuais.
As estatísticas são mantidas por meio de dois mecanismos complementares:
Em cargas de trabalho de produção de clientes reais, essa abordagem proporcionou queries até 22% mais rápidas, ao mesmo tempo que removeu o custo operacional do gerenciamento manual de estatísticas.
O VACUUM desempenha um papel fundamental no gerenciamento dos custos de armazenamento e da conformidade, excluindo arquivos de dados não referenciados. A operação de vacuum padrão requer a listagem de todos os arquivos em um diretório de tabela para identificar os candidatos à remoção, uma operação que pode levar mais de 40 minutos para tabelas com 10 milhões de arquivos.
A Otimização Preditiva agora aplica um caminho de execução VACUUM otimizado que aproveita o log de transações do Delta para identificar arquivos removíveis diretamente, evitando listagens de diretório dispendiosas sempre que possível.
Em escala, isso resultou em:
O mecanismo determina dinamicamente quando usar essa abordagem baseada em log e quando executar uma varredura completa do diretório para limpar fragmentos de transações abortadas.
Clusterização Líquida Automática atingiu a disponibilidade geral em 2025 e já está otimizando milhões de tabelas em produção.
O processo é totalmente orientado pela carga de trabalho:
Você obtém queries mais rápidas sem nenhum ajuste manual. Ao analisar automaticamente as cargas de trabalho e aplicar a disposição de dados ideal, a PO remove a tarefa complexa de seleção de keys de clusterização e garante que suas tabelas permaneçam com alto desempenho à medida que seus padrões de query evoluem.
A Otimização Preditiva se expandiu além das tabelas tradicionais para dar suporte a um conjunto mais amplo da Databricks Platform.
Isso garante a manutenção autônoma em todo o seu data estate, em vez da otimização isolada de tabelas individuais.
Temos o compromisso de oferecer recursos que substituem o ajuste manual de tabelas por manutenção automatizada. Em paralelo, estamos planejando ir além da integridade da tabela física para abordar a inteligência total do ciclo de vida dos dados— economia automatizada de custos de armazenamento, gerenciamento do ciclo de vida dos dados e exclusão de linhas. Também estamos priorizando a observabilidade aprimorada, integrando percepções da Predictive Optimization em operações comuns de tabela e no Governance Hub para fornecer visibilidade mais clara das operações do PO e seu ROI.
Gerenciar a retenção de dados ou controlar os custos de armazenamento é uma tarefa crítica, mas muitas vezes manual. Temos o prazer de apresentar o Auto-TTL, um novo recurso de Otimização Preditiva que automatiza completamente a exclusão de linhas. Usando esse recurso, você poderá definir uma política simples de tempo de vida (time-to-live) diretamente em qualquer tabela gerenciada pelo UC usando um comando como:
Depois que a política é definida, a Otimização Preditiva cuida do resto. Ela automatiza todo o processo de duas etapas, primeiro executando uma operação DELETE para fazer a exclusão lógica das linhas expiradas e, em seguida, executando um VACUUM para removê-las permanentemente do armazenamento físico.
Entre em contato com sua equipe de accounts hoje mesmo para experimentar isso na Private Preview!
Observabilidade aprimorada da Otimização Preditiva
Você poderá acompanhar o impacto direto e o ROI da Otimização Preditiva no novo Hub de Governança de Dados. Este painel de observabilidade oferecerá, de forma nativa, uma view centralizada das operações de PO, apresentando as key métricas que quantificam seu valor.
Use isso para ver exatamente o que o PO está fazendo nos bastidores, com visualizações claras de bytes compactados, bytes clusterizados pelo Liquid, bytes vacuumed e bytes analisados. O mais importante é que o hub traduz essas ações em valor comercial direto, mostrando sua economia estimada de custos de armazenamento. Isso tornará mais fácil do que nunca entender e comunicar o impacto positivo que o PO está tendo tanto nos seus custos de armazenamento quanto no desempenho das query.
Em DESCRIBED EXTENDED, você também poderá ver os motivos pelos quais a Otimização Preditiva pulou a otimização (por exemplo, tabela já bem clusterizada, tabela muito pequena para se beneficiar da compactação, etc).
Além disso, adicionamos a capacidade de ver as seleções de colunas para data skipping e Auto Liquid na tabela de sistema da PO.
Entre em contato com sua equipe de contas hoje mesmo para experimentar o Hub de governança de dados em Private Preview!
Observabilidade de armazenamento aprimorada no nível da tabela
Para fornecer maior clareza sobre o uso do seu armazenamento, apresentaremos recursos aprimorados de observabilidade para a Otimização Preditiva. Você poderá monitorar a integridade e a evolução de suas tabelas por meio de métricas de alto nível, como contagem de arquivos e crescimento do armazenamento. Ao apresentar essas percepções diretamente, tornamos mais fácil visualizar o impacto da manutenção automatizada e identificar novas oportunidades para reduzir custos e otimizar seu data estate.
A Otimização Preditiva está disponível hoje para tabelas gerenciadas do Unity Catalog e está habilitada por padrão para novas cargas de trabalho.
Quando habilitada, os clientes se beneficiam automaticamente de uma execução mais rápida do VACUUM, de Estatísticas Automáticas cientes da carga de trabalho e de uma disposição de dados autônoma por meio da Clusterização Líquida Automática.
Você também pode explorar o Auto TTL e a observabilidade da Otimização Preditiva (Data Governance Hub) por meio da Private Preview, entrando em contato com sua equipe de contas.
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
Produto
12 de junho de 2024/11 min de leitura

