Ir para o conteúdo principal

Apresentando a Otimização Preditiva: queries mais rápidas, armazenamento mais barato e sem complicações

Predictive Optimization: Faster Queries, Cheaper Storage, No Sweat

Estamos empolgados em anunciar a Public Preview do Databricks Predictive Optimization. Este recurso otimiza de forma inteligente as disposições de dados da sua tabela para melhorar o desempenho e a eficiência de custos.

A Otimização Preditiva aproveita o Unity Catalog e o Lakehouse AI para determinar as melhores otimizações a serem executadas em seus dados e, em seguida, executa essas operações em uma infraestrutura serverless criada especificamente para isso. Isso simplifica significativamente sua jornada no lakehouse, liberando seu tempo para se concentrar em obter valor comercial de seus dados.

Este recurso é o mais recente de uma série de recursos do Databricks que aproveitam a IA para realizar ações de forma preditiva com base nos seus dados e nos padrões de acesso a eles. Anteriormente, lançamos o Predictive I/O for reads e as atualizações, que aplicam essas técnicas ao executar queries de leitura e atualização. 

Desafios

As tabelas do Lakehouse se beneficiam muito de otimizações em segundo plano que melhoram suas disposições de dados. Isso inclui a compactação de arquivos para garantir os tamanhos de arquivo adequados, ou o vacuuming para remover arquivos de dados desnecessários. A otimização adequada melhora significativamente o desempenho e, ao mesmo tempo, reduz os custos.

No entanto, isso cria um desafio contínuo para as equipes de engenharia de dados, que precisam descobrir: 

  • Quais otimizações executar?
  • Quais tabelas devem ser otimizadas?
  • Com que frequência executar estas otimizações?

À medida que as plataformas lakehouse crescem em escala e se tornam cada vez mais de autoatendimento, as equipes de plataforma consideram praticamente impossível responder a essas perguntas de forma eficaz. Um sentimento recorrente que ouvimos de nossos clientes é que eles não conseguem acompanhar a otimização do número de tabelas criadas a partir de todos os novos casos de uso de negócios.

Além disso, mesmo depois que essas questões complexas são respondidas, as equipes ainda precisam lidar com a sobrecarga operacional de programar e executar essas otimizações, como por exemplo, programar jobs, diagnosticar falhas e gerenciar a infraestrutura subjacente. 

Como a Otimização Preditiva funciona

Com a Predictive Optimization, o Databricks resolve esses problemas complexos para você, liberando seu valioso tempo para se concentrar em gerar valor de negócio com seus dados. A Otimização Preditiva pode ser ativada com o clique de um único botão. A partir daí, ele faz todo o trabalho pesado.

O Databricks determina de forma inteligente o melhor cronograma de otimizações, executa essas otimizações e registra seu impacto em uma tabela de sistemas para facilitar a observabilidade

Primeiro, a Otimização Preditiva determina de forma inteligente quais otimizações executar e com que frequência. Nosso modelo de AI considera uma ampla variedade de entradas, incluindo os padrões de uso de suas tabelas, a disposição de dados existente e as características de desempenho. Em seguida, ele gera o cronograma de otimização ideal, ponderando os benefícios esperados da otimização com os custos de computação esperados. 

Assim que o cronograma é gerado, a Otimização Preditiva executa automaticamente essas otimizações na infraestrutura serverless dedicada. Ele gerencia automaticamente a inicialização do número e tamanho corretos de máquinas e garante que as tarefas de otimização sejam devidamente agrupadas e agendadas para máxima eficiência. 

O sistema inteiro funciona de ponta a ponta sem a necessidade de ajustes e otimizações manuais, e aprende com o uso da sua organização ao longo do tempo, otimizando as tabelas importantes para a sua organização e despriorizando as que não são. A cobrança é feita apenas pelo compute serverless necessário para realizar as otimizações. Por padrão, todas as operações são registradas em uma tabela do sistema, para que você possa auditar e entender facilmente o impacto e o custo das operações.

Impacto

Nos últimos meses, inscrevemos vários clientes no programa de pré-visualização privada do Predictive Optimization. Muitos observaram que ele consegue encontrar o ponto ideal entre dois extremos comuns:

Imagens lado a lado mostram as compensações entre o desempenho da query e o custo, comparando a ausência total de otimizações com otimizações manuais diárias.

Em um extremo, algumas organizações ainda não implementaram pipelines sofisticados de otimização de tabelas. Com a Otimização Preditiva, eles podem começar a otimizar suas tabelas instantaneamente, sem precisar descobrir o melhor cronograma de otimização ou gerenciar a infraestrutura.

No outro extremo, algumas organizações podem estar investindo em excesso em otimização. Por exemplo, para uma equipe que automatiza seus pipelines de otimização, é tentador executar Jobs OPTIMIZE ou VACUUM de hora em hora ou diariamente. No entanto, estas correm o risco de retornos decrescentes. Os mesmos ganhos de desempenho podem ser alcançados com menos operações de otimização? 

O Predictive Optimization ajuda a encontrar o equilíbrio certo, garantindo que as otimizações sejam executadas apenas com um alto retorno sobre o investimento:

Gráficos lado a lado mostram que, tanto para o desempenho da query quanto para o custo, a Otimização Preditiva encontra o equilíbrio certo e executa apenas otimizações com alto retorno sobre o investimento.

Como exemplo concreto, a equipe de Engenharia de Dados da Anker ativou a Otimização Preditiva e rapidamente percebeu estes benefícios: 

 

Logotipo da empresa Ankeraceleração de 2x na query

Redução de 50% nos custos anuais de armazenamento

gráfico dos custos anuais de armazenamento ao longo do tempo

“As otimizações preditivas da Databricks melhoraram nosso armazenamento do Unity Catalog de forma inteligente, o que gerou economias de 50% em custos anuais de armazenamento e acelerou nossas queries em mais de 2x. Elas aprenderam a priorizar nossas maiores e mais acessadas tabelas. E tudo isso de maneira automática, economizando um tempo valioso da nossa equipe.”

— Shu Li, líder de engenharia de dados, Anker

Comece agora

A partir de hoje, a Otimização Preditiva está disponível em pré-visualização pública. A ativação deve levar menos de cinco minutos. Como administrador da conta, basta acessar o console da conta > configurações > guia de habilitação de recursos e ativar a configuração Otimização Preditiva:

Defina o campo Otimização preditiva em Console da conta > Configurações > Ativação de recurso


Com apenas um clique, você terá o poder de disposições de dados otimizadas por AI em suas tabelas gerenciadas do Unity Catalog, tornando seus dados mais rápidos e econômicos. Consulte a documentação para obter mais informações.

E estamos apenas começando. Nos próximos meses, continuaremos a adicionar mais otimizações ao recurso. Fique atento para muito mais que está por vir.
 

 

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada

O que vem a seguir?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks