12 de junho de 2025

O Databricks SQL acelera as cargas de trabalho do cliente em 5x em apenas três anos

Novos recursos anunciados hoje fornecem um aumento adicional de 25% automaticamente

por Jeremy Lewallen, Shant Hovsepian e Mostafa Mokhtar

Melhoria de desempenho de 5x para cargas de trabalho de clientes reais alcançada desde 2022
Nova versão aumenta o desempenho em mais 25%—automaticamente, sem alteração de preço
A Execução de Consulta Preditiva fornece consultas mais rápidas com um ciclo de feedback contínuo dentro do mecanismo de consulta
O Embaralhamento Vetorizado Photon fornece um rendimento de embaralhamento 1,5 vezes maior

Desde 2022, o Databricks SQL (DBSQL) Serverless tem entregue um ganho de desempenho de 5x em cargas de trabalho de clientes reais—transformando um painel de 100 segundos em um de 20 segundos. Essa aceleração veio de melhorias contínuas no motor, todas entregues automaticamente e sem ajuste de desempenho.

Aumento de desempenho de 5x DBSQL Serverless

Hoje, estamos adicionando ainda mais. Com o lançamento da Execução de Consulta Preditiva e do Photon Vectorized Shuffle, as consultas ficam até 25% mais rápidas além dos ganhos de 5x já existentes, reduzindo aquele painel de 20 segundos para cerca de 15 segundos. Essas novas melhorias do motor são implementadas automaticamente em todos os armazéns DBSQL Serverless, a custo zero adicional

Melhorias de desempenho de 25 por cento

Execução de Consulta Preditiva: Da recuperação reativa ao controle em tempo real

Quando foi lançado no Apache Spark, Adaptive Query Execution (AQE) foi um grande avanço. Ele permitiu que as consultas fossem replanejadas com base nos tamanhos reais dos dados à medida que a consulta era executada. No entanto, tinha uma grande limitação: só podia agir após a conclusão de uma etapa de execução de consulta. Esse atraso significava que problemas como desequilíbrio de dados ou derramamento excessivo muitas vezes não eram detectados até que fosse tarde demais.

Execução de Consulta Preditiva (PQE) muda isso. Ele introduz um ciclo de feedback contínuo dentro do motor de consulta:

Ele monitora as tarefas em execução em tempo real, coletando métricas como tamanho de derramamento e uso de CPU.
Ele decide se deve intervir com um sistema inteligente e leve.
Se necessário, PQE cancela e replaneja o estágio no local, evitando trabalho desperdiçado e melhorando a estabilidade.

gráfico de melhorias de desempenho

O resultado? Consultas mais rápidas, menos surpresas e desempenho mais previsível - especialmente para pipelines complexos e cargas de trabalho mistas

Photon Vetorizado Shuffle: Consultas mais rápidas, design mais inteligente

Photon é um motor nativo C++ que processa dados em lotes colunares, vetorizados para aproveitar CPUs modernas e executar consultas SQL várias vezes mais rápido. Operações de embaralhamento, que reestruturam grandes conjuntos de dados entre estágios, continuam entre as mais pesadas no processamento de consultas.

As operações de embaralhamento historicamente são o tipo mais difícil de otimizar porque envolvem muitos acessos aleatórios à memória. Também é raramente possível reduzir o número de acessos aleatórios sem reescrever os dados. A intuição chave que tivemos foi que, em vez de reduzir o número de acessos aleatórios, poderíamos reduzir a distância entre cada acesso aleatório na memória.

Isso nos levou a reescrever o embaralhamento do Photon do zero com o Embaralhamento Baseado em Colunas para maior eficiência de cache e memória.

O resultado é um componente de embaralhamento que move dados de forma eficiente, executa menos instruções e considera o cache. Com o embaralhamento otimizado recentemente, vemos um rendimento 1,5 vezes maior em cargas de trabalho limitadas pela CPU, como grandes junções.

Principais conclusões

Obtenha consultas até 25% mais rápidas - automaticamente.
Benchmarks internos do TPC-DS e cargas de trabalho reais de clientes mostram melhorias consistentes na latência, sem necessidade de ajustes.
Sem configuração, sem redistribuição - apenas resultados.
As atualizações estão sendo implementadas agora em todos os armazéns DBSQL Serverless. Você não precisa alterar uma única configuração.
Maior ganho em cargas de trabalho limitadas pela CPU.
Pipelines com junções pesadas ou lógica de funil veem as melhorias mais dramáticas, muitas vezes reduzindo minutos do tempo total de execução

Introdução

Esta atualização está sendo implementada agora em todos os armazéns DBSQL Serverless—nenhuma ação necessária.

Ainda não experimentou o DBSQL Serverless? Agora é o momento perfeito. Serverless é a maneira mais fácil de executar análises no Lakehouse:

Sem infraestrutura para gerenciar
Instantaneamente elástico
Otimizado para desempenho imediato

Apenas crie um armazém DBSQL Serverless e comece a consultar—sem necessidade de ajustes. Se você ainda não está usando o Databricks SQL, leia mais sobre habilitação de armazéns SQL sem servidor.

(This blog post has been translated using AI-powered tools) Original Post

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.

Ver todos os blogs

Execução de Consulta Preditiva: Da recuperação reativa ao controle em tempo real

Photon Vetorizado Shuffle: Consultas mais rápidas, design mais inteligente

Principais conclusões

Introdução

Receba os posts mais recentes na sua caixa de entrada

Sign up