Desde 2022, o Databricks SQL (DBSQL) Serverless tem entregue um ganho de desempenho de 5x em cargas de trabalho de clientes reais—transformando um painel de 100 segundos em um de 20 segundos. Essa aceleração veio de melhorias contínuas no motor, todas entregues automaticamente e sem ajuste de desempenho.
Hoje, estamos adicionando ainda mais. Com o lançamento da Execução de Consulta Preditiva e do Photon Vectorized Shuffle, as consultas ficam até 25% mais rápidas além dos ganhos de 5x já existentes, reduzindo aquele painel de 20 segundos para cerca de 15 segundos. Essas novas melhorias do motor são implementadas automaticamente em todos os armazéns DBSQL Serverless, a custo zero adicional
Quando foi lançado no Apache Spark, Adaptive Query Execution (AQE) foi um grande avanço. Ele permitiu que as consultas fossem replanejadas com base nos tamanhos reais dos dados à medida que a consulta era executada. No entanto, tinha uma grande limitação: só podia agir após a conclusão de uma etapa de execução de consulta. Esse atraso significava que problemas como desequilíbrio de dados ou derramamento excessivo muitas vezes não eram detectados até que fosse tarde demais.
Execução de Consulta Preditiva (PQE) muda isso. Ele introduz um ciclo de feedback contínuo dentro do motor de consulta:
O resultado? Consultas mais rápidas, menos surpresas e desempenho mais previsível - especialmente para pipelines complexos e cargas de trabalho mistas
Photon é um motor nativo C++ que processa dados em lotes colunares, vetorizados para aproveitar CPUs modernas e executar consultas SQL várias vezes mais rápido. Operações de embaralhamento, que reestruturam grandes conjuntos de dados entre est ágios, continuam entre as mais pesadas no processamento de consultas.
As operações de embaralhamento historicamente são o tipo mais difícil de otimizar porque envolvem muitos acessos aleatórios à memória. Também é raramente possível reduzir o número de acessos aleatórios sem reescrever os dados. A intuição chave que tivemos foi que, em vez de reduzir o número de acessos aleatórios, poderíamos reduzir a distância entre cada acesso aleatório na memória.
Isso nos levou a reescrever o embaralhamento do Photon do zero com o Embaralhamento Baseado em Colunas para maior eficiência de cache e memória.
O resultado é um componente de embaralhamento que move dados de forma eficiente, executa menos instruções e considera o cache. Com o embaralhamento otimizado recentemente, vemos um rendimento 1,5 vezes maior em cargas de trabalho limitadas pela CPU, como grandes junções.
Esta atualização está sendo implementada agora em todos os armazéns DBSQL Serverless—nenhuma ação necessária.
Ainda não experimentou o DBSQL Serverless? Agora é o momento perfeito. Serverless é a maneira mais fácil de executar análises no Lakehouse:
Apenas crie um armazém DBSQL Serverless e comece a consultar—sem necessidade de ajustes. Se você ainda não está usando o Databricks SQL, leia mais sobre habilitação de armazéns SQL sem servidor.
(This blog post has been translated using AI-powered tools) Original Post