Na Databricks, estamos sempre trabalhando duro para fazer suas consultas rodarem mais rápido. Ainda assim, há momentos em que é útil olhar um pouco mais a fundo para ver como suas consultas são transformadas em planos de execução e distribuídas para execução paralela.
É aqui que entram os Perfis de Consulta. Nós os introduzimos na primeira versão do Databricks SQL. Desde então, ampliamos a cobertura para código SQL e Python executado em Computação Serverless para Notebooks e Fluxos de Trabalho, bem como Pipelines DLT.
Graças ao seu feedback, tornamos os Perfis de Consulta ainda melhores. Agora disponível em todas as Nuvens, a nova experiência torna mais fácil e agradável ajustar o desempenho e resolver gargalos.
Os Perfis de Consulta ajudam você a entender como suas consultas são executadas, seja usando SQL, DataFrames Python ou pipelines DLT. Eles ajudam você a identificar partes lentas para cada consulta, entender o que acontece durante a execução e orientar suas decisões de ajuste de desempenho. Confira o vídeo abaixo para ver os Perfis de Consulta em ação - e experimente-os.
A interface atualizada é altamente interativa e intuitiva. Você pode explorar visualmente os planos de execução, ver quais operações estavam envolvidas, como varreduras ou junções, e mergulhar rapidamente em métricas que mostram onde tempo e recursos foram gastos, seja a consulta ainda em execução ou já concluída.
Você encontrará Perfis de Consulta em todo o Databricks: na página de Histórico de Consultas, Notebooks, o Editor SQL, UI de Jobs e Pipelines DLT. Eles também estão integrados com o Assistente Databricks ao usar o comando /optimize.
Desde o ajuste fino de consultas durante o desenvolvimento até a investigação de trabalhos lentos ou pipelines ou aprofundando-se em detalhes depois de ter identificado outliers usando a tabela do sistema de Histórico de Consultas, os Perfis de Consulta são sua ferramenta principal para entender e melhorar o desempenho.
Nós reimaginamos o painel de resumo de consulta para lhe dar uma imagem mais clara de sua consulta antes mesmo de você abrir o perfil completo. Seja você revisando uma declaração do Histórico de Consultas ou desenvolvendo ativamente em um editor, você obtém uma visão geral de relance.
Você verá um resumo visual das métricas de leitura/escrita e a eficácia dos seus filtros, para que possa perceber imediatamente quanto dados foram eliminados. Você também terá uma prévia da forma geral e complexidade do seu perfil de consulta, juntamente com uma divisão de alto nível de onde o tempo foi gasto (execução vs. outras etapas como otimização).
Um link rápido leva você direto para o novo painel Top Operators, e a fonte da consulta agora está a apenas um clique de distância, facilitando o retorno ao exato pedaço de código que gerou a consulta, mesmo de lugares como a página de Histórico de Consultas ou Jobs onde a edição direta não é possível.
Além disso, você encontrará um resumo das principais métricas agregadas em todos os operadores, para que possa identificar rapidamente problemas mesmo antes de analisar o plano de execução completo.
O novo Top operadores painel destaca as partes mais caras da sua consulta imediatamente, para que você possa rapidamente focar nas maiores oportunidades de otimização. Você recebe uma lista classificada de operadores, facilitando o direcionamento dos seus esforços de ajuste onde eles terão o maior impacto.
Adicionamos controles interativos: basta clicar em um operador no painel para ampliar essa parte do gráfico e ver instantaneamente métricas detalhadas. É uma maneira mais rápida de explorar pontos críticos de desempenho no seu plano de consulta.
Redesenhamos o gráfico de execução para tornar a navegação mais direta e eficiente. Agora você pode dar zoom diretamente em qualquer nó, filtrar nós por palavra-chave e visualizar detalhes mais ricos, tudo dentro de uma interface mais limpa e polida.
Gráficos grandes também são mais fáceis de gerenciar. Introduzimos uma visão de nó minimizada quando ampliado, que reduz o ruído visual enquanto destaca os nós mais caros no seu plano. Este recurso permite que você identifique rapidamente pontos críticos de desempenho e decida onde ampliar e investigar mais.
Você pode escolher em que focar: alternar entre tempo gasto, memória usada ou linhas processadas. A métrica de tempo gasto, em particular, ajuda a identificar onde ocorreu o trabalho mais intensivo - ela agrega o tempo de execução em todas as tarefas que executaram seu código em paralelo em vários nós de trabalho em seus clusters.
Simplificamos a exploração e análise de métricas de operador. O layout atualizado apresenta detalhes chave de forma mais clara, e uma nova opção de filtro permite que você rapidamente restrinja as métricas que lhe interessam - sem mais rolagem infinita.
Precisa levar sua análise para outro lugar? Agora você pode exportar métricas de operador para CSV com um único clique. Além disso, adicionamos insights ao nível da tabela para operadores de Scan para fornecer uma visão geral dos detalhes chave das tabelas que você lê.
Não vamos parar por aqui. Aqui está uma prévia do que estamos atualmente explorando:
Deixe-nos saber o que mais você gostaria de ver - seu feedback direciona o que construímos.
Pronto para mergulhar? Explore o novo Perfil de Consulta em Databricks SQL, ou experimente Databricks SQL gratuitamente. Os Perfis de Consulta também suportam Computação Serverless para Notebooks, Workflows e DLT!
(This blog post has been translated using AI-powered tools) Original Post