12 de junio de 2025

Databricks SQL acelera 5 veces las cargas de trabajo de los clientes en solo tres años

Las nuevas funciones anunciadas hoy ofrecen una mejora adicional del 25 % automáticamente

por Jeremy Lewallen, Shant Hovsepian y Mostafa Mokhtar

Mejora del rendimiento de 5x para cargas de trabajo de clientes reales lograda desde 2022
La nueva versión aumenta el rendimiento en un 25 % adicional, de forma automática y sin cambios en el precio
Predictive Query Execution ofrece consultas más rápidas con un ciclo de retroalimentación continuo dentro del motor de consultas
Photon Vectorized Shuffle ofrece un throughput de shuffle 1.5 veces mayor

Desde 2022, Databricks SQL (DBSQL) Serverless ha logrado una mejora del rendimiento 5 veces superior en las cargas de trabajo reales de los clientes, lo que convierte un dashboard de 100 segundos en uno de 20. Esa aceleración provino de las mejoras continuas del motor, todas aplicadas automáticamente y sin necesidad de ajustar el rendimiento.

Aumento del rendimiento 5x con DBSQL Serverless

Hoy, agregamos aún más. Con el lanzamiento de Predictive Query Execution y Photon Vectorized Shuffle, las consultas son hasta un 25 % más rápidas, además de las mejoras de 5x ya existentes, lo que reduce el tiempo de ese panel de 20 segundos a unos 15 segundos. Estas nuevas mejoras del motor se implementan automáticamente en todos los almacenes de DBSQL Serverless, sin costo adicional.

Mejoras de rendimiento del 25 %

Ejecución predictiva de consultas: de la recuperación reactiva al control en tiempo real

Cuando se lanzó en Apache Spark, la Ejecución adaptativa de consultas (AQE) fue un gran paso adelante. Permitía que las consultas se replanificaran en función del tamaño real de los datos a medida que se ejecutaban. Sin embargo, tenía una limitación importante: solo podía actuar después de que se completara una etapa de ejecución de la consulta. Ese retraso significaba que problemas como el sesgo de datos o el desbordamiento excesivo a menudo no se detectaban hasta que era demasiado tarde.

Predictive Query Execution (PQE) cambia eso. Introduce un ciclo de retroalimentación continuo dentro del motor de consultas:

Este monitorea las tareas en ejecución en tiempo real, y recopila métricas como el tamaño de desbordamiento y el uso de la CPU.
Decide si debe intervenir con un sistema ligero e inteligente.
Si es necesario, PQE cancela y vuelve a planificar la etapa sobre la marcha, lo que evita el desperdicio de trabajo y mejora la estabilidad.

Gráfico de mejoras de rendimiento

¿El resultado? Consultas más rápidas, menos sorpresas y un rendimiento más predecible, especialmente para pipelines complejos y cargas de trabajo mixtas

Photon Vectorized Shuffle: Consultas más rápidas, diseño más inteligente

Photon es un motor nativo de C++ que procesa los datos en lotes columnares, vectorizado para aprovechar las CPU modernas y ejecutar consultas SQL varias veces más rápido. Las operaciones de shuffle, que reestructuran grandes conjuntos de datos entre etapas, siguen estando entre las más pesadas del procesamiento de consultas.

Históricamente, las operaciones de mezcla son el tipo más difícil de optimizar porque implican una gran cantidad de accesos aleatorios a la memoria. Además, rara vez es posible reducir el número de accesos aleatorios sin reescribir los datos. La intuición clave que tuvimos fue que, en lugar de reducir el número de accesos aleatorios, podíamos reducir la distancia entre cada acceso aleatorio en la memoria.

Esto nos llevó a reescribir el shuffle de Photon desde cero con un Shuffle basado en columnas para una mayor eficiencia de la memoria caché y la memoria.

El resultado es un componente de shuffle que mueve los datos de manera eficiente, ejecuta menos instrucciones y considera la caché. Con el shuffle recientemente optimizado, observamos un throughput 1.5 veces mayor en cargas de trabajo dependientes de la CPU, como las uniones grandes.

Puntos clave

Obtén consultas hasta un 25 % más rápidas—automáticamente.
Los benchmarks internos de TPC-DS y las cargas de trabajo de clientes reales muestran mejoras constantes en la latencia, sin necesidad de ajustes.
Sin configuración ni reimplementación—solo resultados.
Las actualizaciones se están desplegando ahora en los almacenes de DBSQL Serverless. No tienes que cambiar ni una sola configuración.
Mayores beneficios en cargas de trabajo dependientes de la CPU.
Los pipelines con joins pesados o lógica de embudo ven las mejoras más drásticas, a menudo reduciendo minutos del tiempo de ejecución total.

Comenzar

Esta actualización se está implementando ahora en todos los almacenes de DBSQL Serverless; no se requiere ninguna acción.

¿Aún no has probado DBSQL Serverless? Ahora es el momento perfecto. Serverless es la forma más fácil de ejecutar análisis en el Lakehouse:

Sin infraestructura que gestionar
Elasticidad instantánea
Optimizado para el rendimiento de forma predeterminada

Solo tienes que crear un warehouse de DBSQL Serverless y empezar a hacer consultas; no requiere ningún ajuste. Si aún no usas Databricks SQL, lee más sobre cómo habilitar los warehouses de SQL serverless.

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.

Ver todos los blogs

Ejecución predictiva de consultas: de la recuperación reactiva al control en tiempo real

Photon Vectorized Shuffle: Consultas más rápidas, diseño más inteligente

Puntos clave

Comenzar

Recibe las últimas publicaciones en tu bandeja de entrada

Sign up