Desde 2022, Databricks SQL (DBSQL) Serverless ha logrado una mejora del rendimiento 5 veces superior en las cargas de trabajo reales de los clientes, lo que convierte un dashboard de 100 segundos en uno de 20. Esa aceleración provino de las mejoras continuas del motor, todas aplicadas automáticamente y sin necesidad de ajustar el rendimiento.

Hoy, agregamos aún más. Con el lanzamiento de Predictive Query Execution y Photon Vectorized Shuffle, las consultas son hasta un 25 % más rápidas, además de las mejoras de 5x ya existentes, lo que reduce el tiempo de ese panel de 20 segundos a unos 15 segundos. Estas nuevas mejoras del motor se implementan automáticamente en todos los almacenes de DBSQL Serverless, sin costo adicional.

Cuando se lanzó en Apache Spark, la Ejecución adaptativa de consultas (AQE) fue un gran paso adelante. Permitía que las consultas se replanificaran en función del tamaño real de los datos a medida que se ejecutaban. Sin embargo, tenía una limitación importante: solo podía actuar después de que se completara una etapa de ejecución de la consulta. Ese retraso significaba que problemas como el sesgo de datos o el desbordamiento excesivo a menudo no se detectaban hasta que era demasiado tarde.
Predictive Query Execution (PQE) cambia eso. Introduce un ciclo de retroalimentación continuo dentro del motor de consultas:

¿El resultado? Consultas más rápidas, menos sorpresas y un rendimiento más predecible, especialmente para pipelines complejos y cargas de trabajo mixtas
Photon es un motor nativo de C++ que procesa los datos en lotes columnares, vectorizado para aprovechar las CPU modernas y ejecutar consultas SQL varias veces más rápido. Las operaciones de shuffle, que reestructuran grandes conjuntos de datos entre etapas, siguen estando entre las más pesadas del procesamiento de consultas.
Históricamente, las operaciones de mezcla son el tipo más difícil de optimizar porque implican una gran cantidad de accesos aleatorios a la memoria. Además, rara vez es posible reducir el número de accesos aleatorios sin reescribir los datos. La intuición clave que tuvimos fue que, en lugar de reducir el número de accesos aleatorios, podíamos reducir la distancia entre cada acceso aleatorio en la memoria.
Esto nos llevó a reescribir el shuffle de Photon desde cero con un Shuffle basado en columnas para una mayor eficiencia de la memoria caché y la memoria.
El resultado es un componente de shuffle que mueve los datos de manera eficiente, ejecuta menos instrucciones y considera la caché. Con el shuffle recientemente optimizado, observamos un throughput 1.5 veces mayor en cargas de trabajo dependientes de la CPU, como las uniones grandes.
Esta actualización se está implementando ahora en todos los almacenes de DBSQL Serverless; no se requiere ninguna acción.
¿Aún no has probado DBSQL Serverless? Ahora es el momento perfecto. Serverless es la forma más fácil de ejecutar análisis en el Lakehouse:
Solo tienes que crear un warehouse de DBSQL Serverless y empezar a hacer consultas; no requiere ningún ajuste. Si aún no usas Databricks SQL, lee más sobre cómo habilitar los warehouses de SQL serverless.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Produto
June 12, 2024/11 min de leitura

