Ir al contenido principal

Presentamos la Optimización predictiva: consultas más rápidas, almacenamiento más económico y sin esfuerzo

Predictive Optimization: Faster Queries, Cheaper Storage, No Sweat

Nos complace anunciar la versión preliminar pública de Predictive Optimization de Databricks. Esta función optimiza de forma inteligente la distribución de los datos de sus tablas para mejorar el rendimiento y la rentabilidad.

La optimización predictiva aprovecha Unity Catalog y Lakehouse AI para determinar las mejores optimizaciones que se deben realizar en sus datos y, luego, ejecuta esas operaciones en una infraestructura sin servidor creada específicamente. Esto simplifica considerablemente su recorrido por el lakehouse, lo que le permite tener más tiempo para concentrarse en obtener valor comercial a partir de sus datos.

Esta funcionalidad es la más reciente de una larga lista de funcionalidades de Databricks que aprovechan la IA para realizar acciones de forma predictiva en función de sus datos y sus patrones de acceso. Anteriormente, lanzamos Predictive I/O para lecturas y actualizaciones, que aplican estas técnicas al ejecutar consultas de lectura y actualización. 

Desafío

Las tablas de Lakehouse se benefician enormemente de las optimizaciones en segundo plano que mejoran sus diseños de datos. Esto incluye la compactación de archivos para garantizar tamaños de archivo adecuados o la limpieza para eliminar archivos de datos innecesarios. Una optimización adecuada mejora significativamente el rendimiento y reduce los costos.

Sin embargo, esto crea un desafío constante para los equipos de ingeniería de datos, que deben determinar lo siguiente: 

  • ¿Qué optimizaciones ejecutar?
  • ¿Qué tablas se deben optimizar?
  • ¿Con qué frecuencia ejecutar estas optimizaciones?

A medida que las plataformas de lakehouse crecen en escala y se vuelven cada vez más de autoservicio, a los equipos de la plataforma les resulta prácticamente imposible responder a estas preguntas de manera eficaz. Un comentario recurrente que hemos escuchado de nuestros clientes es que no dan abasto para optimizar la cantidad de tablas creadas a partir de todos los nuevos casos de uso de negocio.

Además, incluso una vez que se responden estas preguntas espinosas, los equipos aún deben lidiar con la carga operativa de programar y ejecutar estas optimizaciones, p. ej., programar trabajos, diagnosticar fallas y administrar la infraestructura subyacente. 

Cómo funciona Predictive Optimization

Con la Optimización Predictiva, Databricks aborda estos problemas espinosos por usted, liberando su valioso tiempo para que pueda concentrarse en generar valor de negocio con sus datos. La Optimización Predictiva se puede habilitar con un solo clic. A partir de ahí, hace todo el trabajo pesado.

Databricks determina de forma inteligente el mejor programa de optimizaciones, ejecuta esas optimizaciones y registra su impacto en una tabla de sistema para una fácil observabilidad.

Primero, Predictive Optimization determina de manera inteligente qué optimizaciones ejecutar y con qué frecuencia ejecutarlas. Nuestro modelo de IA tiene en cuenta una gran variedad de entradas, como los patrones de uso de sus tablas, la estructura de datos existente y las características de rendimiento. Luego, genera el programa de optimización ideal, sopesando los beneficios esperados de la optimización frente a los costos de computación esperados. 

Una vez que se genera el programa, Predictive Optimization ejecuta automáticamente estas optimizaciones en la infraestructura sin servidor creada para tal fin. Se encarga automáticamente de iniciar la cantidad y el tamaño correctos de máquinas y garantiza que las tareas de optimización se distribuyan y programen de forma adecuada para lograr una eficiencia óptima. 

Todo el sistema se ejecuta de extremo a extremo sin necesidad de ajustes manuales y aprende del uso de su organización con el tiempo, optimizando las tablas que le importan a su organización y despriorizando las que no. Se le factura solo por el cómputo sin servidor necesario para realizar las optimizaciones. De forma predeterminada, todas las operaciones se registran en una tabla del sistema, para que pueda auditar y comprender fácilmente el impacto y el costo de las operaciones.

Impacto

En los últimos meses, hemos inscrito a varios clientes en el programa de versión preliminar privada de Predictive Optimization. Muchos han observado que es capaz de encontrar el punto óptimo entre dos extremos comunes:

Las imágenes comparativas muestran las compensaciones entre el rendimiento de las consultas y el costo entre no aplicar ninguna optimización y aplicar optimizaciones manuales diarias.

En un extremo, algunas organizaciones aún no han implementado canalizaciones sofisticadas de optimización de tablas. Con la Optimización predictiva, pueden comenzar a optimizar sus tablas al instante sin tener que determinar el mejor programa de optimización ni administrar la infraestructura.

En el otro extremo, algunas organizaciones pueden estar invirtiendo en exceso en la optimización. Por ejemplo, para un equipo que automatiza sus canalizaciones de optimización, es tentador ejecutar trabajos de OPTIMIZE o VACUUM cada hora o diariamente. Sin embargo, estas corren el riesgo de tener rendimientos decrecientes. ¿Se podrían lograr las mismas mejoras de rendimiento con menos operaciones de optimización? 

Predictive Optimization ayuda a encontrar el equilibrio adecuado, garantizando que las optimizaciones se ejecuten solo con un alto retorno de la inversión:

Los gráficos comparativos muestran que, tanto para el rendimiento de las consultas como para el costo, la Optimización Predictiva encuentra el equilibrio adecuado y solo ejecuta optimizaciones con un alto retorno de la inversión.

Como ejemplo concreto, el equipo de Ingeniería de Datos de Anker habilitó la Optimización Predictiva y obtuvo rápidamente estos beneficios: 

 

Logotipo de la empresa AnkerAceleración de consultas 2x

Reducción del 50 % en los costos anuales de almacenamiento

Gráfico de los costos anuales de almacenamiento a lo largo del tiempo

“Las optimizaciones predictivas de Databricks optimizaron inteligentemente nuestro almacenamiento de Unity Catalog, lo que nos permitió ahorrar un 50% en costos anuales de almacenamiento mientras aceleraban nuestras consultas en más del 200%. Aprendió a priorizar nuestras tablas más grandes y más accedidas. Y todo esto lo hizo automáticamente, ahorrando a nuestro equipo un tiempo valioso”.

-- Shu Li, líder de Ingeniería de Datos, Anker

Empieza ahora

A partir de hoy, Predictive Optimization está disponible en versión preliminar pública. Habilitarlo debería tomar menos de cinco minutos. Como administrador de la cuenta, simplemente vaya a la consola de la cuenta > Configuración > pestaña Habilitación de características, y active la configuración de Predictive Optimization:

Configure el campo de Optimización Predictiva en Consola de la cuenta > Configuración > Habilitación de características


Con solo un clic, obtendrá la potencia de los diseños de datos optimizados con IA en todas sus tablas administradas de Unity Catalog, lo que hace que sus datos sean más rápidos y rentables. Consulta la documentación para obtener más información.

Y apenas estamos comenzando. En los próximos meses, seguiremos agregando más optimizaciones a la funcionalidad. No se pierdan las próximas novedades.
 

 

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.

¿Qué sigue?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks