El lakehouse más rentable y de mayor rendimiento es aquel que se optimiza a sí mismo a medida que los volúmenes de datos, los patrones de consulta y el uso de la organización continúan evolucionando. La Optimización Predictiva (PO) en Unity Catalog habilita este comportamiento al analizar continuamente cómo se escriben y consultan los datos, para luego aplicar las acciones de mantenimiento adecuadas automáticamente sin requerir trabajo manual de los usuarios o equipos de la plataforma. En 2025, la Optimización Predictiva pasó de ser una función de automatización opcional al comportamiento predeterminado de la plataforma, gestionando el rendimiento y la eficiencia del almacenamiento en millones de tablas de producción y eliminando la carga operativa tradicionalmente asociada con el ajuste de tablas. A continuación, se presentan los hitos que nos trajeron hasta aquí y lo que viene para 2026.
A lo largo de 2025, la Optimización Predictiva tuvo una rápida adopción en toda la plataforma Databricks, ya que los clientes confiaron cada vez más en el mantenimiento autónomo para gestionar un patrimonio de datos en crecimiento. La Optimización Predictiva ha crecido rápidamente este último año:
A partir de las mejoras de rendimiento constantes observadas a esta escala, la Optimización predictiva ahora está habilitada de forma predeterminada para todas las nuevas tablas administradas, áreas de trabajo y cuentas de Unity Catalog.
La optimización predictiva (PO) funciona como la capa de inteligencia de la plataforma para el lakehouse, ya que optimiza continuamente el diseño de sus datos, reduce el espacio de almacenamiento y mantiene las estadísticas de archivos precisas necesarias para una planificación de consultas eficiente en tablas gestionadas por UC.
Basándose en los patrones de uso observados, la PO determina automáticamente cuándo y cómo ejecutar comandos como los siguientes:
Todas las decisiones de optimización son adaptativas y se basan en la carga de trabajo, lo que elimina la necesidad de administrar programaciones, ajustar parámetros o revisar las estrategias de optimización a medida que cambian los patrones de consulta.
Las estadísticas precisas son fundamentales para crear planes de consulta eficientes; sin embargo, administrar las estadísticas manualmente se vuelve cada vez más impracticable a medida que el volumen de datos y la diversidad de consultas aumentan.
Con Estadísticas automáticas (ahora disponibles de forma general), la Optimización predictiva determina qué columnas son importantes basándose en el comportamiento de consulta observado y garantiza que las estadísticas se mantengan actualizadas sin comandos ANALYZE manuales.
Las estadísticas se mantienen mediante dos mecanismos complementarios:
En las cargas de trabajo de producción de clientes reales, este enfoque proporcionó consultas hasta un 22 % más rápidas y eliminó el costo operativo de la administración manual de estadísticas.
VACUUM desempeña un papel fundamental en la administración de los costos de almacenamiento y el cumplimiento mediante la eliminación de archivos de datos sin referencia. El proceso VACUUM estándar requiere que se listen todos los archivos en el directorio de una tabla para identificar los candidatos para su eliminación, una operación que puede tardar más de 40 minutos para tablas con 10 millones de archivos.
La optimización predictiva ahora aplica una ruta de ejecución de VACUUM optimizada que aprovecha el registro de transacciones de Delta para identificar los archivos que se pueden eliminar directamente, lo que evita los costosos listados de directorios siempre que sea posible.
A escala, esto dio como resultado lo siguiente:
El motor determina dinámicamente cuándo usar este enfoque basado en registros y cuándo realizar un examen completo del directorio para limpiar fragmentos de transacciones anuladas.
El agrupamiento líquido automático alcanzó la disponibilidad general en 2025 y ya está optimizando millones de tablas en producción.
El proceso está totalmente impulsado por la carga de trabajo:
Obtienes consultas más rápidas sin necesidad de ajustes manuales. Al analizar automáticamente las cargas de trabajo y aplicar el diseño de datos óptimo, la PO elimina la compleja tarea de seleccionar la clave de agrupamiento y garantiza que sus tablas sigan siendo de alto rendimiento a medida que evolucionan sus patrones de consulta.
Predictive Optimization se ha expandido más allá de las tablas tradicionales para admitir un conjunto más amplio de la plataforma de Databricks.
Esto garantiza un mantenimiento autónomo en todo su patrimonio de datos, en lugar de la optimización aislada de tablas individuales.
Nos comprometemos a ofrecer funciones que sustituyan el ajuste manual de las tablas por un mantenimiento automatizado. Paralelamente, planeamos ir más allá de la salud de la tabla física para abordar la inteligencia total del ciclo de vida de los datos: ahorro automatizado de costos de almacenamiento, gestión del ciclo de vida de los datos y eliminación de filas. También estamos priorizando la observabilidad mejorada, integrando los insights de la optimización predictiva en las operaciones comunes de las tablas y en el Governance Hub para proporcionar una visibilidad más clara de las operaciones de PO y su ROI.
Administrar la retención de datos o controlar los costos de almacenamiento es una tarea fundamental, pero que a menudo es manual. Nos complace presentar Auto-TTL, una nueva capacidad de Predictive Optimization que automatiza por completo la eliminación de filas. Con esta característica, podrá establecer una política sencilla de tiempo de vida (time-to-live) directamente en cualquier tabla administrada de UC mediante un comando como:
Una vez que se establece la política, la Optimización Predictiva se encarga del resto. Automatiza todo el proceso de dos pasos: primero, ejecuta una operación DELETE para hacer una eliminación temporal de las filas vencidas y, luego, realiza una operación VACUUM para eliminarlas permanentemente del almacenamiento físico.
¡Comuníquese hoy con su equipo de cuenta para probar esto en la Vista Previa Privada!
Observabilidad de Predictive Optimization mejorada
Podrá hacer un seguimiento del impacto directo y del ROI de la optimización predictiva en el nuevo Centro de Gobernanza de Datos. Este panel de observabilidad incluirá de forma nativa una vista centralizada de las operaciones de PO y mostrará métricas clave que cuantifican su valor.
Utilice esto para ver exactamente lo que PO está haciendo internamente, con visualizaciones claras de los bytes compactados, los bytes agrupados en clústeres por Liquid, los bytes aspirados y los bytes analizados. Lo que es más importante, el hub traduce estas acciones en valor empresarial directo al mostrar sus ahorros estimados en costos de almacenamiento. Esto hará que sea más fácil que nunca comprender y comunicar el impacto positivo que PO está teniendo tanto en sus costos de almacenamiento como en el rendimiento de las consultas.
En DESCRIBED EXTENDED, también podrás ver las razones por las que Predictive Optimization omitió la optimización (p. ej., tabla ya bien agrupada, tabla demasiado pequeña para beneficiarse de la compactación, etc.).
Además, hemos agregado la capacidad de ver las selecciones de columnas para el salto de datos y Auto Liquid en la tabla de sistema de la PO.
¡Comuníquese hoy con su equipo de cuenta para probar el Centro de Gobernanza de Datos en la Vista Previa Privada!
Observabilidad de almacenamiento mejorada a nivel de tabla
Para proporcionar mayor claridad sobre tu huella de almacenamiento, introduciremos funciones de observabilidad mejoradas para Predictive Optimization. Podrá supervisar el estado y la evolución de sus tablas a través de métricas de alto nivel, como el recuento de archivos y el crecimiento del almacenamiento. Al presentar esta información directamente, facilitamos la visualización del impacto del mantenimiento automatizado y la identificación de nuevas oportunidades para reducir costos y optimizar tu patrimonio de datos.
Predictive Optimization está disponible hoy para las tablas administradas de Unity Catalog y está habilitado de forma predeterminada para las nuevas cargas de trabajo.
Cuando está habilitado, los clientes se benefician automáticamente de una ejecución de VACUUM más rápida, estadísticas automáticas que reconocen la carga de trabajo y un diseño de datos autónomo a través de la agrupación automática en clústeres de Liquid.
También puede explorar la observabilidad de Auto TTL y la optimización predictiva (Centro de Gobernanza de Datos) a través de la versión preliminar privada contactando al equipo de su cuenta.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Produto
12 de junio de 2024/11 min de lectura

