Ir al contenido principal

Cómo las tablas administradas de Unity Catalog automatizan el rendimiento a escala

Las optimizaciones de IA integradas ofrecen hasta un 50% más de ahorro en costos y consultas hasta 20 veces más rápidas, sin necesidad de ajustes manuales

Image shows the AI-powered data optimization cycle. The model learns from table data and query patterns, then predicts the best optimizations, and optimizations are automatically run. This then feeds back into the learning loop.

Publicado: 30 de junio de 2025

Producto8 min de lectura

Summary

  • Conoce las características que hacen de las tablas administradas de Unity Catalog (UC) la mejor práctica estándar para la administración de datos
  • Reduce costos en más del 50% y mejora el rendimiento de las consultas en más de 20 veces con Optimización Predictiva en tablas administradas de UC
  • Ahorra tiempo de ingeniería de datos con optimizaciones de datos automáticas e inteligentes que se adaptan a los patrones de uso

Unity Catalog (UC) tablas administradas combinan una gobernanza sólida con una interoperabilidad fluida entre herramientas. Dado que los datos residen en el almacenamiento en la nube propiedad del cliente, las organizaciones conservan el control total sobre su ubicación física, al tiempo que se benefician de la inteligencia y automatización integradas de Databricks.

Hoy en día, las tablas administradas de UC son el tipo de tabla más utilizado en Databricks; dos de cada tres tablas de UC son administradas. Esta adopción refleja su capacidad para simplificar las operaciones, reducir los costos y mejorar el rendimiento a escala. 

Con las tablas administradas de UC, las organizaciones pueden estar seguras de que siempre están utilizando las últimas funcionalidades de las tablas. Estas tablas se actualizan automáticamente y, a diferencia de otros tipos de tablas, comprenden los patrones de uso, lo que permite habilitar nuevas capacidades de forma segura e incremental, sin intervención manual.

La imagen muestra el ciclo de vida de optimización de datos impulsado por IA. El modelo aprende de los datos de la tabla y los patrones de consulta, predice las mejores optimizaciones, las ejecuta automáticamente y observa los cambios en los datos de la tabla y los patrones de consulta en un bucle de retroalimentación.

La estructura de las tablas administradas de UC también permite capacidades avanzadas de IA que antes no eran posibles. Dado que todas las lecturas y escrituras pasan a través de Unity Catalog, Databricks puede optimizar inteligentemente los datos basándose en el uso real, mejorando el rendimiento de las consultas, reduciendo los costos de almacenamiento y eliminando el mantenimiento rutinario.

Los beneficios clave incluyen:

  • Actualizaciones automáticas con las últimas funcionalidades
  • Autoconservación con compactación, agrupación y limpieza
  • Ahorro en costos de almacenamiento y cómputo a través de optimización inteligente
  • Acceso seguro a través de APIs abiertas, incluso para clientes que no son de Databricks
  • Consultas más rápidas en todos los clientes, no solo en Databricks

En esta publicación de blog, profundizaremos en las funcionalidades que hacen que las tablas administradas de UC sean efectivas, junto con mejoras recientes y una vista previa de lo que está en el plan de desarrollo.

"Las optimizaciones automáticas de las tablas administradas de Unity Catalog nos ahorraron más de $1 millón anual en costos de almacenamiento, al tiempo que eliminaron la necesidad de un esfuerzo manual tedioso a diario." —Abhinav Raghuvanshi, Director Asociado de Ingeniería de Datos en Zepto

¿Cuáles son los beneficios de las tablas administradas de Unity Catalog?

Las tablas administradas de UC están optimizadas por defecto, sin necesidad de ajuste manual. Se adaptan continuamente en función de las cargas de trabajo de consulta para mejorar el rendimiento, reducir los costos de almacenamiento y optimizar la gestión del ciclo de vida.

Las tablas administradas de UC también simplifican las operaciones con funcionalidades integradas como la limpieza automática, la compactación de archivos y el almacenamiento en caché de metadatos. Dado que se basan en formatos abiertos como Delta y Iceberg, las tablas administradas de UC se integran fácilmente con herramientas y motores de terceros.

Las optimizaciones inteligentes impulsan ganancias de costos y rendimiento

Las tablas administradas de UC aplican un conjunto de técnicas impulsadas por IA para ofrecer hasta un 50 % más de ahorro de costos y consultas hasta 20 veces más rápidas:

Agrupación Líquida Automática

Las tablas administradas de UC agrupan automáticamente los datos basándose en los patrones de consulta observados, sin necesidad de configuración manual. En contraste, las tablas externas de UC requieren que los ingenieros de datos ejecuten comandos OPTIMIZE y definan manualmente las claves de agrupación. Con las tablas administradas, la Optimización Predictiva maneja la agrupación de forma dinámica, mejorando el rendimiento de las consultas y reduciendo los costos de almacenamiento sin esfuerzo adicional. [Leer más]

La agrupación líquida automática omite el 90 % de los archivos para consultas más rápidas y menores costos de cómputo

VACUUM Automático

En las tablas administradas de UC, la Optimización Predictiva identifica automáticamente cuándo una operación VACUUM es beneficiosa y la programa en consecuencia. VACUUM elimina los archivos asociados con filas eliminadas después de un período de retención definido, lo que ayuda a reducir el uso de almacenamiento. Para las tablas externas de UC, este proceso debe ser administrado manualmente ejecutando el comando VACUUM.

El vacío automático elimina datos que ya no son referenciados por ninguna tabla activa, ahorrando espacio de almacenamiento

DROP Diferido con Limpieza Automática

Cuando se elimina una tabla administrada de UC, los datos subyacentes en el almacenamiento en la nube se eliminan automáticamente después de 7 días, lo que ayuda a reducir los costos de almacenamiento y a evitar archivos huérfanos. En contraste, al eliminar una tabla externa de UC no se eliminan los datos; los usuarios deben eliminar manualmente los archivos de su bucket de almacenamiento. Si se omite este paso, los datos permanecen, lo que genera un uso innecesario del almacenamiento. Consulte la sección del plan de desarrollo para ver las próximas mejoras en este comportamiento.

Recopilación Automática de Estadísticas

Las tablas administradas de UC recopilan automáticamente estadísticas que mejoran el rendimiento de las consultas a través de una planificación de uniones y omisión de datos más inteligente. Métricas clave, como los valores mínimo y máximo de las columnas, ayudan al sistema a identificar y omitir archivos irrelevantes durante la ejecución de la consulta, reduciendo la sobrecarga de cómputo. Mientras que las tablas externas de UC generan estadísticas para las primeras 32 columnas por defecto, las tablas administradas de UC priorizan dinámicamente las columnas más relevantes para las cargas de trabajo de consulta reales. [Leer más]

La imagen muestra cómo se recopilan las estadísticas automáticas para las columnas automáticamente, para que se puedan omitir archivos irrelevantes. Esto resulta en consultas más rápidas y menores costos de cómputo.

Almacenamiento en Caché de Metadatos

Las tablas administradas de UC utilizan el almacenamiento en caché en memoria de los metadatos de transacciones para reducir el acceso a los registros de transacciones basados en la nube. Esto reduce los costos de cómputo y mejora el rendimiento de la planificación de consultas. La funcionalidad es exclusiva de las tablas administradas de UC, donde Databricks puede rastrear todas las escrituras y garantizar que los metadatos almacenados en caché permanezcan consistentes con el estado actual.

El almacenamiento en caché de metadatos reduce el número de llamadas realizadas al almacenamiento en la nube, lo que acelera las consultas

Optimización del Tamaño de Archivo

Databricks utiliza IA para compactar automáticamente los archivos a tamaños óptimos, basándose en patrones aprendidos de miles de implementaciones del mundo real. Esta optimización ocurre a medida que se escriben los datos y ayuda a mejorar el rendimiento de las consultas al reducir la fragmentación de archivos y la sobrecarga de escaneo. [Leer más]

Las tablas administradas de Unity Catalog compactan automáticamente los archivos al tamaño adecuado.

Abiertas e Interoperables por Diseño

Las tablas administradas de UC se basan en formatos abiertos como Delta e Iceberg, lo que permite una amplia compatibilidad con el ecosistema de datos moderno. Pueden ser accedidas por cualquier motor que admita estos formatos, incluidos Trino, DuckDB, Apache Spark™, Daft y herramientas integradas con el catálogo REST de Iceberg, como Dremio.

El acceso seguro se hace posible a través de APIs abiertas y la concesión de credenciales, lo que permite a las herramientas externas interactuar con datos gobernados sin duplicarlos. Esto simplifica la arquitectura y permite una única fuente de verdad en todas las cargas de trabajo de análisis e IA.

El soporte para escrituras de terceros también se está expandiendo. En Vista Previa Privada, las tablas administradas de UC ahora aceptan escrituras de clientes Delta que no son de Databricks, como Apache Spark, lo que facilita la integración con marcos de procesamiento externos mientras se mantiene la gobernanza de Unity Catalog.

Delta Sharing, el único protocolo de intercambio abierto de la industria, mejora aún más la interoperabilidad al permitir el acceso seguro de solo lectura a los datos subyacentes, incluso para los destinatarios que no usan Databricks. Estas capacidades ayudan a extender el acceso a datos gobernados a través de plataformas, socios y aplicaciones.

Dado que estas optimizaciones se aplican a nivel de diseño de datos, las mejoras de rendimiento son universales. Las herramientas externas se benefician del mismo diseño agrupado, archivos compactados y estadísticas enriquecidas, lo que resulta en consultas más rápidas y lecturas más eficientes, sin importar el motor.

Qué hay en la hoja de ruta

Pronto llegarán varias funciones nuevas que harán que las tablas administradas por UC sean aún más potentes y flexibles:

Observabilidad a nivel de tabla

Obtenga visibilidad de tablas no utilizadas, ventanas de retención, tendencias de tamaño de tabla y metadatos personalizados, lo que facilita la administración de costos y la aplicación de las mejores prácticas.

Períodos de UNDROP configurables

Personalice la ventana de retención para las tablas eliminadas, incluido el soporte para la eliminación inmediata para reducir aún más los costos de almacenamiento.

Herramientas de reorganización de esquemas y catálogos

Comandos para mover tablas entre catálogos y esquemas, lo que ayuda a los equipos a mantener los conjuntos de datos organizados lógicamente a medida que evolucionan los entornos.

Transacciones de múltiples instrucciones y múltiples tablas (vista previa privada)

Soporte para confirmaciones atómicas en varias tablas. Si alguna operación falla, toda la transacción se revierte, lo que mejora la confiabilidad para operaciones de datos complejas.

Comenzar con las tablas administradas por UC

Las tablas administradas por UC están habilitadas de forma predeterminada y son fáciles de adoptar, ya sea al crear tablas nuevas o al convertir las existentes.

Crear una nueva tabla administrada

Para cargas de trabajo nuevas, las tablas administradas por UC se crean sin necesidad de especificar una ubicación de almacenamiento. Databricks administra automáticamente la ruta de datos en el almacenamiento en la nube propiedad del cliente:

CREATE OR REPLACE TABLE catalog.schema.my_managed_table 

Convertir una tabla externa de UC existente a administrada

Las organizaciones que buscan convertir a tablas administradas pueden usar el siguiente comando para convertir tablas externas de UC:

ALTER TABLE catalog.schema.my_external_table SET MANAGED

Vea la documentación y solicite acceso a la vista previa pública limitada usando este formulario.

Convertir tablas externas (no UC)

Para los equipos que migran desde tipos de tablas externas, la conversión a tablas administradas por UC está disponible en vista previa privada. Esto facilita la consolidación de la gobernanza y la optimización bajo Unity Catalog. Puede solicitar acceso a la vista previa limitada usando este formulario.

Probar funciones avanzadas en vista previa

Para experimentar con funciones como escrituras de terceros en tablas administradas, transacciones de múltiples tablas o reorganización de esquemas, comuníquese con su equipo de cuentas de Databricks para unirse a los programas de vista previa relevantes.

 

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.