El catálogo más completo y abierto para Apache Iceberg
por Jason Reid, Ryan Blue, Daniel Weeks y Michelle Leon
*Unity Catalog es ahora el catálogo Apache Iceberg más completo, interoperable y listo para producción, con Managed Iceberg, Iceberg v3 y Foreign Iceberg pasando a GA.
*Cinco capacidades lo distinguen: APIs abiertas, federación de catálogos, control de acceso entre motores, uso compartido seguro sin copias y optimización impulsada por IA.
*Mirando hacia el futuro, Iceberg v4 y Delta 5.0 convergerán en una estructura de metadatos unificada, poniendo fin al compromiso entre la interoperabilidad y el rendimiento listo para producción.
La siguiente fase del lakehouse abierto estará definida por el catálogo. Los formatos de tabla abiertos permitieron que muchos motores funcionaran con los mismos datos, pero el catálogo determina si esos datos pueden ser gobernados, optimizados y compartidos de manera consistente entre sistemas. A medida que más cargas de trabajo, incluidas las aplicaciones de IA y las agentes, dependen del acceso gobernado a los datos en muchos sistemas, las empresas necesitan un catálogo Iceberg que pueda proporcionar interoperabilidad, un gran rendimiento y una gobernanza lista para la empresa.
Es por eso que hoy, anunciamos el conjunto más completo de capacidades de Iceberg disponibles en cualquier catálogo de lakehouse. En este blog, analizaremos las nuevas mejoras para el soporte de Iceberg en Unity Catalog y desglosaremos 5 cosas que hacen de Unity Catalog el catálogo Iceberg más interoperable del mercado actual.
Hemos lanzado un amplio conjunto de capacidades de Iceberg en Databricks y Unity Catalog a Disponibilidad General y Vista Previa para garantizar que cada motor, cada catálogo y cada equipo puedan trabajar juntos sin problemas.

Para ofrecer un lakehouse completamente abierto, un catálogo Iceberg debe ir más allá del seguimiento básico de metadatos. Debe brindarle flexibilidad absoluta en diversos motores, proveedores y modelos de gobernanza. Creemos que la evaluación de un catálogo Iceberg abierto se reduce a qué tan bien aborda cinco requisitos operativos fundamentales: proporcionar APIs abiertas, federar a través de entornos externos, aplicar gobernanza entre motores, habilitar el intercambio seguro y abierto, y la innovación continua en rendimiento y formato.
Unity Catalog es el único catálogo que cumple con los cinco requisitos.

Los clientes deben poder usar el motor que mejor se adapte a la carga de trabajo, ya sea Spark, Trino, Flink, Snowflake, DuckDB, pandas o cualquier otro cliente compatible con Iceberg, sin copiar datos ni otorgar permisos de almacenamiento amplios a cada motor.
Con Iceberg Administrado ahora disponible de forma general en Databricks, los clientes pueden crear, leer y escribir tablas Iceberg en Unity Catalog desde cualquier motor utilizando las APIs del Catálogo REST de Iceberg de UC.
Las APIs del Catálogo REST de Iceberg de UC ahora también se extienden más allá de las tablas Iceberg administradas. UC también vende credenciales para tablas Iceberg federadas, proporcionando acceso seguro a través de APIs abiertas incluso a tablas administradas en catálogos externos. Y, actualmente en Vista Previa Pública con Acceso Controlado, los clientes pueden crear vistas materializadas en Databricks y exponerlas como tablas Iceberg a consumidores downstream. Con una disponibilidad más amplia en las próximas semanas, los clientes podrán crear vistas materializadas compatibles con Iceberg directamente con CREATE MATERIALIZED VIEW my_mv USING ICEBERG.

Muchas grandes empresas tienen varios catálogos en su lakehouse. Por ejemplo, pueden tener datos distribuidos en Unity Catalog, AWS Glue, Snowflake Horizon y Hive Metastore. Con Iceberg Externo ahora disponible de forma general, Unity Catalog puede gobernar tablas Iceberg administradas en otros catálogos. Los clientes pueden descubrir, asegurar, consultar y compartir tablas Iceberg externas a través de Databricks mientras dejan los datos y el catálogo de origen en su lugar.
Unity Catalog ahora admite un conjunto amplio y creciente de integraciones de catálogos Iceberg, que incluyen AWS Glue, Google Cloud Lakehouse Runtime Catalog, Snowflake Horizon, Palantir, Salesforce y Workday. Estas integraciones permiten a las empresas tratar Unity Catalog como el único panel de control para su patrimonio Iceberg, incluso cuando los datos se producen o administran en otro lugar.
Históricamente, los controles a nivel de fila y columna se aplicaban dentro de un solo motor. En el lakehouse abierto, la misma tabla puede ser accedida por muchos motores. Esto introdujo un problema difícil: la gobernanza debe funcionar dondequiera que se pueda acceder a los datos.
Con los controles de acceso basados en atributos (ABAC) entre motores ahora en versión Beta, Unity Catalog extiende el control de acceso basado en atributos a los clientes de Iceberg que utilizan las API de escaneo del catálogo REST de Iceberg.
Cómo funciona: Los administradores definen políticas una vez en UC, incluidas máscaras de columnas, filtros de filas y políticas basadas en etiquetas. Cuando un motor externo de Iceberg solicita acceso, UC evalúa las políticas aplicables durante la planificación del escaneo en el servidor. Luego, UC devuelve un plan de escaneo filtrado para que el motor solo lea los datos autorizados al procesar la consulta.
Esto aporta una gobernanza granular a los motores externos de Iceberg que utilizan estándares abiertos. Cualquier motor, como Apache Spark o DuckDB, que implemente el cliente de planificación de escaneo del catálogo REST de Iceberg (añadido en la versión 1.11 de Iceberg) puede acceder a los datos con ABAC aplicado. Los clientes pueden utilizar el mejor motor para cada carga de trabajo mientras mantienen un modelo de gobernanza único en todo el lakehouse.
Unity Catalog y Iceberg administrado nos brindan lo mejor de ambos mundos: rendimiento nativo para nuestras canalizaciones de IA y ML, e interoperabilidad abierta para todos los consumidores posteriores. Una ruta de escritura, cero duplicación y una capa de gobernanza que todos los motores respetan, incluidos los productos impulsados por IA que estamos creando para la Nube de Datos de Rippling.— Tae Lee, Ingeniero Principal, Plataforma de Datos en Rippling
La compartición entre dominios a menudo obliga a los proveedores de datos a tomar malas decisiones: copiar datos a otra plataforma, crear complejos mecanismos de autenticación externa o exigir que cada destinatario utilice el mismo ecosistema de proveedores. Databricks fue pionero en la compartición segura de datos abiertos con Delta Sharing, el protocolo de código abierto más adoptado para la compartición de Datos e IA, compatible tanto con la compartición de Databricks a Databricks como de Databricks a abierto.
Nos complace anunciar que Iceberg es ahora un ciudadano de primera clase en Databricks Delta Sharing, tanto como formato de origen como de destino. Con la compartición con clientes de Iceberg ahora disponible de forma general, los clientes de Databricks pueden compartir datos en vivo externamente con cualquier destinatario que admita la API del Catálogo REST de Iceberg. Los destinatarios pueden consultar datos compartidos desde clientes compatibles con Iceberg como Snowflake, Trino, Flink y Spark, sin necesidad de ingesta manual ni copias. Los proveedores continúan gestionando el acceso, la auditoría y la gobernanza a través de Unity Catalog.
También anunciamos la Vista Previa Pública de la compartición de tablas Iceberg externas. Los clientes pueden compartir tablas Iceberg que se administran o catalogan fuera de Databricks, pero que están registradas y gobernadas en Unity Catalog. Esto significa que UC puede servir como capa de compartición para tablas Iceberg administradas y externas, manteniendo los datos en su lugar y la gobernanza centralizada.

La interoperabilidad abierta solo funciona si las tablas mantienen un buen rendimiento a escala de producción. Unity Catalog es el único catálogo que utiliza IA para optimizar sus tablas y lograr consultas más rápidas y una menor sobrecarga operativa. Predictive Optimization determina qué tablas necesitan mantenimiento, qué optimizaciones ejecutar y con qué frecuencia, y adapta la disposición de los datos de su tabla en función de los patrones de carga de trabajo. Esto reduce el trabajo operativo necesario para mantener las tablas Iceberg rápidas y eficientes en costos a medida que cambian los usos, y estas optimizaciones benefician a todos los motores; por ejemplo, las técnicas de optimización de la disposición de datos mejoran la omisión de datos para consultas que se ejecutan fuera de Databricks, como en Apache Spark. Estamos innovando constantemente en la experiencia del cliente, y somos el único catálogo que puede seleccionar de forma inteligente las claves de clúster para un rendimiento óptimo o actualizar automáticamente las tablas abiertas con las últimas innovaciones basadas en patrones de acceso previos.
Databricks también está avanzando en el propio estándar Iceberg. Con Iceberg v3 ahora disponible de forma general en Databricks, los clientes obtienen soporte para vectores de eliminación, seguimiento de filas y VARIANT en tablas Iceberg administradas, tablas Iceberg externas y tablas administradas con UniForm habilitado. Estas capacidades cierran brechas importantes entre el rendimiento y la interoperabilidad: los vectores de eliminación aceleran las actualizaciones, fusiones y eliminaciones; el seguimiento de filas admite un procesamiento incremental más eficiente; y VARIANT proporciona una representación estándar para datos semiestructurados. Estas características también funcionan sin problemas tanto en tablas Delta como Iceberg, lo que permite la interoperabilidad sin reescribir datos.
Estas inversiones apuntan al mismo objetivo: tablas abiertas que no obligan a los clientes a elegir entre la interoperabilidad del ecosistema y las capacidades de rendimiento necesarias para las cargas de trabajo de producción.
Unity Catalog nos proporciona un único lugar para gobernar datos en todos los equipos y sistemas, mientras que Iceberg administrado ofrece el rendimiento que necesitamos a nuestra escala.— Kayvon Raphael, Jefe de Ingeniería de Datos, Magnite
En conjunto, estas cinco capacidades hacen de Unity Catalog el mejor catálogo para Apache Iceberg. UC brinda a los clientes acceso abierto a tablas Iceberg, una vista unificada entre catálogos, gobernanza granular entre motores, compartición segura entre dominios y optimización automática para cargas de trabajo de producción.
Con Iceberg v4, estamos repensando la estructura de metadatos central desde cero para mejorar el rendimiento, la escalabilidad y la interoperabilidad. Nuestro objetivo es elevar continuamente el listón de rendimiento e innovación de funciones, y hacerlo de manera que acerque Iceberg y Delta Lake. Por eso también proponemos que la próxima versión de Delta, Delta 5.0, adopte la estructura de árbol de metadatos adaptativa.
El resultado es simple: todas las tablas administradas se optimizan automáticamente en Unity Catalog, se gobiernan a través de API abiertas y están disponibles para cualquier motor. Mientras que otras plataformas le obligan a elegir entre interoperabilidad y rendimiento y capacidades avanzadas. Con Unity Catalog, obtiene ambas cosas.
Únase a nosotros en Data + AI Summit para obtener más información sobre Apache Iceberg, Unity Catalog, compartición abierta, federación y la próxima fase de unificación de formatos de Delta e Iceberg.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original
Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.