Catalog Commits es la próxima evolución del lakehouse abierto
por Benjamin Mathew, Michelle Leon, Lukas Rupprecht y Ryan Johnson
Catalog Commits da un gran paso adelante en la unificación del lakehouse al alinear Delta con el modelo orientado al catálogo de Iceberg. Con Catalog Commits, los catálogos se convierten en el sistema de coordinación para las tablas Delta, intermediando el descubrimiento, acceso y estado de las tablas entre motores.
Hoy, nos complace anunciar la Disponibilidad General de Catalog Commits para tablas administradas de UC. Esta es una actualización importante de la plataforma que amplía la interoperabilidad de las tablas administradas de UC, fortalece las capacidades de gobernanza de UC y desbloquea nuevas funciones, incluidas transacciones de múltiples sentencias y múltiples tablas.
En este blog, cubriremos…
Cuando se creó Delta Lake, el lakehouse primero necesitó transacciones confiables en almacenamiento en la nube abierto. En ese momento, los catálogos no estaban diseñados para coordinar cargas de trabajo de datos modernas, por lo que Delta tomó una decisión arquitectónica revolucionaria: trajo garantías ACID directamente a los sistemas de archivos del data lake. Esta base hizo posible el lakehouse.
A medida que el lakehouse se convirtió en el sistema de registro para más equipos, motores y cargas de trabajo de IA, la necesidad de una gobernanza unificada en todos estos diferentes activos se volvió crítica. Unity Catalog proporcionó esa capa de gobernanza faltante: un lugar único para descubrir, asegurar, auditar y coordinar el acceso a datos y activos de IA en todas las nubes, formatos y motores.
Juntos, Delta Lake y Unity Catalog formaron la base del lakehouse moderno. Sin embargo, operaron uno al lado del otro: Delta administrando el estado transaccional en la capa de almacenamiento y Unity Catalog gobernando el acceso en la capa de catálogo. Esta arquitectura fue suficiente al principio, pero a medida que las organizaciones escalaron a más motores y cargas de trabajo, este diseño condujo a nuevos desafíos de coordinación.
La arquitectura original orientada al sistema de archivos de Delta fue poderosa para llevar transacciones a los data lakes, pero no fue diseñada para un mundo donde el catálogo debe coordinar consistentemente la identidad, el acceso y el estado de las tablas en muchos motores. A medida que las organizaciones imponen mayores demandas a sus datos, la falta de coordinación del catálogo expuso tres desafíos persistentes:
Hoy en día, los catálogos no están en la ruta de lectura o escritura para los motores Delta. Por lo tanto, si un motor como Apache Flink quiere realizar un cambio de esquema en una tabla escribiendo directamente en la capa de almacenamiento, el catálogo no se entera de esos cambios, creando un estado de "división cerebral" donde los metadatos del catálogo y el estado real de la tabla divergen. Esto puede causar una deriva silenciosa de metadatos y fallas en las canalizaciones posteriores.
