Ir al contenido principal
Plataforma

Interoperabilidad ampliada con las API abiertas de Unity Catalog

Cree, lea y escriba en tablas Delta administradas desde motores externos.

por Alex Jiang y Tathagata Das

  • El acceso externo a tablas Delta administradas por UC ahora está en Beta. Motores externos como Apache Spark, Apache Flink y DuckDB ahora pueden crear, leer y escribir en tablas Delta administradas.
  • Las tablas Delta administradas por UC se basan en la nueva función de confirmaciones de catálogo de Delta Lake, un estándar abierto que coordina las confirmaciones a través del catálogo, lo que permite escrituras concurrentes seguras, auditabilidad y transacciones de múltiples instrucciones.
  • La emisión de credenciales ahora está disponible en general. Miles de clientes utilizan la emisión de credenciales para acceder de forma segura a los activos de datos de UC desde motores externos, ahora con soporte M2M OAuth y actualización automática de credenciales para canalizaciones de larga duración.

Unity Catalog se diseñó para el lakehouse abierto. Anteriormente, los equipos de datos estaban atrapados en silos, a menudo obligados a duplicar datos en varias plataformas solo para usar las herramientas que querían. Cada nueva plataforma o herramienta significaba copiar conjuntos de datos, reconstruir políticas de acceso desde cero y mantener todo sincronizado. El resultado fue un aumento de los costos por almacenamiento redundante, políticas que se desincronizaban y un acceso y descubrimiento de datos fragmentados.

Cuando lanzamos Unity Catalog como código abierto y las API abiertas, rompimos los silos que anteriormente mantenían a los clientes bloqueados. Las empresas finalmente podían mantener una copia de los datos, usar cualquier motor de cómputo y gobernar todo desde un solo lugar. El ecosistema de UC ha prosperado desde entonces. Hoy en día, miles de clientes utilizan Unity Catalog para gobernar y acceder a tablas de Delta Lake y Apache Iceberg, con docenas de integraciones en el creciente ecosistema de Unity Catalog, desde Apache Spark y Trino hasta DuckDB y Confluent Tableflow.

Acceso externo a tablas administradas, ahora en Beta

Las tablas administradas de UC son donde la apertura se une al rendimiento. Estas tablas avanzadas utilizan Optimización Predictiva y Clustering Líquido para ajustar automáticamente los diseños de datos, ejecutar compactación y limpieza, y mantener las estadísticas actualizadas, ofreciendo consultas hasta 20 veces más rápidas y costos de almacenamiento un 50% menores, mientras permanecen completamente accesibles a través de API abiertas.

Ahora en Beta, motores externos, como Apache Spark, Apache Flink y DuckDB, pueden crear y escribir en tablas administradas de UC de Delta con gobernanza centralizada y optimizaciones automáticas.

Con la Beta, los motores externos pueden:

  • Crear tablas administradas: cree nuevas tablas administradas de UC directamente desde un motor externo.
  • Leer y escribir por lotes: lea y escriba en tablas administradas con total seguridad transaccional.
  • Transmitir hacia y desde tablas administradas: utilice tablas administradas como fuente y destino de streaming, lo que permite canalizaciones de extremo a extremo en tiempo real en Apache Spark.

Dado que cada operación fluye a través de tablas administradas de UC construidas sobre confirmaciones de catálogo, obtiene confirmaciones serializadas que evitan la corrupción del registro y una auditabilidad completa de cada lectura y escritura. La optimización predictiva continúa ejecutándose sin problemas, incluso en tablas a las que acceden motores externos. Las confirmaciones de catálogo también sientan las bases para funciones como transacciones multi-sentencia y multi-tabla que requieren un coordinador de confirmación centralizado.

El próspero ecosistema de UC continúa creciendo a medida que los motores amplían el soporte para el acceso externo a tablas administradas. Delta Kernel, la biblioteca de Java y Rust de código abierto para leer, escribir y confirmar tablas Delta, abstrae los detalles del protocolo de bajo nivel para que los desarrolladores de conectores puedan centrarse en la integración de UC, no en la implementación de Delta. Los conectores Delta para Apache Spark, Apache Flink y DuckDB han aprovechado Delta Kernel para admitir escrituras externas en tablas administradas de UC e integrarse con confirmaciones administradas por catálogo, y el ecosistema continúa creciendo. Al manejar la complejidad del protocolo de bajo nivel, Delta Kernel facilita que cualquier motor se integre con Unity Catalog, lo que contribuye a un ecosistema creciente de conectores.

Acceso externo seguro posible gracias a la emisión de credenciales

Para que un motor externo acceda a los datos en UC, necesita una forma segura de autenticarse y obtener acceso limitado al almacenamiento en la nube sin requerir permisos amplios y estáticos o credenciales vinculadas a una cuenta específica. Unity Catalog maneja esto a través de la emisión de credenciales, que ahora está disponible de forma general (GA): UC emite credenciales de corta duración y con ámbito a los motores externos bajo demanda, con políticas de acceso aplicadas centralmente.

Miles de clientes han utilizado las API abiertas de UC y dos adiciones las hacen listas para producción a escala empresarial. Los motores externos ahora pueden autenticarse en UC utilizando OAuth de máquina a máquina (M2M), cumpliendo los requisitos de seguridad empresarial sin depender de tokens de acceso personalizados (PAT), que son por usuario, de larga duración y difíciles de rotar. Y las credenciales se actualizan automáticamente por los motores a través de las API de emisión de credenciales de UC, por lo que las canalizaciones que se ejecutan durante horas se completan de manera confiable sin que los tokens expiren a mitad del trabajo.

Ejecución de consultas con emisión de credenciales
Ejecución de consultas con emisión de credenciales utilizando un motor de cómputo externo

Con la emisión de credenciales, las empresas pueden leer, escribir y crear tablas administradas y externas en Unity Catalog desde cualquier motor o herramienta compatible. Estas credenciales son de corta duración, limitadas al recurso solicitado y gobernadas por los privilegios de UC. Esto significa que su equipo de plataforma conserva el control total sobre qué principales pueden acceder a los datos externamente y qué pueden hacer con ellos.

Con las API abiertas de Unity Catalog, hemos empoderado a nuestros equipos para que utilicen sus herramientas preferidas mientras mantenemos la gobernanza y la consistencia de los datos. Podemos aprovechar los beneficios de las tablas administradas dentro de una plataforma de datos e IA verdaderamente interoperable que funciona en múltiples motores de cómputo.— Sudipta Das, Director de Operaciones de Datos Empresariales en PepsiCo

Emisión de credenciales para volúmenes

La emisión de credenciales se extiende no solo a las tablas, sino también a los datos no estructurados. La emisión de credenciales para volúmenes está ahora en vista previa pública, por lo que los clientes externos pueden solicitar credenciales temporales y limitadas para acceder a imágenes, PDF y videos almacenados en volúmenes con gobernanza de Unity Catalog. El mismo modelo de control de acceso, registro de auditoría y credenciales limitadas se aplican ya sea que esté consultando una tabla o procesando un archivo de video sin procesar externamente.

¿Qué sigue?

Continuamos invirtiendo para hacer que el acceso externo sea más capaz. La emisión de credenciales hoy gobierna controles de acceso de grano grueso para motores externos. También hemos desarrollado funcionalidad para aplicar controles de acceso basados en atributos (ABAC) para lecturas externas, lo que hace que la gobernanza sea de grano fino. Esto hace posible aplicar políticas ABAC a nivel de fila y columna cuando las tablas administradas de UC se leen desde motores externos.

Comience hoy mismo

Para comenzar con la emisión de credenciales, consulte nuestra documentación. Para usar la Beta de acceso externo a tablas administradas de Delta:

  1. Inscríbase en "Acceso externo a tablas administradas de Unity Catalog Delta" en el portal de vista previa de Databricks (consulte Administrar vistas previas de Databricks)
  2. Habilite el acceso a datos externos en su metastore y otorgue EXTERNAL_USE_SCHEMA en el esquema que contiene las tablas a las que desea acceder.
  3. Cree una nueva tabla administrada de UC. Para mover datos existentes, consulte la guía de migración para convertir tablas externas en administradas.
  4. Utilice Delta-Spark 4.2 con Unity Catalog 0.4.1 para crear, leer y escribir en tablas administradas desde cómputo externo. Consulte la documentación de acceso externo.

Únase a nosotros en Data and AI Summit 2026

¡Data and AI Summit 2026 está casi aquí! Únase a nosotros del 15 al 18 de junio de 2026 en el Moscone Center en San Francisco, California, para aprender cómo las organizaciones líderes están utilizando Unity Catalog para gobernar datos e IA en todos los motores. Regístrese hoy para obtener una primera vista de lo que vendrá para la gobernanza abierta y unificada.

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

Recibe las últimas publicaciones en tu bandeja de entrada

Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.