Ir al contenido principal

Anuncio de disponibilidad general de la federación de Hive Metastore y AWS Glue en Unity Catalog

Announcing Public Preview of Hive Metastore and AWS Glue Federation in Unity Catalog

Publicado: 19 de marzo de 2025

Anuncios5 min de lectura

Summary

  1. Conecta catálogos de HMS y AWS Glue directamente a Unity Catalog sin migración manual de metadatos.
  2. Explora datos de HMS y AWS Glue a través de una interfaz unificada, junto con otros activos de datos e IA en Unity Catalog.
  3. Benefíciate de controles de acceso detallados, etiquetado, clasificación, linaje y auditoría en un solo lugar.

¡Nos complace anunciar la Disponibilidad General de Hive Metastore (HMS) y AWS Glue Federation en Unity Catalog! Esta nueva capacidad permite a Unity Catalog acceder y gobernar sin problemas las tablas almacenadas en Hive Metastores —ya sean autoalojados o alojados por Databricks— así como AWS Glue. Representa un hito clave en nuestra visión de Lakehouse Federation, que reúne fuentes de datos externas, incluidas bases de datos, almacenes de datos y catálogos, bajo un marco de gobernanza unificado con Unity Catalog. Ahora puede descubrir, consultar y administrar sin esfuerzo todos sus datos desde una única plataforma centralizada, independientemente del formato y la ubicación. Esto no solo fomenta el acceso abierto y la colaboración en toda su organización, sino que también extiende la inteligencia de datos a cada fuente de datos.

En este blog, exploraremos los beneficios de HMS y AWS Glue Federation, explicaremos cómo funciona y proporcionaremos orientación para comenzar.

¿Por qué Hive Metastore y AWS Glue Federation? 

HMS ha sido un estándar temprano para catalogar datos para su uso en sistemas de big data y, si bien proporciona funcionalidades fundamentales, no son ideales para cargas de trabajo modernas de datos e IA que exigen una gobernanza integral, incluidos controles de acceso detallados a filas y columnas, linaje, monitoreo y auditoría de todos los activos de datos e IA en un solo lugar. 

Unity Catalog aborda estas deficiencias al proporcionar la única solución de gobernanza unificada y abierta de la industria para administrar todos los activos de datos e IA. Permite a las organizaciones crear un catálogo empresarial que cura archivos, tablas, modelos de ML, herramientas de IA, notebooks y métricas, todo gobernado con controles de acceso detallados, linaje, monitoreo, auditoría y uso compartido multiplataforma en una sola solución. Más de 10,000 empresas ahora están aprovechando Unity Catalog para gobernar su patrimonio de datos.

HMS y AWS Glue Federation brindan beneficios significativos para las organizaciones con HMS profundamente integrado en su arquitectura de datos. Para aquellos con implementaciones de HMS o AWS Glue de larga data, esta capacidad ofrece un camino sin interrupciones para aprovechar las características avanzadas de Unity Catalog sobre los datos almacenados en el metastore de HMS o Glue. Garantiza la continuidad operativa al permitir que las organizaciones mantengan flujos de trabajo heredados mientras actualizan gradualmente los datos y espacios de trabajo existentes a Unity Catalog.

Los beneficios clave incluyen:

  • Integración sin interrupciones: Conecte sus catálogos HMS y AWS Glue existentes directamente a Unity Catalog sin necesidad de migración manual de metadatos.
  • Descubrimiento de datos simplificado: Acceda y explore datos de HMS y AWS Glue a través de una interfaz unificada, junto con todos sus activos de datos e IA en Unity Catalog.
  • Gobernanza integral: Aproveche los controles de acceso detallados, el etiquetado, la clasificación, el linaje y las capacidades de auditoría de Unity Catalog sobre los datos almacenados en HMS y AWS Glue
El uso de HMS Federation en Unity Catalog permitió una migración incremental que minimizó las interrupciones para nuestros clientes. Nuestra asociación con Databricks fue crucial para evaluar las necesidades a corto plazo y los objetivos a largo plazo. Aprovechando las capacidades de Unity Catalog desde el principio, creamos una plataforma de datos escalable y eficiente con gobernanza y control de acceso mejorados como parte de nuestro viaje de modernización — Praveena Edward, Lead Data Engineer, Nationwide
Tenemos años de conjuntos de datos que están catalogados en un Hive Metastore externo. HMS Federation nos permite beneficiarnos inmediatamente de las características exclusivas de Unity Catalog, como el control de acceso robusto y las herramientas de IA de autoservicio a través de Genie Spaces, sin la sobrecarga de migrar todas estas tablas a Unity Catalog — James Davidheiser, Technical Lead, Data Infrastructure, Asana

Cómo funciona

Unity Catalog ahora incluye conectores de federación para Hive Metastore (HMS) y AWS Glue, que sirven como una capa de traducción entre Unity Catalog y sus metastores externos. Estos conectores le permiten montar catálogos HMS completos (tanto internos como externos) o AWS Glue como catálogos externos dentro de Unity Catalog, haciéndolos aparecer como objetos nativos. Puede definir controles de acceso detallados, ver linaje, realizar auditorías y consultar tablas administradas por HMS o AWS Glue utilizando el motor de Databricks. La federación admite la lectura y escritura en tablas en HMS interno dentro de los espacios de trabajo de Databricks, al tiempo que ofrece acceso de solo lectura para tablas en HMS y AWS Glue externos.

Con esta capacidad, puede leer todas las tablas en HMS y AWS Glue —Parquet, Delta e Iceberg (próximamente en vista previa pública)— lo que le permite acceder y gobernar todas sus tablas sin problemas.

HMS Fed
HMS y AWS Glue Federation en Unity Catalog

Vea el tutorial en video a continuación para explorar AWS Glue y HMS Federation en acción.

GUÍA

Tu guía compacta para el análisis moderno

¿Qué hay de nuevo con la versión GA?

La versión GA viene con las siguientes características adicionales:

  • Soporte para Hive Metastore v3.1 
  • Soporte para Hive Metastores alojados en bases de datos SQL Server o Postgres (soporte mySQL ya proporcionado)
  • Acceso a tablas respaldadas por DBFS-root detrás de un firewall de almacenamiento (Azure)
  • Soporte para máscaras a nivel de fila y columna en tablas Hive

También hemos agregado soporte de Vista Previa Pública para leer clones superficiales de Delta definidos en el metastore Hive, así como soporte de Vista Previa Privada para leer tablas respaldadas por montajes DBFS en todos los espacios de trabajo (¡contáctese con su representante de cuenta de Databricks para registrarse!).

Cómo empezar

Al adoptar Unity Catalog como la piedra angular de su arquitectura Lakehouse, puede desbloquear el poder de una implementación de gobernanza unificada y abierta que abarca todo su patrimonio de datos e IA.

  • Sigue las guías de federación de HMS ( AWS, Azure y GCP) para empezar.
  • Para empezar con Unity Catalog, sigue las guías de Unity Catalog disponibles para AWS, Azure, y GCP

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.