¡Nos complace anunciar la Disponibilidad General de Hive Metastore (HMS) y AWS Glue Federation en Unity Catalog! Esta nueva capacidad permite a Unity Catalog acceder y gobernar sin problemas las tablas almacenadas en Hive Metastores —ya sean autoalojados o alojados por Databricks— así como AWS Glue. Representa un hito clave en nuestra visión de Lakehouse Federation, que reúne fuentes de datos externas, incluidas bases de datos, almacenes de datos y catálogos, bajo un marco de gobernanza unificado con Unity Catalog. Ahora puede descubrir, consultar y administrar sin esfuerzo todos sus datos desde una única plataforma centralizada, independientemente del formato y la ubicación. Esto no solo fomenta el acceso abierto y la colaboración en toda su organización, sino que también extiende la inteligencia de datos a cada fuente de datos.
En este blog, exploraremos los beneficios de HMS y AWS Glue Federation, explicaremos cómo funciona y proporcionaremos orientación para comenzar.
HMS ha sido un estándar temprano para catalogar datos para su uso en sistemas de big data y, si bien proporciona funcionalidades fundamentales, no son ideales para cargas de trabajo modernas de datos e IA que exigen una gobernanza integral, incluidos controles de acceso detallados a filas y columnas, linaje, monitoreo y auditoría de todos los activos de datos e IA en un solo lugar.
Unity Catalog aborda estas deficiencias al proporcionar la única solución de gobernanza unificada y abierta de la industria para administrar todos los activos de datos e IA. Permite a las organizaciones crear un catálogo empresarial que cura archivos, tablas, modelos de ML, herramientas de IA, notebooks y métricas, todo gobernado con controles de acceso detallados, linaje, monitoreo, auditoría y uso compartido multiplataforma en una sola solución. Más de 10,000 empresas ahora están aprovechando Unity Catalog para gobernar su patrimonio de datos.
HMS y AWS Glue Federation brindan beneficios significativos para las organizaciones con HMS profundamente integrado en su arquitectura de datos. Para aquellos con implementaciones de HMS o AWS Glue de larga data, esta capacidad ofrece un camino sin interrupciones para aprovechar las características avanzadas de Unity Catalog sobre los datos almacenados en el metastore de HMS o Glue. Garantiza la continuidad operativa al permitir que las organizaciones mantengan flujos de trabajo heredados mientras actualizan gradualmente los datos y espacios de trabajo existentes a Unity Catalog.
Los beneficios clave incluyen:
El uso de HMS Federation en Unity Catalog permitió una migración incremental que minimizó las interrupciones para nuestros clientes. Nuestra asociación con Databricks fue crucial para evaluar las necesidades a corto plazo y los objetivos a largo plazo. Aprovechando las capacidades de Unity Catalog desde el principio, creamos una plataforma de datos escalable y eficiente con gobernanza y control de acceso mejorados como parte de nuestro viaje de modernización — Praveena Edward, Lead Data Engineer, Nationwide
Tenemos años de conjuntos de datos que están catalogados en un Hive Metastore externo. HMS Federation nos permite beneficiarnos inmediatamente de las características exclusivas de Unity Catalog, como el control de acceso robusto y las herramientas de IA de autoservicio a través de Genie Spaces, sin la sobrecarga de migrar todas estas tablas a Unity Catalog — James Davidheiser, Technical Lead, Data Infrastructure, Asana
Unity Catalog ahora incluye conectores de federación para Hive Metastore (HMS) y AWS Glue, que sirven como una capa de traducción entre Unity Catalog y sus metastores externos. Estos conectores le permiten montar catálogos HMS completos (tanto internos como externos) o AWS Glue como catálogos externos dentro de Unity Catalog, haciéndolos aparecer como objetos nativos. Puede definir controles de acceso detallados, ver linaje, realizar auditorías y consultar tablas administradas por HMS o AWS Glue utilizando el motor de Databricks. La federación admite la lectura y escritura en tablas en HMS interno dentro de los espacios de trabajo de Databricks, al tiempo que ofrece acceso de solo lectura para tablas en HMS y AWS Glue externos.
Con esta capacidad, puede leer todas las tablas en HMS y AWS Glue —Parquet, Delta e Iceberg (próximamente en vista previa pública)— lo que le permite acceder y gobernar todas sus tablas sin problemas.
Vea el tutorial en video a continuación para explorar AWS Glue y HMS Federation en acción.
La versión GA viene con las siguientes características adicionales:
También hemos agregado soporte de Vista Previa Pública para leer clones superficiales de Delta definidos en el metastore Hive, así como soporte de Vista Previa Privada para leer tablas respaldadas por montajes DBFS en todos los espacios de trabajo (¡contáctese con su representante de cuenta de Databricks para registrarse!).
Al adoptar Unity Catalog como la piedra angular de su arquitectura Lakehouse, puede desbloquear el poder de una implementación de gobernanza unificada y abierta que abarca todo su patrimonio de datos e IA.
(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original