Revenir au contenu principal

Annonce de la disponibilité générale de la fédération Hive Metastore et AWS Glue dans Unity Catalog

Announcing Public Preview of Hive Metastore and AWS Glue Federation in Unity Catalog

Publié: 19 mars 2025

Annonces5 min de lecture

Summary

  1. Connectez directement les catalogues HMS et AWS Glue à Unity Catalog sans migration manuelle des métadonnées.
  2. Explorez les données de HMS et AWS Glue via une interface unifiée, aux côtés d'autres données et actifs IA dans Unity Catalog.
  3. Bénéficiez de contrôles d'accès granulaires, de balisage, de classification, de lignage et d'audit en un seul endroit.

Nous sommes ravis d'annoncer la disponibilité générale de la fédération Hive Metastore (HMS) et AWS Glue dans Unity Catalog ! Cette nouvelle fonctionnalité permet à Unity Catalog d'accéder et de gouverner de manière transparente les tables stockées dans les Hive Metastores — qu'ils soient auto-hébergés ou hébergés par Databricks — ainsi qu'AWS Glue. Elle représente une étape clé dans notre vision Lakehouse Federation, qui rassemble des sources de données externes, y compris des bases de données, des entrepôts de données et des catalogues, sous un cadre de gouvernance unifié avec Unity Catalog. Vous pouvez désormais découvrir, interroger et gérer sans effort toutes vos données à partir d'une plateforme unique et centralisée, quel que soit le format et l'emplacement. Cela favorise non seulement l'accès ouvert et la collaboration au sein de votre organisation, mais étend également l'intelligence des données à chaque source de données.

Dans ce blog, nous explorerons les avantages de la fédération HMS et AWS Glue, expliquerons son fonctionnement et fournirons des conseils pour commencer.

Pourquoi la fédération Hive Metastore et AWS Glue ? 

HMS a été une norme précoce pour la catalogage des données à utiliser dans les systèmes big data, et bien qu'il fournisse des fonctionnalités fondamentales, elles ne sont pas idéales pour les charges de travail modernes de données et d'IA qui exigent une gouvernance complète, y compris des contrôles d'accès granulaires sur les lignes et les colonnes, la lignée, la surveillance et l'audit de tous les actifs de données et d'IA en un seul endroit. 

Unity Catalog répond à ces lacunes en fournissant la seule solution de gouvernance unifiée et ouverte de l'industrie pour la gestion de tous les actifs de données et d'IA. Elle permet aux organisations de créer un catalogue d'entreprise qui organise les fichiers, les tables, les modèles ML, les outils d'IA, les notebooks et les métriques, le tout gouverné avec des contrôles d'accès granulaires, la lignée, la surveillance, l'audit et le partage inter-plateformes en une seule solution. Plus de 10 000 entreprises utilisent désormais Unity Catalog pour gouverner leur parc de données.

La fédération HMS et AWS Glue offre des avantages significatifs aux organisations dont le HMS est profondément intégré dans leur architecture de données. Pour celles qui ont des déploiements HMS ou AWS Glue de longue date, cette capacité offre un chemin transparent pour tirer parti des fonctionnalités avancées d'Unity Catalog sur les données stockées dans le metastore HMS ou Glue. Elle assure la continuité opérationnelle en permettant aux organisations de maintenir les flux de travail existants tout en mettant progressivement à niveau les données et les espaces de travail existants vers Unity Catalog.

Les avantages clés incluent :

  • Intégration transparente : Connectez vos catalogues HMS et AWS Glue existants directement à Unity Catalog sans migration manuelle des métadonnées.
  • Découverte de données simplifiée : Accédez et explorez les données de HMS et AWS Glue via une interface unifiée, aux côtés de tous vos actifs de données et d'IA dans Unity Catalog.
  • Gouvernance complète : Tirez parti des contrôles d'accès granulaires, du marquage, de la classification, de la lignée et des capacités d'audit d'Unity Catalog sur les données stockées dans HMS et AWS Glue
L'utilisation de la fédération HMS dans Unity Catalog a permis une migration incrémentielle qui a minimisé les perturbations pour nos clients. Notre partenariat avec Databricks a été crucial pour évaluer les besoins à court terme et les objectifs à long terme. En tirant parti des capacités d'Unity Catalog dès le début, nous avons créé une plateforme de données évolutive et efficace avec une gouvernance et un contrôle d'accès améliorés dans le cadre de notre parcours de modernisation — Praveena Edward, Lead Data Engineer, Nationwide
Nous avons des années de jeux de données catalogués dans un Hive Metastore externe. La fédération HMS nous permet de bénéficier immédiatement des fonctionnalités d'Unity Catalog telles que le contrôle d'accès robuste et les outils d'IA en libre-service via Genie Spaces, sans la surcharge liée à la migration de toutes ces tables vers Unity Catalog — James Davidheiser, Technical Lead, Data Infrastructure, Asana

Comment ça marche

Unity Catalog inclut désormais des connecteurs de fédération pour Hive Metastore (HMS) et AWS Glue, servant de couche de traduction entre Unity Catalog et vos metastores externes. Ces connecteurs vous permettent de monter des catalogues HMS entiers (internes et externes) ou AWS Glue en tant que catalogues étrangers au sein d'Unity Catalog, les faisant apparaître comme des objets natifs. Vous pouvez définir des contrôles d'accès granulaires, afficher la lignée, effectuer des audits et interroger les tables gérées par HMS ou AWS Glue en utilisant le moteur Databricks. La fédération prend en charge la lecture et l'écriture sur les tables dans le HMS interne au sein des espaces de travail Databricks, tout en offrant un accès en lecture seule aux tables dans les HMS externes et AWS Glue

Avec cette fonctionnalité, vous pouvez lire toutes les tables dans HMS et AWS Glue — Parquet, Delta et Iceberg (bientôt disponible en préversion publique) — vous permettant d'accéder et de gouverner toutes vos tables de manière transparente.

HMS Fed
Fédération HMS et AWS Glue dans Unity Catalog

Découvrez le tutoriel vidéo ci-dessous pour explorer la fédération AWS Glue et HMS en action.

GUIDE

Votre guide compact de l'analytique moderne

Quoi de neuf avec la version GA ?

La version GA comprend les fonctionnalités supplémentaires suivantes :

  • Prise en charge de Hive Metastore v3.1 
  • Prise en charge des Hive Metastores hébergés dans des bases de données SQL Server ou Postgres (prise en charge de mySQL déjà fournie)
  • Accès aux tables sauvegardées par DBFS-root derrière un pare-feu de stockage (Azure)
  • Prise en charge des masques de ligne et de colonne sur les tables Hive

Nous avons également ajouté la prise en charge en préversion publique des clones peu profonds Delta définis dans le metastore Hive, ainsi que la prise en charge en préversion privée des tables sauvegardées par des montages DBFS à travers les espaces de travail (veuillez contacter votre représentant de compte Databricks pour vous inscrire !).

Pour commencer

En adoptant Unity Catalog comme pierre angulaire de votre architecture Lakehouse, vous pouvez libérer la puissance d'une implémentation de gouvernance unifiée et ouverte qui s'étend sur l'ensemble de vos actifs de données et d'IA.

  • Suivez les guides HMS Federation ( AWS, Azure et GCP) pour commencer.
  • Pour commencer avec Unity Catalog, suivez les guides Unity Catalog disponibles pour AWS, Azure, et GCP

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Ne manquez jamais un article Databricks

Abonnez-vous à notre blog et recevez les derniers articles dans votre boîte mail.