Direkt zum Hauptinhalt

Ankündigung der allgemeinen Verfügbarkeit von Hive Metastore und AWS Glue Federation in Unity Catalog

Announcing Public Preview of Hive Metastore and AWS Glue Federation in Unity Catalog

Veröffentlicht: 19. März 2025

Ankündigungen4 min Lesezeit

Summary

  1. Verbinden Sie HMS- und AWS Glue-Kataloge direkt mit Unity Catalog, ohne manuelle Metadatenmigration.
  2. Erkunden Sie Daten aus HMS und AWS Glue über eine einheitliche Schnittstelle, zusammen mit anderen Daten- und KI-Assets in Unity Catalog.
  3. Profitieren Sie von feingranularen Zugriffskontrollen, Tagging, Klassifizierung, Lineage und Auditing an einem Ort.

Wir freuen uns, die allgemeine Verfügbarkeit von Hive Metastore (HMS) und AWS Glue Federation in Unity Catalog bekannt zu geben! Diese neue Funktion ermöglicht es Unity Catalog, nahtlos auf Tabellen zuzugreifen und diese zu verwalten, die in Hive Metastas gespeichert sind – sei es selbst gehostet oder von Databricks gehostet – sowie AWS Glue. Dies stellt einen wichtigen Meilenstein in unserer Lakehouse Federation Vision dar, die externe Datenquellen, einschließlich Datenbanken, Data Warehouses und Kataloge, unter einem einheitlichen Governance-Framework mit Unity Catalog zusammenführt. Sie können jetzt mühelos alle Ihre Daten von einer einzigen, zentralisierten Plattform aus entdecken, abfragen und verwalten, unabhängig von Format und Speicherort. Dies fördert nicht nur den offenen Zugang und die Zusammenarbeit in Ihrem Unternehmen, sondern erweitert auch die Datenintelligenz auf jede Datenquelle.

In diesem Blogbeitrag werden wir die Vorteile von HMS und AWS Glue Federation untersuchen, erklären, wie sie funktionieren, und Anleitungen für den Einstieg geben.

Warum Hive Metastore und AWS Glue Federation? 

HMS war ein früher Standard für die Katalogisierung von Daten für die Verwendung in Big-Data-Systemen. Obwohl es grundlegende Funktionalitäten bietet, ist es nicht ideal für moderne Daten- und KI-Workloads geeignet, die eine umfassende Governance erfordern, einschließlich feingranularer Zugriffssteuerungen auf Zeilen und Spalten, Lineage, Überwachung und Auditing für alle Daten- und KI-Assets an einem Ort. 

Unity Catalog behebt diese Mängel, indem es die einzige einheitliche, offene Governance-Lösung der Branche für die Verwaltung aller Daten- und KI-Assets bietet. Es ermöglicht Unternehmen, einen Enterprise-Katalog zu erstellen, der Dateien, Tabellen, ML-Modelle, KI-Tools, Notebooks und Metriken kuratiert, die alle mit feingranularen Zugriffssteuerungen, Lineage, Überwachung, Auditing und plattformübergreifender Freigabe in einer Lösung verwaltet werden. Über 10.000 Unternehmen nutzen Unity Catalog bereits zur Verwaltung ihres Datenbestands.

HMS und AWS Glue Federation bieten erhebliche Vorteile für Unternehmen, bei denen HMS tief in ihrer Datenarchitektur verankert ist. Für diejenigen mit langjährigen HMS- oder AWS-Glue-Bereitstellungen bietet diese Funktion einen nahtlosen Weg, die erweiterten Funktionen von Unity Catalog für Daten zu nutzen, die im HMS- oder Glue-Metastore gespeichert sind. Sie gewährleistet die Betriebskontinuität, indem sie es Unternehmen ermöglicht, Legacy-Workflows beizubehalten und gleichzeitig bestehende Daten und Arbeitsbereiche schrittweise auf Unity Catalog zu aktualisieren.

Hauptvorteile sind:

  • Nahtlose Integration: Verbinden Sie Ihre vorhandenen HMS- und AWS-Glue-Kataloge direkt mit Unity Catalog, ohne manuelle Metadatenmigration.
  • Vereinfachte Datenentdeckung: Greifen Sie über eine einheitliche Oberfläche auf Daten aus HMS und AWS Glue zu und erkunden Sie diese, zusammen mit all Ihren Daten- und KI-Assets in Unity Catalog.
  • Umfassende Governance: Nutzen Sie die feingranularen Zugriffssteuerungen, Tagging-, Klassifizierungs-, Lineage- und Audit-Funktionen von Unity Catalog für die in HMS und AWS Glue gespeicherten Daten
Die Nutzung der HMS Federation in Unity Catalog ermöglichte eine inkrementelle Migration, die die Störungen für unsere Kunden minimierte. Unsere Partnerschaft mit Databricks war entscheidend für die Bewertung kurzfristiger Bedürfnisse und langfristiger Ziele. Durch die frühzeitige Nutzung der Fähigkeiten von Unity Catalog haben wir eine skalierbare und effiziente Datenplattform mit verbesserter Governance und Zugriffskontrolle als Teil unserer Modernisierungsreise geschaffen — Praveena Edward, Lead Data Engineer, Nationwide
Wir haben jahrelang Datensätze, die in einem externen Hive Metastore katalogisiert sind. HMS Federation ermöglicht es uns, sofort von Unity Catalog-Funktionen wie robuster Zugriffskontrolle und Self-Service-KI-Tools über Genie Spaces zu profitieren, ohne den Aufwand, all diese Tabellen in Unity Catalog zu migrieren — James Davidheiser, Technical Lead, Data Infrastructure, Asana

Wie es funktioniert

Unity Catalog enthält jetzt Föderationskonnektoren für Hive Metastore (HMS) und AWS Glue, die als Übersetzungsschicht zwischen Unity Catalog und Ihren externen Metastas dienen. Diese Konnektoren ermöglichen es Ihnen, ganze HMS-Kataloge (sowohl interne als auch externe) oder AWS Glue als fremde Kataloge innerhalb von Unity Catalog zu mounten, sodass sie als native Objekte erscheinen. Sie können feingranulare Zugriffssteuerungen definieren, Lineage anzeigen, Audits durchführen und HMS- oder AWS-Glue-verwaltete Tabellen mit der Databricks-Engine abfragen. Die Föderation unterstützt sowohl das Lesen als auch das Schreiben von Tabellen in internen HMS innerhalb von Databricks-Arbeitsbereichen, während sie Lesezugriff für Tabellen in externen HMS und AWS Glue bietet

Mit dieser Funktion können Sie alle Tabellen in HMS und AWS Glue lesen – Parquet, Delta und Iceberg (bald in Public Preview verfügbar) – und so nahtlos auf alle Ihre Tabellen zugreifen und diese verwalten.

HMS Fed
HMS und AWS Glue Federation in Unity Catalog

Schauen Sie sich das Video-Tutorial unten an, um AWS Glue und HMS Federation in Aktion zu erleben.

LEITFADEN

Ihr kompakter Leitfaden für moderne Analytics

Was ist neu in der GA-Version?

Die GA-Version enthält die folgenden zusätzlichen Funktionen:

  • Unterstützung für Hive Metastore v3.1 
  • Unterstützung für Hive Metastas, die in SQL Server- oder Postgres-Datenbanken gehostet werden (mySQL-Unterstützung bereits vorhanden)
  • Zugriff auf DBFS-Root-basierte Tabellen hinter einer Storage Firewall (Azure)
  • Unterstützung für Zeilen- und Spaltenmasken für Hive-Tabellen

Wir haben auch Public Preview-Unterstützung für das Lesen von Delta Shallow Clones hinzugefügt, die im Hive Metastore definiert sind, sowie Private Preview-Unterstützung für das Lesen von DBFS-Mount-basierten Tabellen über Arbeitsbereiche hinweg (bitte kontaktieren Sie Ihren Databricks-Account-Manager, um sich anzumelden!).

Erste Schritte

Indem Sie Unity Catalog als Eckpfeiler Ihrer Lakehouse-Architektur nutzen, können Sie die Leistung einer einheitlichen und offenen Governance-Implementierung freisetzen, die Ihren gesamten Daten- und KI-Bestand abdeckt.

  • Folgen Sie den HMS Federation-Anleitungen ( AWS, Azure und GCP), um loszulegen.
  • Um mit Unity Catalog zu beginnen, folgen Sie den Unity Catalog-Anleitungen für AWS, Azure und GCP

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Verpassen Sie keinen Beitrag von Databricks

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.