Veröffentlicht: 19. März 2025
von Paul Roome, Sachin Thakur und Michelle Leon
Wir freuen uns, die allgemeine Verfügbarkeit von Hive Metastore (HMS) und AWS Glue Federation in Unity Catalog bekannt zu geben! Diese neue Funktion ermöglicht es Unity Catalog, nahtlos auf Tabellen zuzugreifen und diese zu verwalten, die in Hive Metastas gespeichert sind – sei es selbst gehostet oder von Databricks gehostet – sowie AWS Glue. Dies stellt einen wichtigen Meilenstein in unserer Lakehouse Federation Vision dar, die externe Datenquellen, einschließlich Datenbanken, Data Warehouses und Kataloge, unter einem einheitlichen Governance-Framework mit Unity Catalog zusammenführt. Sie können jetzt mühelos alle Ihre Daten von einer einzigen, zentralisierten Plattform aus entdecken, abfragen und verwalten, unabhängig von Format und Speicherort. Dies fördert nicht nur den offenen Zugang und die Zusammenarbeit in Ihrem Unternehmen, sondern erweitert auch die Datenintelligenz auf jede Datenquelle.
In diesem Blogbeitrag werden wir die Vorteile von HMS und AWS Glue Federation untersuchen, erklären, wie sie funktionieren, und Anleitungen für den Einstieg geben.
HMS war ein früher Standard für die Katalogisierung von Daten für die Verwendung in Big-Data-Systemen. Obwohl es grundlegende Funktionalitäten bietet, ist es nicht ideal für moderne Daten- und KI-Workloads geeignet, die eine umfassende Governance erfordern, einschließlich feingranularer Zugriffssteuerungen auf Zeilen und Spalten, Lineage, Überwachung und Auditing für alle Daten- und KI-Assets an einem Ort.
Unity Catalog behebt diese Mängel, indem es die einzige einheitliche, offene Governance-Lösung der Branche für die Verwaltung aller Daten- und KI-Assets bietet. Es ermöglicht Unternehmen, einen Enterprise-Katalog zu erstellen, der Dateien, Tabellen, ML-Modelle, KI-Tools, Notebooks und Metriken kuratiert, die alle mit feingranularen Zugriffssteuerungen, Lineage, Überwachung, Auditing und plattformübergreifender Freigabe in einer Lösung verwaltet werden. Über 10.000 Unternehmen nutzen Unity Catalog bereits zur Verwaltung ihres Datenbestands.
HMS und AWS Glue Federation bieten erhebliche Vorteile für Unternehmen, bei denen HMS tief in ihrer Datenarchitektur verankert ist. Für diejenigen mit langjährigen HMS- oder AWS-Glue-Bereitstellungen bietet diese Funktion einen nahtlosen Weg, die erweiterten Funktionen von Unity Catalog für Daten zu nutzen, die im HMS- oder Glue-Metastore gespeichert sind. Sie gewährleistet die Betriebskontinuität, indem sie es Unternehmen ermöglicht, Legacy-Workflows beizubehalten und gleichzeitig bestehende Daten und Arbeitsbereiche schrittweise auf Unity Catalog zu aktualisieren.
Hauptvorteile sind:
Die Nutzung der HMS Federation in Unity Catalog ermöglichte eine inkrementelle Migration, die die Störungen für unsere Kunden minimierte. Unsere Partnerschaft mit Databricks war entscheidend für die Bewertung kurzfristiger Bedürfnisse und langfristiger Ziele. Durch die frühzeitige Nutzung der Fähigkeiten von Unity Catalog haben wir eine skalierbare und effiziente Datenplattform mit verbesserter Governance und Zugriffskontrolle als Teil unserer Modernisierungsreise geschaffen — Praveena Edward, Lead Data Engineer, Nationwide
Wir haben jahrelang Datensätze, die in einem externen Hive Metastore katalogisiert sind. HMS Federation ermöglicht es uns, sofort von Unity Catalog-Funktionen wie robuster Zugriffskontrolle und Self-Service-KI-Tools über Genie Spaces zu profitieren, ohne den Aufwand, all diese Tabellen in Unity Catalog zu migrieren — James Davidheiser, Technical Lead, Data Infrastructure, Asana
Unity Catalog enthält jetzt Föderationskonnektoren für Hive Metastore (HMS) und AWS Glue, die als Übersetzungsschicht zwischen Unity Catalog und Ihren externen Metastas dienen. Diese Konnektoren ermöglichen es Ihnen, ganze HMS-Kataloge (sowohl interne als auch externe) oder AWS Glue als fremde Kataloge innerhalb von Unity Catalog zu mounten, sodass sie als native Objekte erscheinen. Sie können feingranulare Zugriffssteuerungen definieren, Lineage anzeigen, Audits durchführen und HMS- oder AWS-Glue-verwaltete Tabellen mit der Databricks-Engine abfragen. Die Föderation unterstützt sowohl das Lesen als auch das Schreiben von Tabellen in internen HMS innerhalb von Databricks-Arbeitsbereichen, während sie Lesezugriff für Tabellen in externen HMS und AWS Glue bietet
Mit dieser Funktion können Sie alle Tabellen in HMS und AWS Glue lesen – Parquet, Delta und Iceberg (bald in Public Preview verfügbar) – und so nahtlos auf alle Ihre Tabellen zugreifen und diese verwalten.
Schauen Sie sich das Video-Tutorial unten an, um AWS Glue und HMS Federation in Aktion zu erleben.
Die GA-Version enthält die folgenden zusätzlichen Funktionen:
Wir haben auch Public Preview-Unterstützung für das Lesen von Delta Shallow Clones hinzugefügt, die im Hive Metastore definiert sind, sowie Private Preview-Unterstützung für das Lesen von DBFS-Mount-basierten Tabellen über Arbeitsbereiche hinweg (bitte kontaktieren Sie Ihren Databricks-Account-Manager, um sich anzumelden!).
Indem Sie Unity Catalog als Eckpfeiler Ihrer Lakehouse-Architektur nutzen, können Sie die Leistung einer einheitlichen und offenen Governance-Implementierung freisetzen, die Ihren gesamten Daten- und KI-Bestand abdeckt.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag