Siamo lieti di annunciare la disponibilità generale (GA) di Hive Metastore (HMS) e AWS Glue Federation in Unity Catalog! Questa nuova funzionalità consente a Unity Catalog di accedere e gestire in modo trasparente le tabelle archiviate negli Hive Metastore, sia self-hosted che ospitati da Databricks, nonché in AWS Glue. Rappresenta una pietra miliare fondamentale nella nostra visione Lakehouse Federation, che riunisce origini dati esterne, inclusi database, data warehouse e cataloghi, sotto un framework di governance unificato con Unity Catalog. Ora puoi scoprire, interrogare e gestire senza sforzo tutti i tuoi dati da un'unica piattaforma centralizzata, indipendentemente dal formato e dalla posizione. Ciò non solo promuove l'accesso aperto e la collaborazione all'interno della tua organizzazione, ma estende anche l'intelligenza dei dati a ogni origine dati.
In questo blog, esploreremo i vantaggi di HMS e AWS Glue Federation, spiegheremo come funzionano e forniremo indicazioni per iniziare.
HMS è stato uno dei primi standard per la catalogazione dei dati da utilizzare nei sistemi big data e, sebbene fornisca funzionalità di base, non sono ideali per i moderni carichi di lavoro di dati e AI che richiedono una governance completa, inclusi controlli di accesso granulari su righe e colonne, lineage, monitoraggio e audit su tutti gli asset di dati e AI in un unico posto.
Unity Catalog affronta queste carenze fornendo l'unica soluzione di governance unificata e aperta del settore per la gestione di tutti gli asset di dati e AI. Consente alle organizzazioni di creare un catalogo aziendale che cura file, tabelle, modelli ML, strumenti AI, notebook e metriche, tutti governati con controlli di accesso granulari, lineage, monitoraggio, audit e condivisione multipiattaforma in un'unica soluzione. Oltre 10.000 aziende stanno già sfruttando Unity Catalog per governare il proprio patrimonio di dati.
HMS e AWS Glue Federation offrono vantaggi significativi alle organizzazioni con HMS profondamente integrato nella loro architettura dati. Per coloro che hanno implementazioni HMS o AWS Glue di lunga data, questa funzionalità offre un percorso trasparente per sfruttare le funzionalità avanzate di Unity Catalog sui dati archiviati nel metastore HMS o Glue. Garantisce la continuità operativa consentendo alle organizzazioni di mantenere i flussi di lavoro legacy durante l'aggiornamento graduale dei dati e degli spazi di lavoro esistenti a Unity Catalog.
I vantaggi chiave includono:
L'utilizzo di HMS Federation in Unity Catalog ha permesso una migrazione incrementale che ha ridotto al minimo l'interruzione per i nostri clienti. La nostra partnership con Databricks è stata fondamentale per valutare le esigenze a breve termine e gli obiettivi a lungo termine. Sfruttando le capacità di Unity Catalog fin dall'inizio, abbiamo creato una piattaforma dati scalabile ed efficiente con governance e controllo degli accessi migliorati come parte del nostro percorso di modernizzazione — Praveena Edward, Lead Data Engineer, Nationwide
Abbiamo anni di dataset catalogati in un Hive Metastore esterno. HMS Federation ci consente di beneficiare immediatamente delle funzionalità esclusive di Unity Catalog come il robusto controllo degli accessi e gli strumenti AI self-service tramite Genie Spaces, senza l'overhead di migrare tutte queste tabelle in Unity Catalog — James Davidheiser, Technical Lead, Data Infrastructure, Asana
Unity Catalog include ora connettori di federazione per Hive Metastore (HMS) e AWS Glue, che fungono da livello di traduzione tra Unity Catalog e i tuoi metastore esterni. Questi connettori ti consentono di montare interi cataloghi HMS (sia interni che esterni) o AWS Glue come cataloghi esterni all'interno di Unity Catalog, facendoli apparire come oggetti nativi. Puoi definire controlli di accesso granulari, visualizzare il lineage, eseguire audit e interrogare tabelle gestite da HMS o AWS Glue utilizzando il motore Databricks. La federazione supporta sia la lettura che la scrittura di tabelle in HMS interni all'interno degli spazi di lavoro Databricks, offrendo al contempo accesso in sola lettura per le tabelle in HMS esterni e AWS Glue
Con questa funzionalità, puoi leggere tutte le tabelle in HMS e AWS Glue — Parquet, Delta e Iceberg (in arrivo in anteprima pubblica) — consentendoti di accedere e gestire tutte le tue tabelle in modo trasparente.
Dai un'occhiata al tutorial video qui sotto per esplorare AWS Glue e HMS Federation in azione.
La versione GA include le seguenti funzionalità aggiuntive:
Abbiamo anche aggiunto il supporto per l'anteprima pubblica per la lettura di shallow clone Delta definiti nell'hive metastore, nonché il supporto per l'anteprima privata per la lettura di tabelle basate su mount DBFS tra spazi di lavoro (contatta il tuo rappresentante Databricks per iscriverti!).
Abbracciando Unity Catalog come pietra angolare della tua architettura Lakehouse, puoi sbloccare la potenza di un'implementazione di governance unificata e aperta che copre l'intero tuo patrimonio di dati e AI.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale