Lakehouse Federation è ora in anteprima pubblica!
I team di dati affrontano molte sfide per accedere rapidamente ai dati giusti, principalmente a causa della frammentazione dei dati, del tempo e dei costi necessari per consolidarli e delle difficoltà nella gestione della governance dei dati su più sistemi.
Ecco perché oggi, al Data+AI Summit, siamo entusiasti di annunciare le funzionalità di Lakehouse Federation in Unity Catalog, che consentono alle organizzazioni di creare un'architettura data mesh altamente scalabile e performante con una governance unificata.
Unity Catalog fornisce una soluzione di governance unificata per dati e AI. Le funzionalità di Lakehouse Federation in Unity Catalog consentono di individuare, eseguire query e governare i dati su più piattaforme dati, tra cui MySQL, PostgreSQL, Amazon Redshift, Snowflake, Azure SQL Database, Azure Synapse, BigQuery di Google e altre ancora, dall'interno di Databricks senza spostare o copiare i dati, il tutto in un'esperienza semplificata e unificata. Ciò significa che le funzionalità di sicurezza avanzate di Unity Catalog, come i controlli degli accessi a livello di riga e colonna, le funzionalità di individuazione come i tag e la provenienza dei dati, saranno disponibili per queste sorgenti di dati esterne, garantendo una governance coerente.
"I data scientist e gli utenti aziendali possono ora accedere a diverse sorgenti di dati tramite un'interfaccia utente uniforme con autorizzazioni coerenti gestite in un unico posto", ha dichiarato Jelle de Jong, Tech Lead di Bayer. "Stiamo standardizzando continuamente il nostro formato dei dati in Delta Lake, ma siamo entusiasti che Lakehouse Federation ci abbia permesso di iterare con agilità prima di investire nell'estrazione dei dati."
Migliaia di organizzazioni di ogni dimensione stanno innovando in tutto il mondo e in tutti i settori industriali con i dati e l'IA sulla Databricks Lakehouse Platform. Tuttavia, per ragioni storiche, organizzative o tecnologiche, i dati sono sparsi su numerosi sistemi operativi e analitici, causando ulteriori sfide:
Lakehouse Federation risolve queste criticità e semplifica per le organizzazioni l'esposizione, la query e la governance di sistemi di dati isolati come estensione del loro lakehouse. Con queste nuove funzionalità è possibile:
“La Lakehouse Federation ci permette di combinare dati, come quelli sull'utilizzo, sulle vendite e sulla telemetria di gioco, provenienti da più fonti e su più cloud, e di visualizzarli e interrogarli tutti da un unico posto. Ora lasciamo i dati nella sorgente di dati originale, ma possiamo utilizzarli dalla Lakehouse di Databricks", ha dichiarato Felix Baker, Head of Data Services di SEGA Europe. "Dato che non dobbiamo più spostare i nostri dati finanziari, che vengono aggiornati di frequente, risparmiamo tempo prezioso da dedicare a offrire ai nostri consumatori la migliore esperienza di gioco possibile”.
"La Lakehouse Federation ci ha permesso di procedere più rapidamente al consolidamento del nostro attuale panorama di dati in Unity Catalog. "Questo semplifica la governance dei dati di Shell: più set di dati diventano individuabili in un unico posto, l'autenticazione è standardizzata e diventa possibile eseguire query tra set di dati con un linguaggio di programmazione comune", ha affermato Bryce Bartmann, Chief Advisor per la Tecnologia Digitale di Shell. "In definitiva, ci rende più efficaci nell'affrontare la trasformazione in atto oggi nel settore energetico."
Queste nuove funzionalità, unite alla interfaccia Hive aperta annunciata di recente, consentono alle organizzazioni di centralizzare la gestione dei dati, l'individuazione e la governance in Unity Catalog e di connettersi a esso da un'ampia gamma di piattaforme di elaborazione, tra cui Amazon EMR, Apache Spark, Amazon Athena, Presto, Trino e altre. La nuova interfaccia elimina la necessità di mantenere più Data Catalog e garantisce una governance dei dati coerente su queste piattaforme.
Queste funzionalità sono attualmente in anteprima pubblica, così puoi iniziare subito!
Stiamo inoltre estendendo le funzionalità di governance di Unity Catalog a vari formati di archiviazione aperti, tra cui Apache Iceberg e Hudi, con la public preview del Delta Universal Format ("UniForm"). Questa integrazione consente di leggere le tabelle Delta come se fossero tabelle Iceberg (e presto anche Apache Hudi), rendendo Unity Catalog l'unico catalogo universale che supporta tutti e tre i principali formati di archiviazione aperti per lakehouse.
Infine, in futuro, sarà anche possibile eseguire il push delle policy di accesso definite in Unity Catalog alle sorgenti di dati federate per un'applicazione coerente ovunque si acceda ai dati. Questo elimina la necessità di gestire definizioni di policy ridondanti su diversi strumenti di governance.
Guarda il keynote del Data+AI Summit 2023 di Matei Zaharia, co-fondatore e Chief Technology Officer di Databricks, per saperne di più.
Registrati al Data + AI Summit qui per partecipare di persona o virtualmente e scoprire le ultime novità in materia di dati, analitiche e IA!
Anúncios
June 17, 2021/7 min de leitura

