Crea, leggi e scrivi su tabelle Delta gestite da motori esterni.
di Alex Jiang e Tathagata Das
Unity Catalog è stato progettato per il lakehouse aperto. In precedenza, i team di dati erano bloccati in silos, spesso costretti a duplicare i dati su più piattaforme solo per utilizzare gli strumenti desiderati. Ogni nuova piattaforma o strumento significava copiare set di dati, ricostruire le policy di accesso da zero e mantenere tutto sincronizzato. Il risultato è stato un aumento dei costi dovuto allo storage ridondante, policy non più sincronizzate e accesso e scoperta dei dati frammentati.
Quando abbiamo reso open source Unity Catalog e lanciato le API aperte, abbiamo abbattuto i silos che in precedenza bloccavano i clienti. Le aziende potevano finalmente mantenere una copia dei dati, utilizzare qualsiasi motore di calcolo e governare tutto da un unico posto. L'ecosistema UC è prosperato da allora. Oggi, migliaia di clienti utilizzano Unity Catalog per governare e accedere a tabelle Delta Lake e Apache Iceberg, con decine di integrazioni nel crescente ecosistema Unity Catalog, da Apache Spark e Trino a DuckDB e Confluent Tableflow.
Le tabelle gestite UC sono dove l'apertura incontra le prestazioni. Queste tabelle avanzate utilizzano Predictive Optimization e Liquid Clustering per ottimizzare automaticamente i layout dei dati, eseguire compattazione e pulizia, e mantenere aggiornate le statistiche, offrendo query fino a 20 volte più veloci e costi di storage inferiori del 50%, rimanendo completamente accessibili tramite API aperte.
Ora in Beta, motori esterni, come Apache Spark, Apache Flink e DuckDB, possono creare e scrivere su tabelle Delta gestite da UC con governance centralizzata e ottimizzazioni automatiche.
Con la Beta, i motori esterni possono:
Poiché ogni operazione fluisce attraverso tabelle gestite UC basate su catalog commits, si ottengono commit serializzati che prevengono la corruzione del log e una completa tracciabilità di ogni lettura e scrittura. Predictive Optimization continua a funzionare senza problemi, anche su tabelle a cui accedono motori esterni. I catalog commit pongono anche le basi per funzionalità come transazioni multi-statement e multi-tabella che richiedono un coordinatore di commit centralizzato.
Il fiorente ecosistema UC continua a crescere man mano che i motori espandono il supporto per l'accesso esterno alle tabelle gestite. Delta Kernel — la libreria open source Java e Rust per leggere, scrivere ed eseguire commit su tabelle Delta — astrae i dettagli del protocollo di basso livello in modo che gli sviluppatori di connettori possano concentrarsi sull'integrazione UC, non sull'implementazione Delta. I connettori Delta per Apache Spark, Apache Flink e DuckDB hanno tutti sfruttato Delta Kernel per supportare scritture esterne su tabelle gestite UC e integrarsi con i commit gestiti dal catalogo, e l'ecosistema continua a crescere. Gestendo la complessità del protocollo di basso livello, Delta Kernel rende semplice per qualsiasi motore integrarsi con Unity Catalog, contribuendo a un ecosistema crescente di connettori.
Affinché un motore esterno possa accedere ai dati in UC, necessita di un modo sicuro per autenticarsi e ottenere un accesso limitato allo storage cloud senza richiedere permessi ampi e statici o credenziali legate a un account specifico. Unity Catalog gestisce questo tramite credential vending, che ora è generalmente disponibile (GA): UC rilascia credenziali a breve termine e limitate ai motori esterni su richiesta, con policy di accesso applicate centralmente.
Migliaia di clienti hanno utilizzato le API aperte UC e due aggiunte le rendono pronte per la produzione su scala enterprise. I motori esterni possono ora autenticarsi a UC utilizzando OAuth machine-to-machine (M2M), soddisfacendo i requisiti di sicurezza enterprise senza fare affidamento su token di accesso personalizzati (PAT), che sono per utente, a lunga durata e difficili da ruotare. E le credenziali vengono aggiornate automaticamente dai motori tramite le API di credential vending UC, in modo che le pipeline che vengono eseguite per ore si completino in modo affidabile senza che i token scadano a metà lavoro.
Con il credential vending, le aziende possono leggere, scrivere e creare tabelle gestite ed esterne in Unity Catalog da qualsiasi motore o strumento compatibile. Queste credenziali sono a breve termine, limitate alla risorsa richiesta e governate dai privilegi UC. Ciò significa che il tuo team di piattaforma mantiene il pieno controllo su quali principal possono accedere ai dati esternamente e cosa possono farne.
Con le API aperte di Unity Catalog, abbiamo dato ai nostri team la possibilità di utilizzare i loro strumenti preferiti mantenendo la governance e la coerenza dei dati. Possiamo sfruttare i vantaggi delle tabelle gestite all'interno di una piattaforma dati e AI veramente interoperabile che funziona su più motori di calcolo.— Sudipta Das, Director of Enterprise Data Operations presso PepsiCo
Il credential vending si estende non solo alle tabelle ma anche ai dati non strutturati. Il credential vending per i volumi è ora in anteprima pubblica, quindi i client esterni possono richiedere credenziali temporanee e limitate per accedere a immagini, PDF e video archiviati nei volumi con governance Unity Catalog. Lo stesso modello di controllo degli accessi, la traccia di controllo e le credenziali limitate si applicano sia che si stia interrogando una tabella o elaborando un file video grezzo esternamente.
Continuiamo a investire per rendere l'accesso esterno più capace. Il credential vending oggi governa controlli di accesso a grana grossa per i motori esterni. Abbiamo anche sviluppato funzionalità per applicare controlli di accesso basati sugli attributi (ABAC) per le letture esterne, che rendono la governance a grana fine. Ciò rende possibile applicare policy ABAC a livello di riga e colonna quando le tabelle gestite UC vengono lette da motori esterni.
Per iniziare con il credential vending, consulta la nostra documentazione. Per utilizzare la Beta dell'accesso esterno alle tabelle Delta gestite:
Il Data and AI Summit 2026 è quasi arrivato! Unisciti a noi dal 15 al 18 giugno 2026 al Moscone Center di San Francisco, California, per scoprire come le organizzazioni leader utilizzano Unity Catalog per governare dati e AI su più motori. Registrati oggi per dare una prima occhiata a ciò che riserva il futuro per la governance aperta e unificata.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.