Passa al contenuto principale
Piattaforma

Interoperabilità estesa con le API aperte di Unity Catalog

Crea, leggi e scrivi su tabelle Delta gestite da motori esterni.

di Alex Jiang e Tathagata Das

  • L'accesso esterno alle tabelle Delta gestite da UC è ora in Beta. Motori esterni come Apache Spark, Apache Flink e DuckDB possono ora creare, leggere e scrivere su tabelle Delta gestite.
  • Le tabelle Delta gestite da UC sono costruite sulla nuova funzionalità di catalog commit di Delta Lake, uno standard aperto che coordina i commit tramite il catalogo, abilitando scritture concorrenti sicure, auditabilità e transazioni multi-statement.
  • Il credential vending è ora disponibile a livello generale. Migliaia di clienti utilizzano il credential vending per accedere in modo sicuro agli asset di dati UC da motori esterni, ora con supporto M2M OAuth e aggiornamento automatico delle credenziali per pipeline di lunga durata.

Unity Catalog è stato progettato per il lakehouse aperto. In precedenza, i team di dati erano bloccati in silos, spesso costretti a duplicare i dati su più piattaforme solo per utilizzare gli strumenti desiderati. Ogni nuova piattaforma o strumento significava copiare set di dati, ricostruire le policy di accesso da zero e mantenere tutto sincronizzato. Il risultato è stato un aumento dei costi dovuto allo storage ridondante, policy non più sincronizzate e accesso e scoperta dei dati frammentati.

Quando abbiamo reso open source Unity Catalog e lanciato le API aperte, abbiamo abbattuto i silos che in precedenza bloccavano i clienti. Le aziende potevano finalmente mantenere una copia dei dati, utilizzare qualsiasi motore di calcolo e governare tutto da un unico posto. L'ecosistema UC è prosperato da allora. Oggi, migliaia di clienti utilizzano Unity Catalog per governare e accedere a tabelle Delta Lake e Apache Iceberg, con decine di integrazioni nel crescente ecosistema Unity Catalog, da Apache Spark e Trino a DuckDB e Confluent Tableflow.

Accesso esterno alle tabelle gestite, ora in Beta

Le tabelle gestite UC sono dove l'apertura incontra le prestazioni. Queste tabelle avanzate utilizzano Predictive Optimization e Liquid Clustering per ottimizzare automaticamente i layout dei dati, eseguire compattazione e pulizia, e mantenere aggiornate le statistiche, offrendo query fino a 20 volte più veloci e costi di storage inferiori del 50%, rimanendo completamente accessibili tramite API aperte.

Ora in Beta, motori esterni, come Apache Spark, Apache Flink e DuckDB, possono creare e scrivere su tabelle Delta gestite da UC con governance centralizzata e ottimizzazioni automatiche.

Con la Beta, i motori esterni possono:

  • Creare tabelle gestite — Creare nuove tabelle gestite UC direttamente da un motore esterno.
  • Lettura e scrittura batch — Leggere e scrivere su tabelle gestite con completa sicurezza transazionale.
  • Streaming da e verso tabelle gestite — Utilizzare tabelle gestite sia come sorgente che come sink di streaming, abilitando pipeline end-to-end in tempo reale su Apache Spark.

Poiché ogni operazione fluisce attraverso tabelle gestite UC basate su catalog commits, si ottengono commit serializzati che prevengono la corruzione del log e una completa tracciabilità di ogni lettura e scrittura. Predictive Optimization continua a funzionare senza problemi, anche su tabelle a cui accedono motori esterni. I catalog commit pongono anche le basi per funzionalità come transazioni multi-statement e multi-tabella che richiedono un coordinatore di commit centralizzato.

Il fiorente ecosistema UC continua a crescere man mano che i motori espandono il supporto per l'accesso esterno alle tabelle gestite. Delta Kernel — la libreria open source Java e Rust per leggere, scrivere ed eseguire commit su tabelle Delta — astrae i dettagli del protocollo di basso livello in modo che gli sviluppatori di connettori possano concentrarsi sull'integrazione UC, non sull'implementazione Delta. I connettori Delta per Apache Spark, Apache Flink e DuckDB hanno tutti sfruttato Delta Kernel per supportare scritture esterne su tabelle gestite UC e integrarsi con i commit gestiti dal catalogo, e l'ecosistema continua a crescere. Gestendo la complessità del protocollo di basso livello, Delta Kernel rende semplice per qualsiasi motore integrarsi con Unity Catalog, contribuendo a un ecosistema crescente di connettori.

Accesso esterno sicuro reso possibile dal credential vending

Affinché un motore esterno possa accedere ai dati in UC, necessita di un modo sicuro per autenticarsi e ottenere un accesso limitato allo storage cloud senza richiedere permessi ampi e statici o credenziali legate a un account specifico. Unity Catalog gestisce questo tramite credential vending, che ora è generalmente disponibile (GA): UC rilascia credenziali a breve termine e limitate ai motori esterni su richiesta, con policy di accesso applicate centralmente.

Migliaia di clienti hanno utilizzato le API aperte UC e due aggiunte le rendono pronte per la produzione su scala enterprise. I motori esterni possono ora autenticarsi a UC utilizzando OAuth machine-to-machine (M2M), soddisfacendo i requisiti di sicurezza enterprise senza fare affidamento su token di accesso personalizzati (PAT), che sono per utente, a lunga durata e difficili da ruotare. E le credenziali vengono aggiornate automaticamente dai motori tramite le API di credential vending UC, in modo che le pipeline che vengono eseguite per ore si completino in modo affidabile senza che i token scadano a metà lavoro.

Esecuzione di query con credential vending
Esecuzione di query con credential vending utilizzando un motore di calcolo esterno

Con il credential vending, le aziende possono leggere, scrivere e creare tabelle gestite ed esterne in Unity Catalog da qualsiasi motore o strumento compatibile. Queste credenziali sono a breve termine, limitate alla risorsa richiesta e governate dai privilegi UC. Ciò significa che il tuo team di piattaforma mantiene il pieno controllo su quali principal possono accedere ai dati esternamente e cosa possono farne.

Con le API aperte di Unity Catalog, abbiamo dato ai nostri team la possibilità di utilizzare i loro strumenti preferiti mantenendo la governance e la coerenza dei dati. Possiamo sfruttare i vantaggi delle tabelle gestite all'interno di una piattaforma dati e AI veramente interoperabile che funziona su più motori di calcolo.— Sudipta Das, Director of Enterprise Data Operations presso PepsiCo

Credential Vending per i Volumi

Il credential vending si estende non solo alle tabelle ma anche ai dati non strutturati. Il credential vending per i volumi è ora in anteprima pubblica, quindi i client esterni possono richiedere credenziali temporanee e limitate per accedere a immagini, PDF e video archiviati nei volumi con governance Unity Catalog. Lo stesso modello di controllo degli accessi, la traccia di controllo e le credenziali limitate si applicano sia che si stia interrogando una tabella o elaborando un file video grezzo esternamente.

Cosa c'è dopo?

Continuiamo a investire per rendere l'accesso esterno più capace. Il credential vending oggi governa controlli di accesso a grana grossa per i motori esterni. Abbiamo anche sviluppato funzionalità per applicare controlli di accesso basati sugli attributi (ABAC) per le letture esterne, che rendono la governance a grana fine. Ciò rende possibile applicare policy ABAC a livello di riga e colonna quando le tabelle gestite UC vengono lette da motori esterni.

Inizia oggi

Per iniziare con il credential vending, consulta la nostra documentazione. Per utilizzare la Beta dell'accesso esterno alle tabelle Delta gestite:

  1. Iscriviti a "External Access to Unity Catalog Managed Delta Table" nel portale di anteprima Databricks (vedi Gestisci anteprime Databricks)
  2. Abilita l'accesso ai dati esterni sul tuo metastore e concedi EXTERNAL_USE_SCHEMA sullo schema contenente le tabelle a cui vuoi accedere.
  3. Crea una nuova tabella gestita UC. Per spostare dati esistenti, consulta la guida alla migrazione per convertire tabelle esterne in gestite.
  4. Utilizza Delta-Spark 4.2 con Unity Catalog 0.4.1 per creare, leggere e scrivere su tabelle gestite da calcolo esterno. Vedi la documentazione sull'accesso esterno.

Unisciti a noi al Data and AI Summit 2026

Il Data and AI Summit 2026 è quasi arrivato! Unisciti a noi dal 15 al 18 giugno 2026 al Moscone Center di San Francisco, California, per scoprire come le organizzazioni leader utilizzano Unity Catalog per governare dati e AI su più motori. Registrati oggi per dare una prima occhiata a ciò che riserva il futuro per la governance aperta e unificata.

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Ricevi gli ultimi articoli nella tua casella di posta

Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.