Siamo lieti di annunciare la Public Preview per il supporto di Apache IcebergTM in Databricks, sbloccando gli interi ecosistemi Apache Iceberg e Delta Lake con Unity Catalog. Questa Preview introduce due nuove funzionalità in Unity Catalog. Innanzitutto, ora puoi leggere e scrivere tabelle Iceberg gestite utilizzando Databricks o motori Iceberg esterni tramite l'API Iceberg REST Catalog di Unity Catalog. Basate su Predictive Optimization, queste tabelle eseguono automaticamente operazioni avanzate sulle tabelle, incluso il Liquid Clustering, per offrire prestazioni di query veloci e pronte all'uso ed efficienza di archiviazione. Le tabelle Iceberg gestite sono anche integrate con funzionalità avanzate nella piattaforma Databricks, tra cui DBSQL, Mosaic AI, Delta Sharing e MV. In secondo luogo, come parte di Lakehouse Federation, Unity Catalog ora ti consente di accedere e gestire senza problemi le tabelle Iceberg gestite da cataloghi esterni come AWS Glue, Hive Metastores e Snowflake Horizon Catalog.
Con queste nuove funzionalità, puoi connetterti a Unity Catalog da qualsiasi motore e accedere a tutti i tuoi dati, tra cataloghi e indipendentemente dal formato, eliminando i silos di dati e risolvendo le incompatibilità dell'ecosistema. In questo blog, tratteremo:
Sono emersi nuovi silos di dati lungo due componenti fondamentali del Lakehouse: formati di tabella aperti e cataloghi di dati. I formati di tabella aperti consentono transazioni ACID sui dati archiviati nello storage di oggetti. Delta Lake e Apache Iceberg, i due principali formati di tabella aperti, hanno sviluppato ecosistemi di connettori in un'ampia gamma di framework open source e piattaforme commerciali. Tuttavia, la maggior parte delle piattaforme più diffuse ha adottato solo uno dei due standard, costringendo i clienti a scegliere i motori quando scelgono un formato.
I cataloghi introducono ulteriori sfide. Una responsabilità fondamentale di un catalogo è la gestione dei file di metadati correnti di una tabella tra writer e reader. Tuttavia, alcuni cataloghi limitano quali motori sono autorizzati a scriverli. Anche se riesci ad archiviare tutti i tuoi dati in un formato supportato da tutti i tuoi motori, potresti comunque non essere in grado di utilizzare il motore scelto perché non può connettersi al tuo catalogo. Questo vendor lock-in costringe i clienti a frammentare l'individuazione e la governance dei dati tra cataloghi disparati.
Nelle prossime due sezioni, esamineremo come Unity Catalog utilizza standard aperti e la federazione di cataloghi per risolvere le incompatibilità di formato e catalogo.
Unity Catalog rompe i silos di formato attraverso standard aperti. Ora in Public Preview, puoi utilizzare Databricks e motori esterni per scrivere tabelle Iceberg gestite da Unity Catalog. Le tabelle Iceberg gestite sono completamente aperte all'intero ecosistema Iceberg tramite l'implementazione da parte di Unity Catalog delle API Iceberg REST Catalog. Il REST Catalog è una specifica API aperta che fornisce un'interfaccia standard per l'interazione con le tabelle Iceberg. Unity Catalog è stato uno dei primi ad adottare il REST Catalog, lanciando per la prima volta il supporto nel 2023. Questa Preview si basa su tale fondazione. Ora, praticamente qualsiasi client Iceberg compatibile con le specifiche REST, come Apache Spark™, Apache Flink o Trino può leggere e scrivere su Unity Catalog.
Abbiamo in programma di archiviare tutti i nostri dati in un formato aperto e desideriamo un unico catalogo che possa connettersi a tutti gli strumenti che utilizziamo. Unity Catalog ci consente di scrivere tabelle Iceberg completamente aperte a qualsiasi client Iceberg, sbloccando l'intero ecosistema Lakehouse e proteggendo la nostra architettura per il futuro. — Hen Ben-Hemo, Data Platform Architect

Con Managed Iceberg, puoi portare la governance di Unity Catalog nell'ecosistema Iceberg anche tra strumenti OSS come PyIceberg che non supportano nativamente l'autorizzazione. Unity Catalog ti consente di creare pipeline di dati che abbracciano l'intero ecosistema Lakehouse. Ad esempio, Apache Iceberg offre un connettore sink popolare per la scrittura da Kafka a tabelle Iceberg. Puoi utilizzare Kafka Connect per scrivere tabelle Iceberg in Unity Catalog e a valle utilizzare le migliori prestazioni in termini di prezzo di Databricks per funzionalità di ETL, data warehousing e machine learning.
Tutte le tabelle gestite offrono automaticamente le migliori prestazioni di lettura e ottimizzazione dello storage utilizzando Predictive Optimization. Predictive Optimization fa scadere automaticamente le vecchie snapshot, elimina i file non referenziati e raggruppa in modo incrementale i tuoi dati utilizzando Liquid Clustering. Nel nostro esempio utilizzando Kafka, questo impedisce il degrado delle prestazioni comunemente causato dalla proliferazione di piccoli file. Puoi mantenere le tue tabelle Iceberg integre e performanti senza la seccatura di gestire manualmente la manutenzione delle tue tabelle.
Le tabelle Iceberg gestite sono integrate con la piattaforma Databricks, consentendoti di sfruttare queste tabelle con funzionalità avanzate della piattaforma come DBSQL, Mosaic AI, Delta Sharing e MV. Oltre a Databricks, Unity Catalog supporta un ecosistema di partner per inserire in modo sicuro i dati in Iceberg utilizzando strumenti esterni. Ad esempio, Redpanda acquisisce i dati di streaming prodotti negli argomenti Kafka tramite l'API Iceberg REST Catalog di Unity Catalog:
Con le tabelle Iceberg gestite di Unity Catalog e Iceberg REST Catalog, Redpanda può ora trasmettere in streaming i carichi di lavoro Kafka più grandi ed esigenti direttamente nelle tabelle Iceberg ottimizzate da Unity Catalog, sbloccando la rilevabilità immediata e le prestazioni di query veloci su flussi arbitrari. Con la configurazione push-button, tutti i dati di streaming in tempo reale sono ora completamente disponibili per l'ecosistema Iceberg, in modo che i clienti possano essere certi che la loro architettura sia costruita per durare, indipendentemente da come si evolve il loro stack. — Matthew Schumpert, Head of Product, Platform

Siamo entusiasti di avere a bordo i seguenti partner di lancio: Atlan, Buf, CelerData, Clickhouse, dbt Labs, dltHub, Fivetran, Informatica, PuppyGraph, Redpanda, RisingWave, StreamNative e altri.
Con Unity Catalog, puoi interoperare non solo tra i formati di tabella, ma anche tra i cataloghi. Ora anche in Public Preview, puoi interrogare e gestire senza problemi le tabelle Iceberg gestite da cataloghi esterni come AWS Glue, Hive Metastores e Snowflake Horizon Catalog. Estendendo Hive Metastore e AWS Glue Federation, questi connettori ti consentono di montare interi cataloghi all'interno di Unity Catalog, creando un'interfaccia unificata per l'individuazione e la governance dei dati.
Federation fornisce un'integrazione perfetta per sfruttare le funzionalità avanzate di Unity Catalog sulle tabelle Iceberg gestite da cataloghi esterni. Puoi utilizzare i controlli di accesso granulari, il lineage e l'audit di Databricks su tutti i tuoi dati, tra cataloghi e indipendentemente dal formato.
Unity Catalog consente agli ingegneri ML e ai data scientist di Rippling di accedere senza problemi alle tabelle Iceberg nei data warehouse OLAP esistenti senza copia. Questo ci aiuta a ridurre i costi, creare fonti di verità coerenti e ridurre la latenza dell'aggiornamento dei dati, il tutto mantenendo elevati standard sull'accesso ai dati e sulla privacy durante l'intero ciclo di vita dei dati. — Albert Strasheim, Chief Technology Officer

Con federation, Unity Catalog può governare l'intera Lakehouse: su tutte le tue tabelle, modelli AI, file, notebook e dashboard.
Unity Catalog sta spingendo il settore ad avvicinarsi alla realizzazione della semplicità, flessibilità e costi inferiori del data lakehouse aperto. In Databricks, riteniamo di poter far progredire ulteriormente il settore, con un unico formato di tabella aperto e unificato. Delta Lake e Apache Iceberg condividono gran parte dello stesso design, ma sottili differenze causano grandi incompatibilità per i clienti. Per risolvere questi problemi condivisi, le community di Delta e Apache Iceberg stanno allineando concetti e contributi, unificando l'ecosistema Lakehouse.
Iceberg v3 è un passo importante verso questa visione. Iceberg v3 include funzionalità chiave come Deletion Vectors, Variant data type, Row IDs e geospatial data types che condividono implementazioni identiche in Delta Lake. Questi miglioramenti ti consentono di spostare i dati ed eliminare facilmente i file tra i formati, senza riscrivere petabyte di dati.
Nelle future versioni di Delta Lake e Apache Iceberg, vogliamo basarci su questa base in modo che i client Delta e Iceberg possano utilizzare gli stessi metadati e quindi possano condividere direttamente le tabelle. Con questi investimenti, i clienti possono realizzare l'obiettivo originale di un data lakehouse aperto: una piattaforma completamente integrata per dati e intelligenza artificiale su una singola copia dei dati.
Le tabelle Iceberg gestite ed esterne sono ora disponibili in Public Preview. Consulta la nostra documentazione per iniziare! Rivedi i nostri annunci al Data and AI Summit del 9-12 giugno 2025 per saperne di più sulle nostre nuovissime funzionalità di Iceberg e sul futuro dei formati di tabella aperti.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
