Con una crescita dell'utilizzo superiore al 300% su base annua per 2 anni consecutivi, Delta Sharing è il protocollo aperto più adottato per la condivisione di dati e AI. I principali provider di dati, tra cui SAP, Walmart, Atlassian e LSEG, utilizzano Delta Sharing per condividere i dati con i loro partner e clienti su cloud e piattaforme. Oggi siamo lieti di annunciare che Databricks Delta Sharing offre un supporto di prima classe per il formato Apache Iceberg.
I fornitori di dati possono ora condividere i dati in modo sicuro e in tempo reale da Databricks a qualsiasi client che supporti l'API REST Catalog di Apache Iceberg. I destinatari su piattaforme come Snowflake, Trino, Flink e Spark su tutti i cloud possono utilizzare questa funzionalità, ampliando così l'ecosistema aperto di Delta Sharing.
Inoltre, stiamo lanciando una Private Preview che consente ai data provider di utilizzare Delta Sharing per condividere tabelle Iceberg gestite da cataloghi esterni a Databricks, inclusi AWS Glue, Hive Metastore, Snowflake Horizon e altri.
Insieme, è possibile condividere qualsiasi tabella nuova o esistente (Delta o Iceberg, gestita o esterna). Questo costituisce un passo verso un'interoperabilità aperta e completa. È possibile importare tabelle Iceberg da qualsiasi catalogo esterno, gestirle tramite Databricks e Unity Catalog e quindi condividerle con qualsiasi destinatario, indipendentemente dal fatto che utilizzi Databricks, un client Iceberg o un client Delta. Ciò consente di sfruttare Unity Catalog come livello di governance dei dati unificato, offrendo un unico punto per tutta la condivisione.
In questo post su un blog, spiegheremo perché la condivisione aperta di Data Sharing è importante. Approfondiremo anche il funzionamento dei client da Delta Sharing a Iceberg attraverso una demo pratica.
Perché è importante: condivisione aperta vs. chiusa
La maggior parte delle soluzioni di Data Sharing in realtà non serve a condividere, ma a intrappolare. Sono fondamentalmente chiuse e progettate per garantire il vendor lock-in, per cui è possibile condividere solo con chi si trova già all'interno dei loro ecosistemi chiusi. Questo limita le opzioni, soffoca l'innovazione e causa una replica massiccia e inutile dei dati.
Delta Sharing è lo standard aperto più diffuso per il Data Sharing sicuro. Utilizzato dai principali fornitori di dati del settore, è progettato per supportare diversi cloud e piattaforme. Delta Sharing si basa su tre principi fondamentali:
L'aggiunta del supporto per i client Iceberg rafforza questo impegno. Consente di condividere una tabella Delta mentre i destinatari la utilizzano come una tabella Iceberg nativa. La condivisione avviene tramite l'API REST di Iceberg, quindi i destinatari possono connettersi da qualsiasi piattaforma compatibile con Iceberg. Ciò consente di ottenere il meglio di entrambi i mondi: i provider di dati beneficiano delle funzionalità avanzate di Delta Sharing, come la condivisione di viste, mentre i destinatari ricevono tabelle Iceberg native tramite l'API REST di Iceberg.
I destinatari ottengono un accesso sicuro e in tempo reale ai dati di origine. Questo elimina i silos e consente di condividere i dati apertamente con chiunque.
Questa funzionalità è ideale per le organizzazioni che devono condividere dati esternamente con partner e clienti che utilizzano client Iceberg, come quelli che operano su Snowflake o si integrano con piattaforme come Trino, Flink o Spark. Le aziende con più unità di business che operano su più piattaforme traggono vantaggio anche dalla possibilità di uno scambio di dati bidirezionale e senza interruzioni in ambienti multi-cloud o ibridi. I settori industriali che già sfruttano questi modelli includono sanità, retail, finanza, ad-tech e altri ancora.
Poiché crediamo nel pieno accesso aperto ai dati, non ci fermiamo alla condivisione dei dati con i client Iceberg. Stiamo ora sviluppando la prossima evoluzione: la condivisione di tabelle Iceberg esterne che risiedono in cataloghi esterni come AWS Glue o Snowflake Horizon. Siamo entusiasti di annunciare la Private Preview del supporto di Delta Sharing per le tabelle Iceberg esterne.
Ti chiederai: perché condividere una tabella Iceberg tramite Delta Sharing se si trova in AWS Glue o Snowflake? Perché non condividere direttamente da quella piattaforma?
Innanzitutto, catalogando i dati Iceberg esterni in Unity Catalog, si ottiene un livello di governance unificata in Unity Catalog, che consente di avere piena visibilità e governance su tutto il patrimonio di dati. Inoltre, l'utilizzo di Delta Sharing consente di ottenere il meglio di entrambi i mondi: si beneficia delle funzionalità di condivisione di prima classe di Delta Sharing, mantenendo i dati nel formato Iceberg. Ciò include, ad esempio, la possibilità di utilizzare la funzione Delta Share Views per un controllo granulare degli accessi, non supportata nativamente dall'API IRC di Iceberg.
Con questa Private Preview, il Databricks Lakehouse è aperto in entrambe le direzioni. Il tuo Lakehouse può condividere dati con l'ecosistema Iceberg in crescita e riceverne.
Questa duplice abilità ti offre:
Immagina che la tua azienda, Provider Corp, utilizzi Databricks e Delta Lake per gestire i dati dei clienti. Devi condividere in modo sicuro un elenco giornaliero delle vendite dei prodotti con Partner Inc, che utilizza Snowflake e preferisce il formato Iceberg.
Prima di questa funzionalità: Provider Corp avrebbe dovuto esportare manualmente i dati, trasformarli in un formato leggibile da Snowflake, caricarli nello spazio di archiviazione cloud del partner e configurare un complesso job di sincronizzazione. Questo processo è lento, costoso, comporta un notevole sovraccarico amministrativo e rischia di rendere i dati obsoleti.
Con Delta Sharing per client Iceberg:
Questo rende la Data Sharing istantanea, sicura e completamente agnostica rispetto al formato.
Guarda questa demo che illustra i passaggi per condividere una tabella e leggerla in Snowflake.
Comincia
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
Produto
June 12, 2024/11 min de leitura

