di Matei Zaharia, Michael Armbrust, Steve Weis, Todd Greenstein e Cyrielle Simeone
Delta Sharing si è evoluto in OpenSharing, il primo protocollo aperto e neutrale rispetto ai fornitori per condividere in modo sicuro gli asset di IA, tra cui competenze degli agenti, modelli di IA e dati non strutturati. Leggi l'annuncio.
Aggiornamento: Delta Sharing è ora generalmente disponibile su AWS e Azure.
Ottieni un'anteprima del nuovo ebook di O'Reilly per ricevere la guida passo-passo necessaria a iniziare a utilizzare Delta Lake.
La condivisione dei dati è diventata fondamentale nell'economia moderna, poiché le aziende cercano di scambiare dati in modo sicuro con clienti, fornitori e partner. Ad esempio, un rivenditore potrebbe voler pubblicare i dati di vendita per i propri fornitori in tempo reale, o un fornitore potrebbe voler condividere l'inventario in tempo reale. Finora, tuttavia, la condivisione dei dati è stata fortemente limitata dal fatto che le soluzioni di condivisione sono vincolate a un singolo fornitore. Questo crea attrito sia per i fornitori sia per i consumatori di dati, che ovviamente utilizzano piattaforme diverse.
Oggi lanciamo un nuovo progetto open source che semplifica la condivisione tra organizzazioni diverse: Delta Sharing, un protocollo aperto per lo scambio sicuro in tempo reale di grandi set di dati, che consente per la prima volta la condivisione sicura dei dati tra prodotti diversi. Stiamo sviluppando Delta Sharing in collaborazione con partner che figurano tra i principali fornitori di software e dati al mondo.
Per capire perché le odierne soluzioni di condivisione dei dati creano attrito, consideriamo un rivenditore che desidera condividere dati con un analista di uno dei suoi fornitori. Oggi, il rivenditore potrebbe utilizzare uno dei diversi cloud data warehouse che offrono la condivisione dei dati, ma l'analista dovrebbe collaborare con i propri team IT, di sicurezza e di approvvigionamento per implementare lo stesso prodotto di data warehouse nella propria azienda, un processo che può richiedere mesi. Inoltre, una volta implementato il data warehouse, la prima cosa che l'analista farebbe sarebbe esportare i dati in uno dei suoi strumenti di data science preferiti, come pandas o Tableau.
Con Delta Sharing, gli utenti di dati possono connettersi direttamente ai dati condivisi tramite pandas, Tableau o decine di altri sistemi che implementano il protocollo aperto, senza dover prima implementare una piattaforma specifica. Questo riduce i tempi di accesso da mesi a minuti e riduce notevolmente il lavoro dei fornitori di dati che desiderano raggiungere il maggior numero possibile di utenti.
Stiamo collaborando con un vivace ecosistema di partner su Delta Sharing, compresi i team di prodotto dei principali fornitori di cloud, BI e dati:

Ecosistema Delta Sharing
In questo post spiegheremo come funziona Delta Sharing e perché siamo così entusiasti di un approccio aperto alla condivisione dei dati.
Delta Sharing è progettato per essere facile da usare sia per i fornitori sia per i consumatori con i loro dati e flussi di lavoro esistenti. Lo abbiamo progettato pensando a quattro obiettivi:
Delta Sharing è un semplice protocollo REST che condivide in modo sicuro l'accesso a una parte di un set di dati cloud. Sfrutta i moderni sistemi di cloud storage, come S3, ADLS o GCS, per trasferire in modo affidabile grandi set di dati. Sono coinvolte due parti: i fornitori di dati e i destinatari.
In qualità di fornitore di dati, Delta Sharing ti consente di condividere tabelle esistenti o parti di esse (ad esempio, versioni specifiche di tabelle o partizioni) memorizzate nel tuo cloud data lake in formato Delta Lake. Una tabella Delta Lake è essenzialmente una raccolta di file Parquet ed è facile convertire le tabelle Parquet esistenti in Delta Lake, se necessario. Il fornitore di dati decide quali dati desidera condividere ed esegue a monte un server di condivisione che implementa il protocollo Delta Sharing e gestisce l'accesso per i destinatari. Abbiamo reso open source un server di condivisione di riferimento e ne forniamo uno ospitato su Databricks, come immaginiamo faranno altri fornitori.
In qualità di destinatario dei dati, tutto ciò di cui hai bisogno è uno dei numerosi client Delta Sharing che supportano il protocollo. Abbiamo rilasciato connettori open source per pandas, Apache Spark, Rust e Python, e stiamo lavorando con i partner su molti altri.

Lo scambio effettivo è attentamente progettato per essere efficiente sfruttando le funzionalità dei sistemi di cloud storage e di Delta Lake. Il protocollo funziona nel modo seguente:
Il design di Delta Sharing offre numerosi vantaggi sia per i fornitori sia per i consumatori:
Come accennato in precedenza, siamo entusiasti di promuovere un approccio aperto alla condivisione dei dati. I fornitori di dati, come Nasdaq, ci hanno riferito all'unanimità che è troppo difficile distribuire dati a consumatori diversi, i quali utilizzano tutti strumenti di analisi differenti.
"Sosteniamo Delta Sharing e la sua visione di un protocollo aperto che semplificherà la condivisione sicura dei dati e la collaborazione tra organizzazioni. Delta Sharing migliorerà il modo in cui lavoriamo con i nostri partner, ridurrà i costi operativi e consentirà a un numero maggiore di utenti di accedere a una gamma completa della suite di dati di Nasdaq per scoprire informazioni utili e sviluppare strategie finanziarie", ha dichiarato Bill Dague, Head of Alternative Data di Nasdaq.
Con Delta Sharing, decine di sistemi diffusi potranno connettersi direttamente ai dati condivisi in modo che qualsiasi utente possa utilizzarli, riducendo gli attriti per tutti i partecipanti. Stiamo lavorando con decine di partner per definire lo standard Delta Sharing e vi invitiamo a partecipare.
Molte di queste aziende hanno espresso il loro supporto per il lancio di oggi:
Strumenti di BI: Tableau, Qlik, Power BI, Looker
Analytics: AtScale, Dremio, Starburst, Microsoft Azure, Google BigQuery
Governance: Collibra, Immuta, Alation, Privacera
Fornitori di dati: FactSet, Nasdaq, Precisely, Safegraph, Atlassian, AWS, Foursquare, ICE, Qandl, S&P, SequenceBio
I clienti Databricks disporranno di un'integrazione nativa di Delta Sharing nel nostro Unity Catalog, che offrirà un'esperienza ottimizzata per la condivisione dei dati sia all'interno che tra diverse organizzazioni. Gli amministratori potranno gestire le condivisioni utilizzando una nuova sintassi SQL CREATE SHARE o le API REST e monitorare tutti gli accessi a livello centrale. I destinatari potranno utilizzare i dati da qualsiasi piattaforma. Iscriviti per unirti alla nostra lista d'attesa per ricevere l'accesso in anteprima e gli aggiornamenti.

Questa prima versione di Delta Sharing è solo l'inizio. Man mano che sviluppiamo il progetto, prevediamo di estenderlo alla condivisione di altri oggetti, come stream, viste SQL o file arbitrari come i modelli di machine learning. Riteniamo che il futuro della condivisione dei dati sia aperto e siamo entusiasti di applicare questo approccio ad altri flussi di lavoro di condivisione.
Per provare la versione open source di Delta Sharing, segui le istruzioni su delta.io/sharing. Oppure, se sei un cliente Databricks, iscriviti per ricevere aggiornamenti sul nostro servizio. Siamo davvero entusiasti di ricevere il tuo feedback!
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.