Aggiornamento: Delta Sharing è ora generalmente disponibile su AWS e Azure.
Ottieni un'anteprima del nuovo e-book di O'Reilly con la guida dettagliata di cui hai bisogno per iniziare a usare Delta Lake.
Il Data Sharing è diventato fondamentale nell'economia moderna, in quanto le aziende cercano di scambiare dati in modo sicuro con clienti, fornitori e partner. Ad esempio, un rivenditore potrebbe voler pubblicare i dati di vendita ai propri fornitori in tempo reale, oppure un fornitore potrebbe voler condividere l'inventario in tempo reale. Finora, però, la Data Sharing è stata fortemente limitata perché le soluzioni di condivisione sono legate a un unico fornitore. Ciò crea attrito sia per i fornitori di dati che per i consumatori, i quali naturalmente utilizzano piattaforme diverse.
Oggi lanciamo un nuovo progetto open-source che semplifica la condivisione tra organizzazioni diverse: Delta Sharing, un protocollo aperto per lo scambio sicuro e in tempo reale di grandi set di dati, che consente per la prima volta la Data Sharing sicura tra prodotti. Stiamo sviluppando Delta Sharing con partner tra i principali fornitori di software e dati al mondo.
Per capire perché le attuali soluzioni di Data Sharing creano attrito, si pensi a un rivenditore che vuole condividere dati con un analista di uno dei suoi fornitori. Oggi, il rivenditore potrebbe utilizzare uno dei tanti data warehouse in cloud che offrono il Data Sharing, ma l'analista dovrebbe quindi collaborare con i propri team IT, di sicurezza e di approvvigionamento per implementare lo stesso prodotto warehouse presso la propria azienda, un processo che può richiedere mesi. Inoltre, una volta implementato il warehouse, la prima cosa che l'analista farebbe sarebbe esportare i dati da esso nel suo strumento di data science preferito, come pandas o Tableau.
Con Delta Sharing, gli utenti dei dati possono connettersi direttamente ai dati condivisi tramite pandas, Tableau o decine di altri sistemi che implementano il protocollo aperto, senza dover prima distribuire una piattaforma specifica. Questo riduce i tempi di accesso da mesi a minuti e riduce notevolmente il lavoro per i fornitori di dati che desiderano raggiungere il maggior numero di utenti possibile.
Stiamo collaborando con un vivace ecosistema di partner su Delta Sharing, tra cui i team di prodotto dei principali fornitori di servizi cloud, BI e dati:
Ecosistema Delta Sharing
In questo post, spiegheremo come funziona Delta Sharing e perché siamo così entusiasti di un approccio aperto alla Data Sharing.
Delta Sharing è progettato per essere facile da usare sia per i fornitori che per i consumatori con i loro dati e flussi di lavoro esistenti. L'abbiamo progettato con quattro obiettivi in mente:
Delta Sharing è un semplice protocollo REST che condivide in modo sicuro l'accesso a una parte di un set di dati cloud. Sfrutta i moderni sistemi di archiviazione cloud, come S3, ADLS o GCS, per trasferire in modo affidabile set di dati di grandi dimensioni. Sono coinvolte due parti: i fornitori di dati e i destinatari.
In qualità di provider di dati, Delta Sharing consente di condividere tabelle esistenti o parti di esse (ad esempio, versioni di tabelle specifiche di partizioni) archiviate nel proprio data lake cloud in formato Delta Lake. Una tabella Delta Lake è essenzialmente una raccolta di file Parquet ed è facile eseguire il wrapping delle tabelle Parquet esistenti in Delta Lake, se necessario. Il fornitore di dati decide quali dati condividere, esegue un server di condivisione che implementa il protocollo Delta Sharing e gestisce l'accesso per i destinatari. Abbiamo reso open source un server di condivisione di riferimento e ne forniamo uno in hosting su Databricks, come immaginiamo faranno altri fornitori.
In qualità di destinatario dei dati, è sufficiente uno dei tanti client Delta Sharing che supporta il protocollo. Abbiamo rilasciato connettori open source per pandas, Apache Spark, Rust e Python e stiamo lavorando con i partner su molti altri.
Lo scambio effettivo è progettato con cura per essere efficiente, sfruttando le funzionalità dei sistemi di archiviazione cloud e di Delta Lake. Il protocollo funziona come segue:
Il design di Delta Sharing offre molti vantaggi sia per i fornitori che per i consumatori:
Come accennato in precedenza, siamo entusiasti di definire un approccio aperto alla Data Sharing. I fornitori di dati, come Nasdaq, ci hanno detto all'unanimità che è troppo difficile fornire dati a consumatori diversi, i quali utilizzano tutti strumenti di analitiche differenti.
"Supportiamo Delta Sharing e la sua visione di un protocollo aperto che semplificherà il Data Sharing sicuro e la collaborazione tra le organizzazioni. Delta Sharing migliorerà il modo in cui lavoriamo con i nostri partner, ridurrà i costi operativi e consentirà a più utenti di accedere a una gamma completa della suite di dati di Nasdaq per scoprire approfondimenti e sviluppare strategie finanziarie”, ha affermato Bill Dague, Head of Alternative Data, Nasdaq.
Con Delta Sharing, decine di sistemi popolari potranno connettersi direttamente ai dati condivisi in modo che qualsiasi utente possa utilizzarli, riducendo gli ostacoli per tutti i partecipanti. Stiamo lavorando con decine di partner per definire lo standard Delta Sharing e vi invitiamo a partecipare.
Molte di queste aziende hanno esteso il loro supporto per il lancio di oggi:
Strumenti di BI: Tableau, Qlik, Power BI, Looker
Analitiche: AtScale, Dremio, Starburst, Microsoft Azure, Google BigQuery
Governance: Collibra, Immuta, Alation, Privacera
Provider di dati: FactSet, Nasdaq, Precisely, Safegraph, Atlassian, AWS, Foursquare, ICE, Qandl, S&P, SequenceBio
I clienti Databricks avranno un'integrazione nativa di Delta Sharing nel nostro Unity Catalog, che offre un'esperienza semplificata per la condivisione dei dati sia all'interno che tra organizzazioni diverse. Gli amministratori potranno gestire le share utilizzando una nuova sintassi SQL CREATE SHARE o le API REST e controllare tutti gli accessi in modo centralizzato. I destinatari potranno utilizzare i dati da qualsiasi piattaforma. Iscriviti alla nostra lista d'attesa per accedere in anteprima e ricevere aggiornamenti.
Questa prima versione di Delta Sharing è solo start. Con lo sviluppo del progetto, prevediamo di estenderlo alla condivisione di altri oggetti, quali stream, viste SQL o file arbitrari come i modelli di machine learning. Crediamo che il futuro del Data Sharing sia aperto e siamo entusiasti di portare questo approccio ad altri flussi di lavoro di condivisione.
Per provare la versione open source di Delta Sharing, segui le istruzioni su delta.io/sharing. Oppure, se sei un cliente Databricks, registrati per ricevere aggiornamenti sul nostro servizio. Siamo lieti di ricevere il tuo feedback.
Produto
June 12, 2024/11 min de leitura
Produto
September 12, 2024/8 min de leitura


