Passa al contenuto principale
Annunci

Presentazione di Delta Sharing: un protocollo aperto per la condivisione sicura dei dati

di Matei Zaharia, Michael Armbrust, Steve Weis, Todd Greenstein e Cyrielle Simeone

Delta Sharing si è evoluto in OpenSharing, il primo protocollo aperto e neutrale rispetto ai fornitori per condividere in modo sicuro gli asset di IA, tra cui competenze degli agenti, modelli di IA e dati non strutturati. Leggi l'annuncio.

Aggiornamento: Delta Sharing è ora generalmente disponibile su AWS e Azure.

Ottieni un'anteprima del nuovo ebook di O'Reilly per ricevere la guida passo-passo necessaria a iniziare a utilizzare Delta Lake.

La condivisione dei dati è diventata fondamentale nell'economia moderna, poiché le aziende cercano di scambiare dati in modo sicuro con clienti, fornitori e partner. Ad esempio, un rivenditore potrebbe voler pubblicare i dati di vendita per i propri fornitori in tempo reale, o un fornitore potrebbe voler condividere l'inventario in tempo reale. Finora, tuttavia, la condivisione dei dati è stata fortemente limitata dal fatto che le soluzioni di condivisione sono vincolate a un singolo fornitore. Questo crea attrito sia per i fornitori sia per i consumatori di dati, che ovviamente utilizzano piattaforme diverse.

Oggi lanciamo un nuovo progetto open source che semplifica la condivisione tra organizzazioni diverse: Delta Sharing, un protocollo aperto per lo scambio sicuro in tempo reale di grandi set di dati, che consente per la prima volta la condivisione sicura dei dati tra prodotti diversi. Stiamo sviluppando Delta Sharing in collaborazione con partner che figurano tra i principali fornitori di software e dati al mondo.

Per capire perché le odierne soluzioni di condivisione dei dati creano attrito, consideriamo un rivenditore che desidera condividere dati con un analista di uno dei suoi fornitori. Oggi, il rivenditore potrebbe utilizzare uno dei diversi cloud data warehouse che offrono la condivisione dei dati, ma l'analista dovrebbe collaborare con i propri team IT, di sicurezza e di approvvigionamento per implementare lo stesso prodotto di data warehouse nella propria azienda, un processo che può richiedere mesi. Inoltre, una volta implementato il data warehouse, la prima cosa che l'analista farebbe sarebbe esportare i dati in uno dei suoi strumenti di data science preferiti, come pandas o Tableau.

Con Delta Sharing, gli utenti di dati possono connettersi direttamente ai dati condivisi tramite pandas, Tableau o decine di altri sistemi che implementano il protocollo aperto, senza dover prima implementare una piattaforma specifica. Questo riduce i tempi di accesso da mesi a minuti e riduce notevolmente il lavoro dei fornitori di dati che desiderano raggiungere il maggior numero possibile di utenti.

Stiamo collaborando con un vivace ecosistema di partner su Delta Sharing, compresi i team di prodotto dei principali fornitori di cloud, BI e dati:

 Ecosistema Delta Sharing - Apache Spark, Pandas, Presto, Trino, Rust, Hive, Tableau, Power BI, Qlik, Looker, Databricks, Microsoft Azure, Google BigQuery, Starburst, Dremio, AtScale, Immuta, Privacera, Alation, Collibra, Nasdaq, S&P, ICE, NYSE, AWS, FactSet, Precisely, Atlassian, Foursquare, Sequence Bio

Ecosistema Delta Sharing

In questo post spiegheremo come funziona Delta Sharing e perché siamo così entusiasti di un approccio aperto alla condivisione dei dati.

Obiettivi di Delta Sharing

Delta Sharing è progettato per essere facile da usare sia per i fornitori sia per i consumatori con i loro dati e flussi di lavoro esistenti. Lo abbiamo progettato pensando a quattro obiettivi:

  • Condividere dati in tempo reale direttamente senza copiarli: vogliamo semplificare la condivisione dei dati esistenti in tempo reale. Oggi, la maggior parte dei dati aziendali è memorizzata in sistemi cloud data lake e lakehouse. Delta Sharing funziona su questi sistemi; in particolare, consente di condividere in modo sicuro qualsiasi set di dati esistente nei formati Delta Lake o Apache Parquet.
  • Supportare un'ampia gamma di client: i destinatari dovrebbero essere in grado di utilizzare direttamente i dati con i propri strumenti preferiti, senza dover installare una nuova piattaforma. Il protocollo Delta Sharing è progettato per essere facilmente supportato in modo diretto dagli strumenti. Si basa su Parquet, che la maggior parte degli strumenti già supporta, quindi l'implementazione di un connettore è semplice.
  • Sicurezza, auditing e governance solide: il protocollo è progettato per aiutarti a soddisfare i requisiti di privacy e conformità. Delta Sharing consente di concedere, tracciare e verificare l'accesso ai dati condivisi da un unico punto di controllo.
  • Scalabilità per set di dati enormi: la condivisione dei dati deve supportare sempre più spesso set di dati nell'ordine dei terabyte, come dati industriali o finanziari dettagliati, una sfida complessa per le soluzioni legacy. Delta Sharing sfrutta i costi ridotti e l'elasticità dei sistemi di cloud storage per condividere set di dati enormi in modo economico e affidabile.

Come funziona Delta Sharing?

Delta Sharing è un semplice protocollo REST che condivide in modo sicuro l'accesso a una parte di un set di dati cloud. Sfrutta i moderni sistemi di cloud storage, come S3, ADLS o GCS, per trasferire in modo affidabile grandi set di dati. Sono coinvolte due parti: i fornitori di dati e i destinatari.

In qualità di fornitore di dati, Delta Sharing ti consente di condividere tabelle esistenti o parti di esse (ad esempio, versioni specifiche di tabelle o partizioni) memorizzate nel tuo cloud data lake in formato Delta Lake. Una tabella Delta Lake è essenzialmente una raccolta di file Parquet ed è facile convertire le tabelle Parquet esistenti in Delta Lake, se necessario. Il fornitore di dati decide quali dati desidera condividere ed esegue a monte un server di condivisione che implementa il protocollo Delta Sharing e gestisce l'accesso per i destinatari. Abbiamo reso open source un server di condivisione di riferimento e ne forniamo uno ospitato su Databricks, come immaginiamo faranno altri fornitori.

In qualità di destinatario dei dati, tutto ciò di cui hai bisogno è uno dei numerosi client Delta Sharing che supportano il protocollo. Abbiamo rilasciato connettori open source per pandas, Apache Spark, Rust e Python, e stiamo lavorando con i partner su molti altri.

Delta Sharing è un semplice protocollo REST che condivide in modo sicuro l'accesso a una parte di un set di dati cloud. Sfrutta i moderni sistemi di cloud storage, come S3, ADLS o GCS, per trasferire in modo affidabile grandi set di dati.

Lo scambio effettivo è attentamente progettato per essere efficiente sfruttando le funzionalità dei sistemi di cloud storage e di Delta Lake. Il protocollo funziona nel modo seguente:

  1. Il client del destinatario si autentica sul server di condivisione (tramite un token bearer o un altro metodo) e richiede di interrogare una tabella specifica. Il client può anche fornire filtri sui dati (ad esempio, "country=US") come suggerimento per leggere solo un sottoinsieme dei dati.
  2. Il server verifica se il client è autorizzato ad accedere ai dati, registra la richiesta e quindi determina quali dati inviare. Si tratterà di un sottoinsieme degli oggetti di dati in S3 o in altri sistemi di cloud storage che compongono effettivamente la tabella.
  3. Per trasferire i dati, il server genera URL pre-firmati a breve scadenza che consentono al client di leggere questi file Parquet direttamente dal cloud provider, in modo che il trasferimento possa avvenire in parallelo con una larghezza di banda massiccia, senza passare in streaming attraverso il server di condivisione. Questa potente funzionalità, disponibile in tutti i principali cloud, rende la condivisione di set di dati molto grandi rapida, economica e affidabile.

Vantaggi del design

Il design di Delta Sharing offre numerosi vantaggi sia per i fornitori sia per i consumatori:

  • I fornitori di dati possono condividere facilmente un'intera tabella, o solo una versione o partizione della stessa, poiché ai client viene concesso l'accesso solo a uno specifico sottoinsieme degli oggetti in essa contenuti.
  • I fornitori di dati possono aggiornare i dati in modo affidabile e in tempo reale utilizzando le transazioni ACID su Delta Lake, e i destinatari vedranno sempre una vista coerente.
  • I destinatari dei dati non devono necessariamente utilizzare la stessa piattaforma del fornitore, né trovarsi nel cloud: la condivisione funziona tra cloud diversi e persino dal cloud a utenti on-premise.
  • Il protocollo Delta Sharing è molto semplice da implementare per i client che già conoscono Parquet. La maggior parte delle nostre implementazioni prototipo con motori open source e strumenti di BI ha richiesto solo 1-2 settimane di sviluppo.
  • Il trasferimento è veloce, economico, affidabile e parallelizzabile grazie al sistema cloud sottostante.
  • Un ecosistema aperto

    Come accennato in precedenza, siamo entusiasti di promuovere un approccio aperto alla condivisione dei dati. I fornitori di dati, come Nasdaq, ci hanno riferito all'unanimità che è troppo difficile distribuire dati a consumatori diversi, i quali utilizzano tutti strumenti di analisi differenti.

    "Sosteniamo Delta Sharing e la sua visione di un protocollo aperto che semplificherà la condivisione sicura dei dati e la collaborazione tra organizzazioni. Delta Sharing migliorerà il modo in cui lavoriamo con i nostri partner, ridurrà i costi operativi e consentirà a un numero maggiore di utenti di accedere a una gamma completa della suite di dati di Nasdaq per scoprire informazioni utili e sviluppare strategie finanziarie", ha dichiarato Bill Dague, Head of Alternative Data di Nasdaq.

    Con Delta Sharing, decine di sistemi diffusi potranno connettersi direttamente ai dati condivisi in modo che qualsiasi utente possa utilizzarli, riducendo gli attriti per tutti i partecipanti. Stiamo lavorando con decine di partner per definire lo standard Delta Sharing e vi invitiamo a partecipare.
    Molte di queste aziende hanno espresso il loro supporto per il lancio di oggi:

    Strumenti di BI: Tableau, Qlik, Power BI, Looker
    Analytics: AtScale, Dremio, Starburst, Microsoft Azure, Google BigQuery
    Governance: Collibra, Immuta, Alation, Privacera
    Fornitori di dati: FactSet, Nasdaq, Precisely, Safegraph, Atlassian, AWS, Foursquare, ICE, Qandl, S&P, SequenceBio

    Delta Sharing su Databricks

    I clienti Databricks disporranno di un'integrazione nativa di Delta Sharing nel nostro Unity Catalog, che offrirà un'esperienza ottimizzata per la condivisione dei dati sia all'interno che tra diverse organizzazioni. Gli amministratori potranno gestire le condivisioni utilizzando una nuova sintassi SQL CREATE SHARE o le API REST e monitorare tutti gli accessi a livello centrale. I destinatari potranno utilizzare i dati da qualsiasi piattaforma. Iscriviti per unirti alla nostra lista d'attesa per ricevere l'accesso in anteprima e gli aggiornamenti.

    Roadmap per il protocollo Delta Sharing su Databricks

    Roadmap

    Questa prima versione di Delta Sharing è solo l'inizio. Man mano che sviluppiamo il progetto, prevediamo di estenderlo alla condivisione di altri oggetti, come stream, viste SQL o file arbitrari come i modelli di machine learning. Riteniamo che il futuro della condivisione dei dati sia aperto e siamo entusiasti di applicare questo approccio ad altri flussi di lavoro di condivisione.

    Guida introduttiva a Delta Sharing

    Per provare la versione open source di Delta Sharing, segui le istruzioni su delta.io/sharing. Oppure, se sei un cliente Databricks, iscriviti per ricevere aggiornamenti sul nostro servizio. Siamo davvero entusiasti di ricevere il tuo feedback!

    (Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

    Ricevi gli ultimi articoli nella tua casella di posta

    Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.