Passa al contenuto principale
Prodotto

Come Delta Sharing consente una collaborazione end-to-end sicura

Scenari di condivisione reali mostrano l'architettura sicura, la flessibilità, l'adattabilità e l'integrazione di Delta Sharing con Unity Catalog su diverse piattaforme e cloud

di Bilal Obeidat, Bhavin Kukadia e Giselle Goicochea

Delta Sharing si è evoluto in OpenSharing, il primo protocollo aperto e neutrale rispetto ai vendor per condividere in modo sicuro gli asset di IA, tra cui competenze degli agenti, modelli di IA e dati non strutturati. Leggi l'annuncio.

Nel panorama digitale odierno, la condivisione sicura dei dati è fondamentale per l'efficienza operativa e l'innovazione. Databricks e la Linux Foundation hanno sviluppato Delta Sharing come primo approccio open source alla condivisione di dati, analytics e IA. Databricks offre uno scambio sicuro di dati, facilitando una condivisione fluida tra piattaforme, cloud e aree geografiche. Aziende di ogni dimensione si affidano a Delta Sharing, che supporta un'ampia gamma di applicazioni e diversi formati di dati. Questa flessibilità lo rende uno strumento affidabile per le organizzazioni che desiderano sfruttare appieno il potenziale dei propri asset di dati.

In questo blog esamineremo l'architettura di sicurezza di Delta Sharing attraverso tre diversi scenari di condivisione: da cliente Databricks a cliente Databricks (D2D), da cliente Databricks a condivisione aperta (Open sharing) (D2O) e condivisione dati cross-cloud. Ricapitoleremo i vantaggi derivanti dall'implementazione di Delta Sharing come parte di una moderna strategia di collaborazione sui dati, come una maggiore efficienza operativa grazie a scambi di dati semplificati e sicuri su varie piattaforme e cloud, e la riduzione di complessità e rischi. Questo framework sicuro accelera il tempo per ottenere insight, consentendo decisioni più rapide e mantenendo al contempo solide protezioni della privacy che promuovono la fiducia tra gli stakeholder. Inoltre, la flessibilità di Delta Sharing supporta una vasta gamma di formati di dati e applicazioni, rendendolo adattabile alle mutevoli esigenze aziendali in modo sicuro. Ogni scenario include la testimonianza di un cliente che evidenzia in prima persona l'impatto rivoluzionario della soluzione. In questo blog ci concentreremo su Databricks Delta Sharing, in cui il provider di dati utilizza la versione gestita della piattaforma Databricks.

Condivisione dei dati da Databricks a Databricks (D2D)

Lo scenario D2D rappresenta un esempio di scambio di dati sicuro e semplificato tra due clienti Databricks all'interno dell'ecosistema Databricks. Offre connessioni gestite da Databricks e un sistema di scambio senza token, garantendo semplicità e sicurezza.

Utilizzando la condivisione D2D, i clienti beneficiano dell'integrazione nativa di Delta Sharing con Unity Catalog (UC), che fornisce governance e sicurezza unificate per le operazioni di condivisione. È importante notare che la condivisione non è limitata ai soli dati: Unity Catalog va oltre i dataset per includere volumi, notebook e modelli di IA, offrendo una gamma straordinaria di funzionalità. Anche Delta Sharing per la condivisione intra-account è attivo per impostazione predefinita, mentre la condivisione esterna è disponibile se attivata con l'accesso a livello di amministratore richiesto. Per configurare Databricks Delta Sharing, è sufficiente disporre di almeno un workspace Databricks abilitato per Unity Catalog e Metastore, insieme a un ruolo di amministratore o ai privilegi CREATE SHARE e CREATE RECIPIENT (Vedi la documentazione per la configurazione dell'account).

Unity Catalog fornisce un livello di governance unificato in ogni fase, dai passaggi iniziali di creazione di un destinatario e definizione delle condivisioni fino all'atto cruciale di concedere l'accesso. Il servizio Delta Sharing elabora le richieste API, esegue controlli di autorizzazione approfonditi e mantiene log di attività dettagliati. Tutti questi passaggi garantiscono che le operazioni siano tanto trasparenti quanto sicure, proprio come un meccanismo ben oliato su cui puoi fare affidamento per mantenere efficiente il tuo ecosistema di condivisione.

Accesso ai dati: Analizzando più a fondo l'accesso ai dati post-autorizzazione, Unity Catalog si conferma un elemento cruciale. Una volta ricevuta l'autorizzazione da Unity Catalog, viene determinato il metodo di accesso (token cloud o URL pre-firmati) in base a fattori quali il tipo di asset e l'accordo di condivisione. Per i token cloud, un token SAS di sola lettura con ambito limitato viene generato dall'UC del provider e poi inoltrato al compute plane del destinatario. Ciò fornisce un accesso sicuro e a tempo limitato allo storage per la directory radice della tabella. Allo stesso modo, con gli URL pre-firmati, viene creato un elenco di URL pertinenti e inviato al compute plane del destinatario, fornendo un accesso sicuro e temporaneo ai file di storage. Utilizzando strategicamente le funzionalità di sicurezza quando si usano diversi servizi cloud, come i token SAS di Azure e gli URL pre-firmati di AWS, è possibile garantire che solo le persone autorizzate possano accedere ai dati in un ambiente sicuro tra diverse aree geografiche e cloud. Inoltre, le interazioni sono limitate ai control plane del destinatario e del provider; si tratta di un'operazione privilegiata che non può essere attivata da agenti esterni, proteggendo così da violazioni esterne. Questa metodologia sottolinea l'adattabilità del sistema, garantendo che la condivisione dei dati sia flessibile e sicura, rispondendo perfettamente a un'ampia gamma di esigenze aziendali.

Delta Sharing: Accesso ai dati

Coastal Community Bank ha scelto Delta Sharing per soddisfare i rigorosi e complessi requisiti di condivisione dei dati, conformità e sicurezza della sua rete di partner. Coastal ha scelto Cavallo Technologies per farsi aiutare nello sviluppo di una moderna piattaforma dati. Rob Cavallo, President di Cavallo Technologies, spiega che Coastal aveva bisogno di una soluzione flessibile per il presente e per il futuro, Leggi il case study di Coastal Community Bank.

"In un certo senso, Coastal [Community Bank] chiedeva un paradosso: consentire una collaborazione semplice ma rispettando al contempo i più elevati standard di sicurezza per i dati finanziari dei consumatori. È fondamentale garantire che la piattaforma sia performante e conveniente per i carichi di lavoro odierni, ma anche sufficientemente adattabile per gestire casi d'uso futuri non ancora immaginati. Alla fine, la Databricks Data Intelligence Platform è stata l'unica piattaforma che abbiamo trovato in grado di permetterci di farlo." — Rob Cavallo, President di Cavallo Technologies

Condivisione sicura dei dati, oltre le tabelle

Delta Sharing non supporta solo i dati tabulari, ma adotta un approccio più olistico alla collaborazione sui dati includendo asset di dati non tabulari come volumi, notebook e modelli di IA. Attualmente, questi tipi di asset sono supportati solo nel framework di condivisione D2D, dove arricchiscono l'ecosistema collaborativo. I modelli di IA vengono condivisi in modo simile ai volumi, mentre i notebook presentano un meccanismo di condivisione unico. I destinatari possono visualizzare in anteprima i notebook tramite un URL pre-firmato, che mostra il contenuto in formato HTML in una finestra pop-up per un accesso immediato. Per un'integrazione più profonda, i notebook possono anche essere importati nell'ambiente del destinatario, utilizzando la codifica base64 e chiamate API per una transizione fluida.

La condivisione dei modelli di IA è facilitata dalla generazione di un token SAS di sola lettura con ambito limitato, creato dall'UC del provider e poi inoltrato al compute plane del destinatario. Questo approccio garantisce un accesso sicuro ed efficiente ed evita la necessità di copie superflue del modello, consentendo una copia singola nel Model Registry dell'UC del destinatario. Questa copia del modello può quindi essere distribuita in più aree geografiche per ottimizzare il processo di inferenza, migliorare le prestazioni riducendo la latenza e offrire tempi di risposta più rapidi sfruttando i data center regionali più vicini agli utenti finali. Individuare, accedere e utilizzare volumi condivisi e modelli di IA con Delta Sharing dimostra approcci sia simili che personalizzati per ciascun tipo di dati, promuovendo una piattaforma sicura e versatile per la condivisione e la collaborazione dei dati.

Condivisione dei dati da Databricks a Open (D2O)

Passando allo scenario di condivisione aperta, la modalità D2O mantiene rigidi protocolli di sicurezza per un cliente Databricks che condivide dati con utenti terzi esterni che non utilizzano Databricks. La modalità D2O consente ai destinatari di connettersi direttamente ai dati condivisi utilizzando i connettori Delta Sharing che supportano vari sistemi come pandas, Tableau, Apache Spark, Rust o altri che supportano il protocollo aperto, senza dover prima disporre di una specifica piattaforma di calcolo.

Al momento della creazione di un destinatario aperto in Databricks, viene generato un URL di attivazione sicuro e monouso, che consente al destinatario di scaricare un file di credenziali contenente l'indirizzo dell'endpoint Delta Sharing e un token. In caso di violazione della sicurezza, i provider hanno la possibilità di intervenire immediatamente, ad esempio modificando le credenziali di un destinatario o revocando i suoi permessi di lettura per prevenire ulteriori problemi.

Workflow di accesso ai dati: Quando un destinatario interroga una tabella condivisa utilizzando uno dei connettori menzionati, Delta Sharing verifica il destinatario utilizzando i token del file di credenziali e fornisce URL pre-firmati per accedere ai dati. Questo approccio garantisce la compatibilità con vari connettori open source, salvaguardando l'integrità e la sicurezza degli asset condivisi. (Scopri di più sulla condivisione e sull'accesso ai dati.)

Cox Automotive Europe (parte di Cox Automotive) è la più grande organizzazione di servizi automobilistici al mondo che utilizza Delta Sharing per gestire e controllare centralmente i dati condivisi al di fuori del proprio team di servizi dati aziendali, garantendo al contempo una sicurezza e una governance solide. Leggi il caso di studio di Cox Automotive.

"Delta Sharing semplifica la condivisione sicura dei dati con business unit e filiali senza doverli copiare o replicare. Ci consente di condividere i dati senza che il destinatario debba avere un'identità nel nostro workspace." — Robert Hamlet, Lead Data Engineer presso Cox Automotive

Condivisione dei dati cross-cloud

Le aziende stanno adottando sempre più strategie cross-cloud, spinte dalla necessità di supportare diverse funzionalità su differenti piattaforme cloud, facilitare le partnership o integrare i dati di un'altra organizzazione a seguito di un'acquisizione. Questo passaggio verso un ambiente multicloud sottolinea l'importanza per le organizzazioni di implementare soluzioni robuste come Delta Sharing per consentire una condivisione fluida e sicura sia all'interno che all'esterno. L'implementazione di una strategia cross-cloud è spesso essenziale per i nostri clienti per mantenere la continuità operativa, promuovere l'innovazione e guidare la crescita in un ecosistema digitale interconnesso, avendo al contempo la capacità di sfruttare i punti di forza unici di ciascun servizio cloud.

Per molti dei nostri clienti che adottano strategie cross-cloud, è chiaro che le funzionalità di condivisione aperta e multipiattaforma di Delta Sharing, che supportano perfettamente gli ambienti multicloud, rappresentano un chiaro elemento di differenziazione e un vantaggio. Delta Sharing è altrettanto efficace sia che si condividano dati internamente all'interno di un singolo cloud, sia che si condividano dati esternamente su più piattaforme cloud, garantendo un processo di scambio dati sicuro ed efficiente per entrambi gli scenari. Databricks ha raccolto il feedback di molti clienti in merito alle loro esigenze di condivisione dei dati all'interno di ambienti multicloud e su come Delta Sharing aiuti a promuovere l'interoperabilità e a migliorare la sicurezza nel loro ecosistema cloud.

Uno di questi clienti Databricks è Deutsche Börse, un'organizzazione di scambio internazionale e fornitore di infrastrutture di mercato. Una volta implementato Delta Sharing, che ha consentito loro di condividere e collaborare apertamente con i propri clienti, l'impatto sul business è stato trasformativo.

"Disporre di una piattaforma che consenta la condivisione sicura dei dati con controlli di acesso granulari, i più elevati standard di sicurezza e la garanzia della privacy apre nuove possibilità. Ora possiamo avviare conversazioni su soluzioni personalizzate laddove in passato avremmo detto: 'Purtroppo i nostri clienti non vogliono condividere i loro dati e modelli con noi, oppure non vogliamo condividere dati più granulari o i nostri modelli per motivi di riservatezza'." — Jan Stiebing, Head of Business Strategy and M&A presso Deutsche Börse

In questo esempio di cliente e in molti altri, Delta Sharing è in grado di colmare i divari nella condivisione dei dati e nella collaborazione che un tempo erano considerati insormontabili, il tutto mantenendo i più elevati standard di sicurezza e privacy. Deutsche Börse offre anche diversi listini di dati di mercato su Databricks Marketplace.

Configurazione di rete e di archiviazione

Delta Sharing consente una condivisione dei dati sicura e fluida in vari ambienti cloud, integrandoli perfettamente con l'architettura di sicurezza dell'archiviazione nativa del cloud. Ciò avviene senza la necessità di apportare modifiche significative al framework di sicurezza esistente. Questo approccio è progettato per le organizzazioni che utilizzano Databricks su piattaforme cloud come Azure, AWS e GCP, allineandosi ai requisiti di Unity Catalog. La Databricks Data Intelligence Platform supporta la condivisione dei dati tramite soluzioni di archiviazione cloud (ADLS Gen2, S3, GCS) con particolare attenzione ai canali di comunicazione privati o alla whitelist degli indirizzi IP per una maggiore sicurezza.

La configurazione di rete e di archiviazione per Delta Sharing descritta di seguito funziona sia in scenari intra-cloud che cross-cloud. La condivisione intra-cloud facilita lo scambio sicuro di dati all'interno dello stesso ecosistema cloud utilizzando endpoint privati, firewall di archiviazione e gateway di rete, garantendo che non sia consentito alcun accesso pubblico. Negli scenari di condivisione cross-cloud, Delta Sharing sfrutta gli IP di uscita del gateway NAT e supporta le connessioni private cross-cloud esistenti, come le VPN site-to-site o i collegamenti dedicati per consentire l'accesso sicuro ai dati su diverse piattaforme cloud e reti on-premise. Questo approccio completo e sicuro consente a un'ampia gamma di infrastrutture di rete di partecipare in modo efficiente a Delta Sharing, promuovendo sia la flessibilità che la sicurezza.

Configurazione di rete e di archiviazione

Il diagramma sopra rappresenta un esempio di configurazione di rete cross-cloud.

Filtraggio dei dati

In Delta Sharing, il filtraggio dei dati è fondamentale per fornire un accesso flessibile e sicuro, con due metodi principali:

  • Filtraggio delle partizioni: consente di condividere partizioni di tabella specifiche che si allineano alle proprietà del destinatario, nota come condivisione di partizioni parametrizzata. Questa strategia consente ai provider di dati di condividere le parti di dati necessarie in modo flessibile, facilitando l'accesso controllato.
  • Visualizzazioni dinamiche: consente la condivisione di qualsiasi sottoinsieme di dati con i destinatari tramite funzioni dinamiche come current_recipient, offrendo un controllo granulare sull'accesso ai dati e una migliore gestibilità.

Consentono restrizioni di accesso basate su proprietà specifiche del destinatario, garantendo che i dati siano condivisi solo con i destinatari previsti e nel contesto appropriato. Questi approcci migliorano la sicurezza e la flessibilità di Delta Sharing, consentendo un accesso ai dati personalizzato che soddisfa le esigenze specifiche dei destinatari.

Sicurezza, flessibilità e integrazione fluida con Delta Sharing

In conclusione, Delta Sharing è un componente chiave della Databricks Data Intelligence Platform e si distingue per le sue funzionalità di condivisione dei dati sicure, flessibili e multipiattaforma, a supporto delle moderne strategie dei dati. Oltre a supportare altre piattaforme tramite connettori open source, Delta Sharing consente ai clienti di condividere dati strutturati e non strutturati, nonché modelli di AI. Tutte queste funzionalità differenziano chiaramente Delta Sharing dalle altre piattaforme di scambio dati. Di conseguenza, Delta Sharing riscuote un'ampia fiducia da parte dei clienti in diversi settori, come dimostrano le testimonianze dei clienti, che evidenziano l'impatto significativo sull'efficienza operativa e sull'innovazione. Mentre lo scenario della condivisione dei dati continua a evolversi, Delta Sharing è progettato per il futuro, dando priorità alla sicurezza, alla flessibilità e all'integrazione fluida in diversi ecosistemi di condivisione dei dati. Questo costante impegno posiziona Delta Sharing come una risorsa indispensabile per sfruttare la potenza dei dati al fine di far progredire gli obiettivi digitali delle aziende di tutto il mondo.

Per saperne di più su come implementare Delta Sharing all'interno della tua organizzazione, dai un'occhiata alle ultime risorse, inclusi i nuovi eBook e i blog correlati di seguito, oppure approfondisci la documentazione di Delta Sharing.

Se sei già un cliente Delta Sharing, puoi anche contattare il team per domande o per fornire feedback all'indirizzo datasharing@databricks.com.

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Ricevi gli ultimi articoli nella tua casella di posta

Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.