Riduci al minimo i costi e la complessità della condivisione dei dati tra cloud diversi
di Tianyi Huang, Giselle Goicochea, Philip Jones e Harshal Brahmbhatt
Delta Sharing si è evoluto in OpenSharing, il primo protocollo aperto e neutrale rispetto ai vendor per condividere in modo sicuro gli asset di AI, inclusi Agent Skills, modelli di AI e dati non strutturati. Leggi l'annuncio.
Un ringraziamento speciale a Phillip Jones, Senior Product Manager, e Harshal Brahmbhatt, Systems Engineer di Cloudflare, per il loro contributo a questo blog.
Le organizzazioni di tutti i settori desiderano condividere i propri dati e asset di AI in un unico modo unificato, indipendentemente da cloud o regioni. Tuttavia, molte organizzazioni riscontrano ancora difficoltà nel condividere i dati con clienti, team e partner, affrontando problemi e limitazioni di compatibilità delle piattaforme, costi di egress elevati e una mancanza di governance e sicurezza. Databricks e la Linux Foundation hanno sviluppato Delta Sharing come primo approccio aperto per la condivisione sicura dei dati. I clienti utilizzano Delta Sharing per condividere in modo semplice e sicuro i dati tra piattaforme, cloud e regioni, senza necessità di replica.
Oggi siamo entusiasti di annunciare che l'integrazione di Delta Sharing con Cloudflare R2 è in Public Preview per aiutare i clienti che condividono dati tra cloud e regioni a risparmiare sui costi di egress. Databricks ora supporta Delta Sharing da Cloudflare R2, l'offerta di storage a oggetti distribuito a zero costi di egress di Cloudflare. I clienti comuni possono ora usufruire di tariffe di egress pari a zero senza costose repliche tra regioni e senza vendor lock-in.
Databricks ha stretto una partnership con Cloudflare per aiutare le organizzazioni a condividere i propri dati con clienti e partner in un unico modo unificato, indipendentemente dal cloud o dalla regione. Cloudflare R2 è uno storage distribuito a zero costi di egress offerto da Cloudflare che consente ai clienti di condividere i dataset più aggiornati con partner, fornitori e rami d'azienda senza compromettere la sicurezza e la privacy.
Matthew Prince, co-fondatore e CEO di Cloudflare, ha spiegato il valore della partnership: "La combinazione della massiccia rete globale di Cloudflare e dello storage a zero costi di egress, insieme alle potenti funzionalità di condivisione ed elaborazione di Databricks, offrirà ai nostri clienti comuni le funzionalità di condivisione dei dati più veloci, sicure e convenienti a livello globale."
Utilizzando Delta Sharing con Cloudflare R2, i clienti hanno ora il controllo su dove spostare e utilizzare i propri dati e la propria AI (dataset live, modelli e notebook), condividendo le informazioni più recenti tra piattaforme, cloud e regioni senza necessità di replica, con zero costi di egress, nessun vendor lock-in e senza compromettere la sicurezza e la governance.
"La combinazione della massiccia rete globale di Cloudflare e dello storage a zero costi di egress, insieme alle potenti funzionalità di condivisione ed elaborazione di Databricks, offrirà ai nostri clienti comuni le funzionalità di condivisione dei dati più veloci, sicure e convenienti a livello globale." — Matthew Prince, CEO e co-fondatore di Cloudflare
“Delta Sharing fornisce il primo protocollo aperto per la condivisione dei dati tra diverse piattaforme informatiche, cloud e regioni. Siamo entusiasti di come questo promuoverà l'interscambio aperto e aiuterà tutti i nostri clienti a collaborare più facilmente”, ha spiegato Matei Zaharia, co-fondatore e CTO di Databricks, in merito alla partnership con Cloudflare.
"Delta Sharing fornisce il primo protocollo aperto per la condivisione dei dati tra diverse piattaforme informatiche, cloud e regioni. Siamo entusiasti di come questo promuoverà l'interscambio aperto e aiuterà tutti i nostri clienti a collaborare più facilmente." — Matei Zaharia, co-fondatore e CTO di Databricks
Negli ultimi 15 anni, il settore finanziario è stato trasformato dall'introduzione della tecnologia blockchain e dall'uso delle criptovalute in tutti i settori. Questa evoluzione ha generato una quantità sempre crescente di dati transazionali provenienti da blockchain pubbliche, a disposizione di investitori e trader per ottenere informazioni cruciali in tempo reale.
Allium è un cliente Databricks che fornisce una piattaforma dati semplice con dati blockchain rapidi e accurati. Aiuta i clienti, dalle istituzioni finanziarie alle aziende crypto-native, a sbloccare l'intero potenziale dei loro dati. Allium offre un'infrastruttura dati dedicata e prodotti che includono database blockchain gestiti, schemi di dati arricchiti e funzionalità di notifica in tempo reale. È leader in questo settore e supporta 15 blockchain, tra cui EVM e Bitcoin, oltre 100 schemi e più di 250 TB di dati per potenziare tutti i tipi di applicazioni crypto, dalla contabilità e dall'auditing per i trader al filtraggio del wash trading per i marketplace NFT. Allium va incontro ai propri clienti ovunque si trovino, nel loro ambiente dati, registrando oltre 1 PB di trasferimento dati mensile nell'ultimo trimestre, e questo volume continua a crescere in seguito alla recente ripresa delle criptovalute alimentata dall'ottimismo per gli ETF.
Sebbene l'enorme aumento dei volumi di trasferimento dati abbia contribuito alla rapida crescita aziendale di Allium, ha anche introdotto una sfida significativa per i suoi profitti: come creare una soluzione di storage e condivisione dei dati conveniente che soddisfi le esigenze dei clienti. Nello specifico, come condividere i dati con i clienti in qualsiasi località, tra cloud e regioni, riducendo al minimo i costosi costi di egress dei dati dei fornitori di servizi cloud.
Prima di adottare la soluzione congiunta di Delta Sharing con Cloudflare R2, Allium aveva implementato altre piattaforme, ma le aveva trovate proibitivamente costose, con costi stimati che raggiungevano i 53.800 $ al mese per un egress di dati di 1 Petabyte, per un totale di circa 645.000 $ all'anno.
“Inizialmente abbiamo sfruttato il sistema di replica di Snowflake, ma mancava di controllo ed era costoso. In Snowflake, per distribuire i dati in diverse regioni dobbiamo replicarli in quella regione, quindi ciò comporta automaticamente molti costi di storage e alcuni costi di egress. Questa spesa aumenta in modo esponenziale per qualsiasi modifica operativa dello schema, cosa che accade frequentemente alla nostra scala”, spiega Ethan Chan, co-fondatore e CEO di Allium.
"In Snowflake, per distribuire i dati in diverse regioni dobbiamo replicarli in quella regione, quindi ciò comporta automaticamente molti costi di storage e alcuni costi di egress. Questa spesa aumenta in modo esponenziale per qualsiasi modifica operativa dello schema, cosa che accade frequentemente alla nostra scala." — Ethan Chan, co-fondatore e CEO di Allium
La combinazione di Delta Sharing con Cloudflare R2 ha fornito ad Allium una soluzione di condivisione dei dati sicura e conveniente, senza necessità di repliche costose e complesse o di vendor lock-in. Allium ha ora il controllo su dove spostare e utilizzare i propri dati grazie al supporto multicloud di Delta Sharing e ha consolidato il proprio cloud storage con Cloudflare R2 per creare la sua piattaforma di condivisione dei dati di nuova generazione.
Chan spiega, "La combinazione di Delta Sharing e Cloudflare R2 ci consente di fornire dati ai nostri clienti in modo affidabile e conveniente. Forniamo i dati blockchain di massima qualità ai nostri clienti nel loro ambiente preferito, riducendo al minimo i costi di storage e di egress, con un risparmio fino a 645.000 $ all'anno. Inoltre, questo ci offre sia il controllo che la sicurezza necessari per scalare le nostre offerte in modo sostenibile."
Allium utilizza questa integrazione per massimizzare i risparmi sui costi (vedere il diagramma seguente) rendendo persistenti i dati della blockchain tramite Delta UniForm (Delta Lake Universal Format), un modo semplice per unificare i formati di tabella Parquet senza creare copie aggiuntive. Allium abilita i connettori Apache Iceberg e Delta che leggono i dati memorizzati in Cloudflare R2. Implementa inoltre Delta Sharing per condividere in modo semplice e sicuro i propri dati tra regioni e piattaforme, il tutto con zero costi di egress per i trasferimenti in uscita.
"La combinazione di Delta Sharing e Cloudflare R2 ci consente di fornire dati ai nostri clienti in modo affidabile e conveniente. Forniamo i dati blockchain di massima qualità ai nostri clienti nel loro ambiente preferito, riducendo al minimo i costi di storage e di egress, con un risparmio fino a 645.000 $ all'anno." — Ethan Chan, co-fondatore e CEO di Allium

Di recente Allium ha anche ampliato la sua linea di prodotti per condividere i suoi Ethereum Realtime Data, ora disponibili su Databricks Marketplace. Questo dataset supporta gli utenti nel settore delle criptovalute condividendo informazioni preziose sulle dinamiche di Ethereum. Disponibile per l'acquisto, include diversi dettagli sulla blockchain di Ethereum, tra cui smart contract, mercati NFT e di finanza decentralizzata (DeFi) e altro ancora.
Un altro esempio di tipologia di cliente che può trarre vantaggio dall'uso di Delta Sharing e Cloudflare R2 è un aggregatore di dati che utilizza un modello architetturale "hub and spoke" comunemente usato. Un aggregatore di dati è specializzato nella raccolta e nell'unione di dati provenienti da fonti diverse in un dataset unificato e coerente. Uno scenario di condivisione dei dati "hub and spoke" è definito come uno-a-molti, in cui un'organizzazione condivide con molti clienti. Questi aggregatori di dati sono specializzati nella raccolta, nell'unione e nella condivisione di dataset con vari clienti in diverse aree geografiche, cloud e piattaforme. Tuttavia, queste organizzazioni devono affrontare una sfida comune: come scalare la condivisione dei dati in modo prevedibile e conveniente. Idealmente, sono in grado di beneficiare di economie di scala, in modo che all'aumentare del numero di clienti, il costo di condivisione aumenti solo marginalmente. Inoltre, non vogliono dipendere dall'adozione della replica dei dati da parte dei loro clienti per risparmiare sui costi, ma vogliono avere il controllo esclusivo sulla gestione dei costi con un approccio prevedibile.
I settori che tipicamente utilizzano gli aggregatori di dati includono i servizi finanziari, la sanità e le scienze della vita, i media e l'intrattenimento. La condivisione dei dati aiuta a soddisfare esigenze aziendali critiche come il processo decisionale, l'analisi di mercato, la ricerca e il supporto alle operazioni aziendali complessive. Ad esempio, gli aggregatori di dati svolgono un ruolo cruciale nel potenziare varie applicazioni e servizi finanziari, come app di budgeting, piattaforme di investimento, soluzioni di prestito e altro ancora, accedendo e analizzando in modo sicuro le informazioni finanziarie degli utenti. Consulta la tabella seguente per alcuni casi d'uso specifici del settore.
| Settore | Caso d'uso dell'aggregatore di dati | Dettagli del caso d'uso |
|---|---|---|
| Media e intrattenimento | Archiviazione dei contenuti | Gli aggregatori possono essere utilizzati per archiviare i contenuti in modo sistematico, rendendo più facile per le aziende di media condividere i propri contenuti con partner e clienti per accedere e riutilizzare i propri contenuti storici per nuovi segmenti di pubblico o piattaforme. |
| Servizi finanziari | Credit Scoring e valutazione del rischio | Gli aggregatori di dati forniscono informazioni sul comportamento finanziario degli utenti, come modelli di spesa, livelli di reddito e obblighi di debito. Queste informazioni vengono condivise e possono essere utilizzate da istituti di credito e finanziari per valutare il rischio di credito e aiutarli a prendere decisioni sui prestiti in base ai rating di credito complessivi. |
| Sanità e scienze della vita | Efficacia commerciale | Gli aggregatori di dati sanitari possono fornire dati sulle prescrizioni cliniche a ospedali, operatori sanitari, aziende farmaceutiche e istituti di ricerca per l'analisi e l'utilizzo in molti modi diversi. Ciò potrebbe includere l'identificazione di nuovi mercati in cui entrare, la misurazione delle dinamiche dei canali di vendita o dei modelli di acquisto nelle farmacie al dettaglio o negli ospedali. |
I costi di egress del cloud generalmente aumentano in modo proporzionale al volume di dati interrogati dalla condivisione dati. Il diagramma seguente mostra che all'aumentare del numero di query (e del volume di dati), aumentano anche i costi di egress. I clienti possono utilizzare questo approccio per confrontare diverse soluzioni di storage e quantificare il rapporto costi-benefici dell'utilizzo della soluzione di Cloudflare R2, che non introduce alcun costo di egress. Come evidenziato nel diagramma seguente, la soluzione di Cloudflare R2 può portare a risparmi significativi rispetto ad altre soluzioni di cloud storage.
Ad esempio, in base a ipotesi di prezzo standard, l'analisi seguente indica che i data asset le cui attività di trasferimento dati superano il 26% tra cloud diversi o l'85% tra aree geografiche su base mensile possono beneficiare di significativi risparmi mensili sia sui costi di storage che su quelli di egress.1

Delta Sharing e Cloudflare R2 sono ora disponibili in Public Preview. Per implementare la soluzione congiunta, non è necessario migrare tutti i dati su Cloudflare R2 (vedi il blog correlato, Progettare la collaborazione globale sui dati con Delta Sharing). È sufficiente replicare i dati condivisi una sola volta su R2, in tre semplici passaggi (vedi il diagramma seguente):

Consulta la documentazione tecnica per maggiori dettagli. Puoi anche inviare un feedback al nostro team all'indirizzo datacollaboration@databricks.com.
Utilizzando Delta Sharing con Cloudflare R2, ora puoi beneficiare di un nuovo approccio per condividere dati e AI tra piattaforme, cloud e aree geografiche, con zero costi di egress, nessun vincolo del fornitore (vendor lock-in) e senza compromettere la sicurezza e la governance.
Scopri di più su come integrare Delta Sharing nella tua strategia di collaborazione sui dati con le risorse più recenti:
1 Il calcolo del risparmio sui costi si basa sull'ipotesi che il 10% dei dati venga aggiornato mensilmente e che i dati vengano replicati su Cloudflare R2 a scopo di condivisione, mantenendo la copia originale in S3.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.