Siamo entusiasti di annunciare le data clean room per il Lakehouse, che consentono alle aziende di collaborare facilmente con i propri clienti e partner su qualsiasi cloud, nel rispetto della privacy. I partecipanti alle data clean room possono condividere e unire i loro dati esistenti ed eseguire carichi di lavoro complessi sui dati in qualsiasi linguaggio (Python, R, SQL, Java e Scala), garantendo al contempo la privacy dei dati.
Con una domanda di dati esterni più alta che mai, le organizzazioni cercano modi per scambiare in modo sicuro i propri dati e utilizzare dati esterni per promuovere innovazioni basate sui dati. Storicamente, le organizzazioni hanno sfruttato soluzioni di Data Sharing per condividerli con i propri partner e si sono affidate alla fiducia reciproca per preservare la privacy dei dati. Tuttavia, le organizzazioni perdono il controllo sui dati una volta che vengono condivisi e hanno poca o nessuna visibilità su come vengono utilizzati dai loro partner sulle varie piattaforme. Ciò espone a un potenziale uso improprio dei dati e a violazioni della privacy dei dati. Con le rigide normative sulla privacy dei dati, è fondamentale che le organizzazioni abbiano il controllo e la visibilità sulle modalità di utilizzo dei loro dati sensibili. Di conseguenza, le organizzazioni necessitano di un modo sicuro, controllato e privato per collaborare sui dati, ed è qui che entrano in gioco le data clean room.
In questo blog parleremo di data clean room, della domanda di data clean room e della nostra visione per una data clean room scalabile sulla Databricks Lakehouse Platform.
Una data clean room fornisce un ambiente sicuro, governato e che tutela la privacy, in cui più partecipanti possono unire i propri dati proprietari ed eseguire analisi su di essi, senza il rischio di esporli ad altri partecipanti. I partecipanti hanno il pieno controllo dei loro dati e possono decidere quali partecipanti possono eseguire analisi sui loro dati senza esporre alcun dato sensibile, come le informazioni di identificazione personale (PII).
Le data clean room aprono a un'ampia gamma di casi d'uso in vari settori industriali. Ad esempio, le aziende di beni di largo consumo (CPG) possono osservare un aumento delle vendite unendo i dati pubblicitari proprietari con i dati transazionali dei punti vendita (POS) dei loro partner di vendita al dettaglio. Nel settore dei media, inserzionisti e addetti marketing possono pubblicare annunci più mirati, con una portata più ampia, una migliore segmentazione e una maggiore trasparenza sull'efficacia degli annunci, salvaguardando al contempo la privacy dei dati. Le società di servizi finanziari possono collaborare lungo tutta la catena del valore per definire strategie proattive di rilevamento delle frodi o antiriciclaggio. Infatti, IDC prevede che entro il 2024 il 65% delle aziende G2000 formerà partnership per il Data Sharing con stakeholder esterni tramite data clean room per aumentare l'interdipendenza, salvaguardando al contempo la privacy dei dati.
Esaminiamo alcune delle ragioni più convincenti alla base della domanda di clean room:
Panorama della sicurezza, della conformità e della privacy in rapida evoluzione: normative rigorose sulla privacy dei dati come il GDPR e il CCPA, insieme a profondi cambiamenti nella misurazione di terze parti, hanno trasformato il modo in cui le organizzazioni raccolgono, utilizzano e condividono i dati, in particolare per i casi d'uso legati alla pubblicità e al marketing. Ad esempio, l'App Tracking Transparency Framework (ATT) di Apple offre agli utenti dei dispositivi Apple la libertà e la flessibilità di disattivare facilmente il tracciamento delle app. Google prevede inoltre di interrompere gradualmente il supporto per i cookie di terze parti in Chrome entro la fine del 2023. Con l'evolversi di queste leggi e pratiche sulla privacy, è probabile che la domanda di data clean room aumenti man mano che il settore si sposta verso nuovi identificatori basati su PII, come UID 2.0. Le organizzazioni cercheranno di trovare nuove soluzioni per unire i dati con i loro partner in un modo incentrato sulla privacy per raggiungere i loro obiettivi di business nella realtà senza cookie.
Collaborazione in un ecosistema di dati frammentato: oggi, i consumatori hanno più opzioni che mai per quanto riguarda dove, quando e come interagiscono con i contenuti. Di conseguenza, l'impronta digitale dei consumatori è frammentata su diverse piattaforme, il che rende necessario che le aziende collaborino con i loro partner per creare una visione unificata delle esigenze e dei requisiti dei loro clienti. Per facilitare la collaborazione tra le organizzazioni, le clean room forniscono un modo sicuro e privato per combinare i dati con altri dati al fine di sbloccare nuove informazioni dettagliate o funzionalità.
Nuovi modi per monetizzare i dati: la maggior parte delle organizzazioni ha già sviluppato o sta cercando di sviluppare strategie di monetizzazione per i propri dati o la propria IP esistente. Con le attuali leggi sulla privacy, le aziende cercheranno di trovare ogni possibile vantaggio per monetizzare i propri dati senza il rischio di violare le normative sulla privacy. Questo crea un'opportunità per i fornitori o gli editori di dati di unire i dati per l'analisi dei big data senza avere accesso diretto ai dati.
Mentre le organizzazioni esplorano diverse soluzioni di clean room, emergono alcune evidenti lacune nelle soluzioni esistenti, che non sfruttano appieno il potenziale delle "clean room" e non soddisfano i requisiti aziendali delle organizzazioni.
Spostamento e replica dei dati: gli attuali fornitori di data clean room richiedono ai partecipanti di spostare i loro dati nelle piattaforme del fornitore, il che comporta un lock-in della piattaforma e costi di archiviazione dei dati aggiuntivi per i partecipanti. Inoltre, per i partecipanti la preparazione dei dati in un formato standardizzato prima di eseguire qualsiasi analisi sui dati aggregati richiede molto tempo. Inoltre, i partecipanti devono replicare i dati su cloud e aree geografiche diversi per facilitare le collaborazioni con partecipanti che si trovano su cloud e aree geografiche diversi, il che comporta un sovraccarico operativo e di costi.
Limitato a SQL: le soluzioni di clean room esistenti non offrono molta flessibilità per l'esecuzione di carichi di lavoro e analisi arbitrarie e sono spesso limitate a semplici istruzioni SQL. Sebbene SQL sia potente e assolutamente necessario per le clean room, ci sono momenti in cui sono necessari calcoli complessi, come il machine learning, l'integrazione con le APIs o altri carichi di lavoro di analisi, in cui SQL semplicemente non è sufficiente.
Difficili da Scalare: la maggior parte delle soluzioni di clean room esistenti è legata a un unico fornitore e non è scalabile per estendere la collaborazione a più di due partecipanti alla volta. Ad esempio, un inserzionista potrebbe voler ottenere una visione dettagliata delle prestazioni dei propri annunci su diverse piattaforme, il che richiede l'analisi dei dati aggregati provenienti da più editori di dati. Con una collaborazione limitata a due soli partecipanti, le organizzazioni ottengono informazioni dettagliate parziali su una piattaforma di clean room e finiscono per spostare i propri dati presso un altro fornitore di clean room, sostenendo l'onere operativo della raccolta manuale di informazioni dettagliate parziali.
La Databricks Lakehouse Platform fornisce un set completo di strumenti per creare, erogare e implementare una data clean room scalabile e flessibile in base ai requisiti di privacy e governance dei dati.
Data Sharing sicura senza replica: con Delta Sharing, i partecipanti alla clean room possono condividere in modo sicuro i dati dai loro data lake con altri partecipanti senza alcuna replica dei dati tra cloud o aree geografiche. I tuoi dati restano con te e non sono vincolati a nessuna piattaforma. Inoltre, i partecipanti alla clean room possono verificare e monitorare a livello centralizzato l'utilizzo dei loro dati.
Supporto completo per l'esecuzione di workload e linguaggi arbitrari: la Databricks Lakehouse platform offre ai partecipanti della clean room la flessibilità di eseguire qualsiasi elaborazione complessa, come il machine learning o i workload di dati, in qualsiasi linguaggio — SQL, R, Scala, Java, Python — sui dati.
Facilmente scalabile con un'esperienza di onboarding guidata: Le clean room sulla Databricks Lakehouse Platform sono facilmente scalabili per più partecipanti su qualsiasi cloud o regione. È facile iniziare e guidare i partecipanti attraverso i casi d'uso comuni utilizzando Template predefiniti (ad es. Job, flussi di lavoro, dashboard), riducendo il tempo necessario per ottenere informazioni dettagliate.
Protezione della privacy con controlli di accesso granulari: con Unity Catalog, è possibile abilitare controlli di accesso granulari sui dati e soddisfare i requisiti di privacy. La governance integrata consente ai partecipanti di avere il pieno controllo su query o Job che possono essere eseguiti sui loro dati. Tutte le query o i job sui dati vengono eseguiti su un compute attendibile ospitato da Databricks. I partecipanti non hanno mai accesso ai dati grezzi degli altri partecipanti, garantendo la privacy dei dati. I partecipanti possono anche sfruttare framework di privacy differenziale open source o di terze parti, rendendo la clean room a prova di futuro.
Per saperne di più sulle data clean room su Databricks Lakehouse, contatta i rappresentanti del tuo account Databricks.
Prova il tour del prodotto Clean Room per aiutare le aziende a collaborare in modo sicuro con clienti e partner su qualsiasi piattaforma cloud, garantendo privacy e sicurezza.
Produto
June 12, 2024/11 min de leitura

