Nous sommes ravis d'annoncer les data clean rooms pour le Lakehouse, qui permettent aux entreprises de collaborer facilement avec leurs clients et partenaires sur n'importe quel cloud, tout en préservant la confidentialité des données. Les participants aux data clean rooms peuvent partager et joindre leurs données existantes, et exécuter des workloads complexes dans n'importe quel langage (Python, R, SQL, Java et Scala) sur ces données, tout en préservant leur confidentialité.
Avec une demande de données externes plus forte que jamais, les organisations cherchent des moyens d'échanger leurs données en toute sécurité et de consommer des données externes pour encourager les innovations data-driven. Historiquement, les organisations ont utilisé des Solutions de Data Sharing pour partager des données avec leurs Partenaires et se sont fiées à la confiance mutuelle pour préserver la confidentialité des données. Mais les organisations abandonnent le contrôle des données une fois qu'elles sont partagées et n'ont que peu ou pas de visibilité sur la manière dont les données sont consommées par leurs partenaires sur diverses plateformes. Cela expose à des risques d'utilisation abusive des données et de violation de la confidentialité des données. Avec des réglementations strictes en matière de confidentialité des données, il est impératif pour les organisations d'avoir le contrôle et la visibilité sur la manière dont leurs données sensibles sont consommées. Par conséquent, les organisations ont besoin d'un moyen sécurisé, contrôlé et privé de collaborer sur les données, et c'est là que les data clean rooms entrent en jeu.
Ce blog traitera des data clean rooms, de la demande pour celles-ci et de notre vision d'une data clean room évolutive sur la plateforme Databricks Lakehouse.
Une salle blanche de données fournit un environnement sécurisé, gouverné et respectueux de la vie privée, dans lequel plusieurs participants peuvent joindre leurs données first-party et effectuer des analyses sur les données, sans risquer de les exposer à d'autres participants. Les participants ont un contrôle total sur leurs données et peuvent décider quels participants peuvent effectuer quelles analyses sur leurs données sans exposer de données sensibles telles que les informations personnelles identifiables (IPI).
Les data clean rooms ouvrent un large éventail de cas d'usage dans de nombreux Secteurs d'activité. Par exemple, les entreprises de biens de consommation (CPG) peuvent constater une augmentation de leurs ventes en associant leurs données publicitaires first-party aux données transactionnelles de point de vente (PDV) de leurs partenaires de distribution. Dans le secteur des médias, les annonceurs et les responsables marketing peuvent diffuser des publicités plus ciblées, avec une plus grande portée, une meilleure segmentation et une plus grande transparence sur l'efficacité publicitaire, tout en protégeant la confidentialité des données. Les entreprises de services financiers peuvent collaborer sur l'ensemble de la chaîne de valeur pour mettre en place des stratégies proactives de détection de la fraude ou de lutte contre le blanchiment d'argent. En effet, IDC prédit que d'ici 2024, 65 % des entreprises du G2000 formeront des partenariats de Data Sharing avec des parties prenantes externes via des data clean rooms pour accroître leur interdépendance tout en protégeant la confidentialité des données.
Examinons quelques-unes des raisons majeures qui expliquent la demande de salles blanches :
Évolution rapide du paysage de la sécurité, de la conformité et de la confidentialité: Des réglementations strictes en matière de confidentialité des données, telles que le RGPD et le CCPA, ainsi que des changements radicaux dans la mesure par des tiers, ont transformé la manière dont les organisations collectent, utilisent et partagent les données, en particulier pour les cas d'usage publicitaires et marketing. Par exemple, le cadre App Tracking Transparency (ATT) d'Apple offre aux utilisateurs d'appareils Apple la liberté et la flexibilité de refuser facilement le suivi des applications. Google prévoit également de supprimer progressivement la prise en charge des cookies tiers dans Chrome d'ici la fin de 2023. À mesure que ces lois et pratiques en matière de confidentialité évoluent, la demande de data clean rooms devrait augmenter, car le secteur s'oriente vers de nouveaux identifiants basés sur des PII, tels que l'UID 2.0. Les organisations chercheront de nouvelles solutions pour joindre les données avec leurs partenaires d'une manière axée sur la confidentialité afin d'atteindre leurs objectifs commerciaux dans la réalité sans cookies.
Collaboration dans un écosystème de données fragmenté: aujourd'hui, les consommateurs disposent de plus d'options que jamais en ce qui concerne le lieu, le moment et la manière dont ils interagissent avec le contenu. Par conséquent, l'empreinte digital des consommateurs est fragmentée sur différentes plateformes, ce qui oblige les entreprises à collaborer avec leurs Partenaires pour créer une vue unifiée des besoins et des exigences de leurs clients. Pour faciliter la collaboration entre les organisations, les clean rooms offrent un moyen sécurisé et privé de combiner leurs données avec d'autres données pour révéler de nouveaux insights ou fonctionnalités.
De nouvelles façons de monétiser les données: la plupart des organisations ont déjà mis en place ou cherchent à développer des stratégies de monétisation pour leurs données ou leur IP existantes. Avec les lois actuelles sur la protection de la vie privée, les entreprises essaient de trouver tous les avantages possibles pour monétiser leurs données sans risquer d'enfreindre les règles de confidentialité. Cela crée une opportunité pour les fournisseurs ou les éditeurs de données de joindre des données pour l'Analytique Big Data sans avoir un accès direct aux données.
Alors que les organisations explorent diverses solutions de clean rooms, les solutions existantes présentent des lacunes flagrantes, qui ne permettent pas d'exploiter tout le potentiel des "clean rooms" et ne répondent pas aux exigences commerciales des organisations.
Déplacement et réplication des données: les fournisseurs de salles blanches de données existants exigent que les participants déplacent leurs données vers les plateformes des fournisseurs, ce qui entraîne un verrouillage de la plateforme et des coûts de stockage de données supplémentaires pour les participants. De plus, la préparation des données dans un format standardisé avant d'effectuer une analyse sur les données agrégées prend beaucoup de temps pour les participants. En outre, les participants doivent répliquer les données sur différents clouds et régions pour faciliter les collaborations avec des participants se trouvant sur d'autres clouds et régions, ce qui entraîne une surcharge opérationnelle et financière.
Limité à SQL: Les solutions de clean room existantes n'offrent pas beaucoup de flexibilité pour exécuter des charges de travail et des analyses arbitraires et sont souvent limitées à de simples instructions SQL. Bien que SQL soit puissant et absolument nécessaire pour les clean rooms, il y a des moments où vous avez besoin de calculs complexes tels que le machine learning, l'intégration avec des APIs ou d'autres charges de travail d'analyse pour lesquels SQL ne suffit tout simplement pas.
Difficile de monter en charge: la plupart des solutions de clean room existantes sont liées à un seul fournisseur et ne sont pas assez évolutives pour étendre la collaboration au-delà de deux participants à la fois. Par exemple, un annonceur peut vouloir obtenir une vue détaillée des performances de ses annonces sur différentes plateformes, ce qui nécessite l'analyse des données agrégées provenant de plusieurs éditeurs de données. Avec une collaboration limitée à seulement deux participants, les organisations obtiennent des insights partiels sur une plateforme de clean room et finissent par déplacer leurs données vers un autre fournisseur de clean room, ce qui entraîne la surcharge opérationnelle de la collecte manuelle des insights partiels.
La plateforme Databricks Lakehouse fournit un ensemble complet d'outils pour créer, servir et déployer une salle blanche de données évolutive et flexible en fonction de vos exigences en matière de confidentialité et de gouvernance des données.
Partage de données sécurisé sans réplication: avec Delta Sharing, les participants à la clean room peuvent partager des données en toute sécurité à partir de leurs data lakes avec d'autres participants sans aucune réplication de données entre les clouds ou les régions. Vos données restent en votre possession et ne sont pas verrouillées dans une plateforme. De plus, les participants à la clean room peuvent auditer et surveiller de manière centralisée l'utilisation de leurs données.
Prise en charge complète pour exécuter des charges de travail et des langages arbitraires: La Databricks Lakehouse platform offre aux participants de la clean room la flexibilité d'exécuter des calculs complexes tels que des charges de travail de machine learning ou de données dans n'importe quel langage (SQL, R, Scala, Java, Python) sur les données.
Facilement évolutif avec une expérience d'intégration guidée: les salles blanches sur la plateforme Databricks Lakehouse sont facilement évolutives pour plusieurs participants sur n'importe quel cloud ou région. Il est facile de start et de guider les participants à travers des cas d'utilisation courants à l'aide de Templates prédéfinis (par ex., jobs, workflows, tableaux de bord), ce qui réduit le délai d'obtention d'insights.
Respect de la vie privée avec des contrôles d'accès granulaires: avec Unity Catalog, vous pouvez activer des contrôles d'accès granulaires sur les données et répondre à vos exigences en matière de confidentialité. La gouvernance intégrée permet aux participants d'avoir un contrôle total sur les queries ou les Jobs qui peuvent être exécutées sur leurs données. Toutes les requêtes ou tous les jobs sur les données sont exécutés sur le compute de confiance hébergé par Databricks. Les participants n'ont jamais accès aux données brutes des autres participants, ce qui garantit la confidentialité des données. Les participants peuvent également tirer parti de frameworks de confidentialité différentielle open source ou tiers, ce qui rend votre salle blanche pérenne.
Pour en savoir plus sur les data clean rooms sur Databricks Lakehouse, veuillez contacter vos représentants de compte Databricks.
Essayez la visite du produit Clean Room pour aider les entreprises à collaborer en toute sécurité avec leurs clients et partenaires sur n'importe quelle plateforme cloud, en garantissant la confidentialité et la sécurité.
Produto
June 12, 2024/11 min de leitura

