La collaboration sur les données est la pierre angulaire de l'innovation moderne en matière d'IA, surtout lorsque les organisations collaborent avec des Partenaires externes pour dégager de nouveaux insights. Cependant, la confidentialité des données et la protection de la propriété intellectuelle restent des défis majeurs pour permettre la collaboration tout en protégeant les données sensibles.
Pour combler cette lacune, des clients de tous les Secteurs d'activité utilisent les Databricks Clean Rooms pour exécuter des analyses partagées sur des données sensibles et permettre une collaboration axée sur la confidentialité.
Vous trouverez ci-dessous les 10 questions les plus fréquemment posées sur les Clean Rooms. Ces ressources expliquent ce que sont les Clean Rooms, comment elles protègent les données et la propriété intellectuelle, comment elles fonctionnent sur différents clouds et plateformes, et comment démarrer. Allons-y.
Une data clean room est un environnement sécurisé où vous et vos Partenaires pouvez travailler ensemble sur des données sensibles pour en extraire des insights utiles, sans partager les données brutes sous-jacentes et sensibles.
Dans Databricks, vous créez une clean room, ajoutez les assets que vous souhaitez utiliser et exécutez uniquement les Notebooks approuvés dans un environnement isolé, sécurisé et gouverné.
Les clean rooms sont utiles lorsque plusieurs parties doivent analyser des données sensibles sans partager leurs données brutes. Cela est souvent dû à des réglementations en matière de confidentialité, à des contrats ou à la protection de la propriété intellectuelle.
Elles sont utilisées dans de nombreux Secteurs d'activité, notamment la publicité, la santé, la finance, le secteur public, les transports et la monétisation des données.
Voici quelques exemples :
Publicité et marketing: résolution d'identité sans exposer les PII, planification et mesure des campagnes, monétisation des données pour le retail media et collaboration entre marques.
Services financiers: Les banques, les compagnies d'assurance et les sociétés de cartes de crédit combinent leurs données pour améliorer leurs opérations, la détection des fraudes et leurs analyses.
Les clean rooms protègent les données client tout en permettant la collaboration et l'enrichissement de données.
Vous pouvez partager un large éventail d'actifs gérés par Unity Catalog dans les Databricks Clean Rooms :
Voici à quoi cela ressemble en pratique :
Vois les choses de cette façon : Le partage Delta est le bon choix lorsqu'une partie a besoin d'un accès en lecture seule aux données dans son propre environnement et qu'il est acceptable qu'elle puisse voir les enregistrements sous-jacents.
Les Clean Rooms ajoutent un espace sécurisé et contrôlé pour l'analyse multipartite lorsque les données doivent rester privées. Les Partenaires peuvent joindre des assets de données, exécuter du code approuvé d'un commun accord et ne renvoyer que les résultats sur lesquels toutes les parties s'accordent. Cela est utile lorsque vous devez respecter des garanties de confidentialité strictes ou prendre en charge des workflows réglementés. En fait, les données partagées dans les Clean Rooms utilisent toujours le protocole Delta Sharing en coulisses.
Par exemple, un détaillant pourrait utiliser Delta Sharing pour donner à un fournisseur un accès en lecture seule à une table de ventes afin qu'il puisse voir comment les produits se vendent. Ce même binôme utiliserait une Clean Room lorsqu'il aurait besoin de joindre des données plus riches et plus sensibles provenant des deux parties (comme les caractéristiques des clients ou un inventaire détaillé), d'exécuter des Notebooks approuvés et de ne partager que des résultats agrégés tels que les Prévisions de la demande ou les articles les plus à risque.
Les Clean Rooms sont conçues pour que vos partenaires ne voient jamais vos données brutes ou votre IP. Vos données restent dans votre propre Unity Catalog, et vous ne partagez que des assets spécifiques dans la clean room via Delta Sharing, qui est contrôlé par des Notebooks approuvés.
Pour appliquer ces protections dans une clean room :
Oui. Les Clean Rooms sont conçues pour la collaboration multi-cloud et interrégionale tant que chaque participant dispose d'un workspace compatible avec Unity Catalog et que Delta Sharing est activé sur son metastore. Cela signifie qu'une organisation utilisant Databricks sur Azure peut collaborer dans une clean room avec des partenaires sur AWS ou GCP.

Oui, absolument. Lakehouse Federation expose les systèmes externes tels que Snowflake, BigQuery et les entrepôts traditionnels en tant que catalogues étrangers dans Unity Catalog (UC). Une fois les tables externes disponibles dans UC, vous pouvez les partager dans la clean room de la même manière que vous partagez n'importe quelle autre table ou vue.
Voici comment cela fonctionne dans les grandes lignes : vous utilisez Lakehouse Federation pour créer des connexions et des catalogues externes qui exposent des sources de données externes dans Unity Catalog, sans avoir à copier toutes ces données dans Databricks. Une fois que ces tables externes sont disponibles dans Unity Catalog, vous pouvez les partager dans une Clean Room, tout comme n'importe quelle autre table ou vue gérée par Unity Catalog.
Dans une clean room, vous faites presque tout via des Notebooks. Vous ajoutez un notebook SQL ou Python qui inclut le code de l'analyse que vous souhaitez, vos partenaires examinent et approuvent le notebook, et il peut ensuite être exécuté.

Cas simple : vous pourriez avoir un notebook SQL qui compte les ID hachés qui se chevauchent entre les achats d'un commerçant et les impressions d'un partenaire média, puis qui produit la portée, la fréquence et la conversion.
Pour aller plus loin : vous utilisez un notebook Python pour joindre des caractéristiques des deux côtés, entraîner ou évaluer un modèle sur les données combinées, et écrire les prédictions dans une table de sortie. Le coureur approuvé voit les sorties, mais personne ne voit les enregistrements bruts de l'autre partie.
Dans une Clean Room Databricks, vous pouvez réunir jusqu'à 10 organisations (vous et 9 partenaires) pour travailler ensemble dans un environnement sécurisé unique, même si vous utilisez des clouds ou des plateformes de données différents. Chaque équipe conserve ses données dans son propre Unity Catalog et ne partage que les tables, vues ou fichiers spécifiques qu'elle souhaite utiliser dans la clean room.
Une fois que toutes les parties sont présentes, chacune peut proposer des notebooks SQL ou Python, qui doivent être approuvés avant d'être exécutés, afin que toutes les parties soient à l'aise avec la logique.
Voici une façon simple de commencer :
Regardez cette vidéo pour en savoir plus sur la création de Clean Room et sa prise en main.
Produto
June 12, 2024/11 min de leitura

