Revenir au contenu principal

Top 10 des questions que vous avez posées sur les Databricks Clean Rooms, et leurs réponses

La collaboration de données respectueuse de la confidentialité simplifiée avec Databricks Clean Rooms

Top 10 Questions You Asked About Databricks Clean Rooms, Answered

Published: December 18, 2025

Produit8 min de leitura

Summary

  • Collaborez avec des partenaires sur des données sensibles sans exposer les enregistrements bruts.
  • Utilisez Delta Sharing pour importer des données externes, telles que Snowflake ou BigQuery, dans une Clean Room.
  • Prend en charge des cas d'usage tels que la résolution d'identité, la publicité, la santé et la finance.

La collaboration sur les données est la pierre angulaire de l'innovation moderne en matière d'IA, surtout lorsque les organisations collaborent avec des Partenaires externes pour dégager de nouveaux insights. Cependant, la confidentialité des données et la protection de la propriété intellectuelle restent des défis majeurs pour permettre la collaboration tout en protégeant les données sensibles.

Pour combler cette lacune, des clients de tous les Secteurs d'activité utilisent les Databricks Clean Rooms pour exécuter des analyses partagées sur des données sensibles et permettre une collaboration axée sur la confidentialité.

Vous trouverez ci-dessous les 10 questions les plus fréquemment posées sur les Clean Rooms. Ces ressources expliquent ce que sont les Clean Rooms, comment elles protègent les données et la propriété intellectuelle, comment elles fonctionnent sur différents clouds et plateformes, et comment démarrer. Allons-y.

1. Qu'est-ce qu'une “data clean room” ?

Une data clean room est un environnement sécurisé où vous et vos Partenaires pouvez travailler ensemble sur des données sensibles pour en extraire des insights utiles, sans partager les données brutes sous-jacentes et sensibles.

Dans Databricks, vous créez une clean room, ajoutez les assets que vous souhaitez utiliser et exécutez uniquement les Notebooks approuvés dans un environnement isolé, sécurisé et gouverné.

Databricks Clean Rooms

2. Quels sont quelques exemples de cas d'utilisation des clean rooms ?

Les clean rooms sont utiles lorsque plusieurs parties doivent analyser des données sensibles sans partager leurs données brutes. Cela est souvent dû à des réglementations en matière de confidentialité, à des contrats ou à la protection de la propriété intellectuelle.

Elles sont utilisées dans de nombreux Secteurs d'activité, notamment la publicité, la santé, la finance, le secteur public, les transports et la monétisation des données.

Voici quelques exemples :

Publicité et marketing: résolution d'identité sans exposer les PII, planification et mesure des campagnes, monétisation des données pour le retail media et collaboration entre marques.

  • Des partenaires tels que Epsilon, The Trade Desk, Acxiom, LiveRamp et Deloitte utilisent les clean rooms Databricks pour la résolution d'identité.

Services financiers: Les banques, les compagnies d'assurance et les sociétés de cartes de crédit combinent leurs données pour améliorer leurs opérations, la détection des fraudes et leurs analyses.

  • Exemples : Mastercard utilise des clean rooms pour faire correspondre et analyser des données PII à des fins de détection de la fraude ; Intuit fait correspondre en toute sécurité les données des emprunteurs avec celles des prêteurs pour trouver des emprunteurs qualifiés.

Les clean rooms protègent les données client tout en permettant la collaboration et l'enrichissement de données.

3. Quels types d'assets de données puis-je partager dans une clean room ?

Vous pouvez partager un large éventail d'actifs gérés par Unity Catalog dans les Databricks Clean Rooms :

  • Tables (gérées, externes et étrangères) : données structurées telles que des transactions, des événements ou des profils client.
  • Vues: des extraits filtrés ou agrégés de vos tables.
  • Volumes: des fichiers tels que des images, des fichiers audio, des documents ou des bibliothèques de code privées.
  • Notebooks: des notebooks SQL ou Python qui définissent l'analyse que vous souhaitez exécuter.

Voici à quoi cela ressemble en pratique :

  • Un détaillant, une marque de CPG et une société d'études de marché partagent des vues anonymisées incluant : des ID client hachés, des métriques de vente agrégées et des données démographiques régionales pour analyser conjointement la portée de la campagne.
  • Une plateforme de streaming et une agence de publicité partagent des tables d'impressions de campagne et un notebook qui calcule des métriques d'audience multiplateforme.
  • Une banque et un partenaire fintech partagent des volumes contenant des modèles de ML de risque et de fraude et utilisent un notebook pour évaluer conjointement les modèles tout en gardant les enregistrements individuels privés.

4. Comment cela se compare-t-il à Delta Sharing ? Pourquoi utiliser une salle blanche à la place ?

Vois les choses de cette façon : Le partage Delta est le bon choix lorsqu'une partie a besoin d'un accès en lecture seule aux données dans son propre environnement et qu'il est acceptable qu'elle puisse voir les enregistrements sous-jacents.

Les Clean Rooms ajoutent un espace sécurisé et contrôlé pour l'analyse multipartite lorsque les données doivent rester privées. Les Partenaires peuvent joindre des assets de données, exécuter du code approuvé d'un commun accord et ne renvoyer que les résultats sur lesquels toutes les parties s'accordent. Cela est utile lorsque vous devez respecter des garanties de confidentialité strictes ou prendre en charge des workflows réglementés. En fait, les données partagées dans les Clean Rooms utilisent toujours le protocole Delta Sharing en coulisses.

Par exemple, un détaillant pourrait utiliser Delta Sharing pour donner à un fournisseur un accès en lecture seule à une table de ventes afin qu'il puisse voir comment les produits se vendent. Ce même binôme utiliserait une Clean Room lorsqu'il aurait besoin de joindre des données plus riches et plus sensibles provenant des deux parties (comme les caractéristiques des clients ou un inventaire détaillé), d'exécuter des Notebooks approuvés et de ne partager que des résultats agrégés tels que les Prévisions de la demande ou les articles les plus à risque.

5. Comment les données sensibles et l'IP sont-elles protégées dans la clean room ?

Les Clean Rooms sont conçues pour que vos partenaires ne voient jamais vos données brutes ou votre IP. Vos données restent dans votre propre Unity Catalog, et vous ne partagez que des assets spécifiques dans la clean room via Delta Sharing, qui est contrôlé par des Notebooks approuvés.

Pour appliquer ces protections dans une clean room :

  • Les collaborateurs ne voient que les schémas (noms et types de colonnes), et non les données réelles au niveau des lignes.
  • Seuls les Notebooks que vous et vos Partenaires approuvez peuvent s'exécuter sur un compute serverless dans un environnement isolé.
  • Les notebooks écrivent dans des tables de sortie temporaires, vous contrôlez donc exactement ce qui quitte la clean room.
  • Le trafic réseau sortant est limité par des contrôles de sortie serverless (SEG).
  • Pour protéger la propriété intellectuelle ou le code propriétaire, vous pouvez packager votre logique sous forme de bibliothèque privée, la stocker dans un volume Unity Catalog et y faire référence dans des Notebooks de clean room sans révéler votre code source.

6. Les collaborateurs sur différents clouds peuvent-ils rejoindre la même clean room ?

Oui. Les Clean Rooms sont conçues pour la collaboration multi-cloud et interrégionale tant que chaque participant dispose d'un workspace compatible avec Unity Catalog et que Delta Sharing est activé sur son metastore. Cela signifie qu'une organisation utilisant Databricks sur Azure peut collaborer dans une clean room avec des partenaires sur AWS ou GCP.

Collaborateur Clean Rooms

7. Puis-je importer des données provenant de Snowflake, BigQuery ou d'autres plateformes dans une clean room ?

Oui, absolument. Lakehouse Federation expose les systèmes externes tels que Snowflake, BigQuery et les entrepôts traditionnels en tant que catalogues étrangers dans Unity Catalog (UC). Une fois les tables externes disponibles dans UC, vous pouvez les partager dans la clean room de la même manière que vous partagez n'importe quelle autre table ou vue.

Voici comment cela fonctionne dans les grandes lignes : vous utilisez Lakehouse Federation pour créer des connexions et des catalogues externes qui exposent des sources de données externes dans Unity Catalog, sans avoir à copier toutes ces données dans Databricks. Une fois que ces tables externes sont disponibles dans Unity Catalog, vous pouvez les partager dans une Clean Room, tout comme n'importe quelle autre table ou vue gérée par Unity Catalog.

8. Comment puis-je exécuter une analyse personnalisée sur des données jointes ?

Dans une clean room, vous faites presque tout via des Notebooks. Vous ajoutez un notebook SQL ou Python qui inclut le code de l'analyse que vous souhaitez, vos partenaires examinent et approuvent le notebook, et il peut ensuite être exécuté.

Comment exécuter une analyse personnalisée sur des données jointes

Cas simple : vous pourriez avoir un notebook SQL qui compte les ID hachés qui se chevauchent entre les achats d'un commerçant et les impressions d'un partenaire média, puis qui produit la portée, la fréquence et la conversion.

Pour aller plus loin : vous utilisez un notebook Python pour joindre des caractéristiques des deux côtés, entraîner ou évaluer un modèle sur les données combinées, et écrire les prédictions dans une table de sortie. Le coureur approuvé voit les sorties, mais personne ne voit les enregistrements bruts de l'autre partie.

9. Comment fonctionne la collaboration multipartite ?

Dans une Clean Room Databricks, vous pouvez réunir jusqu'à 10 organisations (vous et 9 partenaires) pour travailler ensemble dans un environnement sécurisé unique, même si vous utilisez des clouds ou des plateformes de données différents. Chaque équipe conserve ses données dans son propre Unity Catalog et ne partage que les tables, vues ou fichiers spécifiques qu'elle souhaite utiliser dans la clean room.

Une fois que toutes les parties sont présentes, chacune peut proposer des notebooks SQL ou Python, qui doivent être approuvés avant d'être exécutés, afin que toutes les parties soient à l'aise avec la logique.

10. Bon, tout ça m'a l'air bien. Comment démarrer ?

Voici une façon simple de commencer :

  • Vérifiez que Unity Catalog, Delta Sharing et le calcul serverless sont activés dans votre espace de travail.
  • Créez un objet Clean Room dans votre metastore Unity Catalog et invitez vos partenaires avec leurs identifiants de partage.
  • Chaque partie ajoute les assets de données et les notebooks sur lesquels elle souhaite collaborer.
  • Une fois que tout le monde a approuvé les Notebooks, exécutez votre analyse et examinez les résultats dans votre propre metastore.

Regardez cette vidéo pour en savoir plus sur la création de Clean Room et sa prise en main.

Ne manquez jamais un article Databricks

Abonnez-vous à notre blog et recevez les derniers articles dans votre boîte mail.

Et ensuite ?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks