Les applications Databricks Marketplace et les Packaged Clean Rooms permettent aux fournisseurs de données de distribuer leur IP sous forme d'applications installables, conservant ainsi les données des marques là où elles doivent être.
par Sridhar Sundaresan et Suvan Kaul
Les marques investissent massivement dans la création d'actifs de données de premier niveau (first-party), notamment l'historique des achats, les dossiers CRM, les programmes de fidélité et les interactions sur le site web. Ces données sont fragmentées entre les systèmes et difficiles à activer sur l'ensemble des canaux. Cependant, les données first-party seules ne racontent qu'une partie de l'histoire.
Pour créer des profils d'audience complets, les marques doivent faire correspondre leurs enregistrements avec les structures (spines) des fournisseurs d'identité afin d'obtenir des graphes d'identité multicanaux couvrant les e-mails, les ID d'appareils, les cookies et les points de contact hors ligne.
L'approche traditionnelle est laborieuse. Les marques exportent les dossiers clients vers une plateforme tierce, le fournisseur d'identité exécute ses algorithmes de correspondance, et les résultats reviennent quelques jours plus tard. Chaque étape présente un risque : les données quittent l'environnement sécurisé de la marque, les PII transitent sur les réseaux, et les équipes de conformité doivent examiner des accords de partage de données dont la négociation peut prendre des semaines.
Dans le même temps, les réglementations sur la confidentialité et les restrictions des plateformes ont rendu :
Cela crée un fossé fondamental : les marques disposent de données mais n'ont pas la capacité de les connecter en toute sécurité à une couche d'identité unifiée
Pour y remédier, les marques doivent :
The Marketing Cloud, une agence mondiale de services marketing du groupe Stagwell, a fait l'expérience directe de ces frictions avec ses marques clientes. Ils ont encouragé un meilleur modèle : un modèle dans lequel les marques pourraient accéder aux capacités de correspondance d'identité de Stagwell sans jamais envoyer leurs données brutes en dehors de leur propre infrastructure.
Les implémentations traditionnelles de clean rooms nécessitent beaucoup d'interventions manuelles, une ingénierie lourde et peuvent être lentes à déployer.
Databricks Marketplace Apps inversent le modèle traditionnel de partage de données. Au lieu de « envoyez-nous vos données et nous les traiterons », le modèle devient « installez notre application et elle s'exécutera là où se trouvent déjà vos données ». Les marques peuvent désormais installer une application pré-intégrée, connecter leurs données et exécuter instantanément des workflows de correspondance d'identité.
Lorsqu'une application est publiée sur le Databricks Marketplace, toute marque disposant d'un espace de travail Databricks peut demander à y accéder et l'installer directement. L'application s'exécute au sein de l'environnement propre de la marque avec son propre principal de service auto-provisionné. Les données de la marque ne franchissent jamais les limites du réseau.
Il s'agit d'un changement fondamental pour les fournisseurs de données. Auparavant, la distribution d'algorithmes propriétaires signifiait soit exposer le code source (ce que les partenaires refusent de faire), soit exiger des marques qu'elles exportent leurs données (ce à quoi les équipes de conformité s'opposent). Les applications du Marketplace résolvent ces deux problèmes : le code de l'application est conteneurisé et opaque pour l'utilisateur, tandis que les données de la marque restent dans leur Unity Catalog.
Avec la distribution via le marketplace, le temps de déploiement passe de plusieurs mois à quelques minutes, les workflows standardisés améliorent la facilité d'utilisation et la gouvernance est intégrée à la plateforme. Stagwell a été l'un des premiers partenaires à mettre ce modèle en production.
Stagwell a développé sur Databricks une application de clean room prête pour le marketplace qui permet l'ingestion sécurisée des données first-party des marques, la correspondance avec la Stagwell Identity Spine, la génération d'insights respectueux de la confidentialité et une transition fluide vers la création et l'activation d'audiences.
À la base, le système combine les Databricks Clean Rooms pour une collaboration sécurisée, Unity Catalog pour la gouvernance et le contrôle des accès, des Jobs et des Notebooks pour l'exécution de la correspondance d'identité, ainsi qu'une couche applicative React et Express pour l'expérience utilisateur.

Voici comment fonctionne le flux de bout en bout.
L'application utilise quatre couches d'identité distinctes, chacune étant adaptée à son objectif :
Jeton d'utilisateur On-Behalf-Of (OBO) - Lorsque l'utilisateur de la marque se connecte, l'application reçoit son jeton OAuth via l'en-tête x-forwarded-access-token. Ce jeton est utilisé pour toute opération qui touche aux données de la marque : prévisualisation des tables, requêtage du SQL warehouse, récupération de l'identifiant de partage de la marque. Les ACL de Unity Catalog s'appliquent en fonction de l'identité de l'utilisateur.
Principal de service de l'application - Le SP provisionné automatiquement gère les opérations au niveau de l'application : la télémétrie, la gestion de l'état interne et les appels à l'API backend de Stagwell. Cette identité est limitée à l'application elle-même et ne détient pas d'autorisations au niveau de l'utilisateur.
Principal de service backend de Stagwell - Les propres identifiants OAuth M2M de Stagwell gèrent le cycle de vie de la clean room de leur côté : création de la clean room, ajout d'actifs, contribution de notebooks et désignation de la marque en tant que runner.
Jeton d'accès personnel (PAT) de l'utilisateur de la marque - Le collaborateur de la clean room de la marque génère un PAT restreint avec des autorisations pour la clean room, SQL et Unity Catalog, et le fournit lors de l'installation de l'application via une liaison de ressource secrète. Ce jeton porte l'identité de l'utilisateur qui l'a généré, ce qui signifie qu'il fonctionne nativement sur l'ensemble des espaces de travail et permet des opérations nécessitant une autorisation au niveau de la clean room du côté de la marque, comme l'ajout de tables de marque et l'exécution du notebook de correspondance.
Les clean rooms standards nécessitent une étape d'approbation : le collaborateur examine et approuve avant que tout notebook puisse être exécuté. Cela est logique pour les partenariats ad hoc, mais cela crée des frictions pour un modèle de distribution sur le Marketplace où des centaines de marques pourraient installer la même application.
Les Packaged Clean Rooms éliminent ces frictions. Lorsque Stagwell crée une clean room désignée comme une clean room packagée, la marque peut exécuter des notebooks immédiatement après la configuration de la clean room. Pas de file d'attente d'approbation, pas d'allers-retours, pas de retards.
C'est ce qui rend le modèle de Marketplace viable à grande échelle. Une marque installe l'application, connecte ses données et exécute sa première correspondance d'identité en quelques minutes, et non en plusieurs semaines.
Le secteur connaît une transition fondamentale, passant du partage de données statiques, de l'intégration manuelle et des intégrations à haut risque vers une collaboration sécurisée et gouvernée, une résolution d'identité à la demande et des workflows de données industrialisés.
L'application de Stagwell illustre un modèle que tout fournisseur de données peut suivre. Considérez les possibilités suivantes :
Dans chaque cas, la proposition de valeur est la même : le fournisseur de données monétise sa propriété intellectuelle (IP) via le Marketplace, tandis que le consommateur obtient des insights et active des audiences sans la lourdeur de conformité liée au partage de données.
L'approche de Stagwell illustre comment la profondeur des données amplifie ce modèle. Leur ID Spine combine des signaux comportementaux avec des données d'attitude provenant de The Harris Poll, Harris Quest Brand et National Research Group, associant ce que font les consommateurs à ce qu'ils pensent pour offrir une qualité d'audience qui va au-delà de la correspondance d'identité standard.
Pour les marques, cela se traduit par un délai d'obtention des insights plus rapide, une meilleure compréhension de l'audience, une conformité renforcée en matière de confidentialité et de nouvelles façons d'activer leurs données de première partie (first-party). Pour l'écosystème, les clean rooms et les marketplaces deviennent le système d'exploitation de la collaboration de données.
Les briques de base font toutes partie de la plateforme Databricks : Unity Catalog pour la gouvernance, Marketplace pour la distribution, Packaged Clean Rooms pour le calcul respectueux de la confidentialité, Delta Sharing pour la diffusion des résultats et Databricks Apps pour l'environnement d'exécution. La nouveauté réside dans la façon dont ils s'assemblent pour former un canal de distribution complet pour les applications basées sur les données.
L'avenir de l'identité ne se résume pas à de meilleurs graphes : il s'agit de rendre la résolution d'identité accessible, sécurisée et évolutive grâce à des expériences industrialisées. Et c'est exactement ce que permettent les applications de clean room basées sur le Marketplace.
Si vous êtes un fournisseur de données souhaitant distribuer vos algorithmes et modèles via le Databricks Marketplace, voici la marche à suivre :
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.