データコラボレーションは現代の AI イノベーションのバックボーンであり、特に組織が外部パートナーと協力して新しい知見を引き出す上で重要です。しかし、機密データを保護しながらコラボレーションを可能にする上で、データプライバシーと知的財産の保護は依然として大きな課題です。このギャップを埋めるため、さまざまな業界の顧客が Databricks Clean Roomsを使用して機密データに関する共有分析を行い、プライバシーを優先したコラボレーションを実現しています。クリーンルームに関するよくある10の質問を以下にまとめました。これらの質問では、クリーンルームの概要、データとIPの保護方法、クラウドやプラットフォームをまたいだ連携、利用開始までの流れなどを解説します。早速見ていきましょう。1. 「データクリーンルーム」とは何ですか?データクリーンルームは、機密性の高い生データを互いに渡さずに、パートナーと協調して分析し、インサイトだけを引き出せるセキュアな環境です。Databricksでは、まずクリーンルームを作成して利用したいテーブルやノートブックなどを登録し、その中で相互に承認されたノートブックだけを、分離された安全・統制された実行環境で動かします。2. クリーンルームのユースケースの例には、どのようなものがありますか?クリーンルームは、複数の関係者が生データを共有することなく、機密データを分析する必要がある場合に役立ちます。これは多くの場合、プライバシー規制、契約、または知的財産の保護が理由です。これらは、広告、ヘルスケア、金融、政府、運輸、データ収益化など、多くの業界で利用されています。例として、次のようなものがあります。広告とマーケティング: PIIを公開しないID解決、キャンペーンの計画と測定、リテールメディアのデータ収益化、ブランドコラボレーション。Epsilon、The Trade Desk、Acxiom、LiveRamp、Deloitteなどのパートナーは、Databricksのクリーンルームを利用してID解決を行っています。金融サービス: 銀行、保険会社、クレジットカード会社がデータを組み合わせて、業務改善、不正検知、分析を行っています。例: Mastercardはクリーンルームを使用してPIIデータを照合・分析し、不正検知を行っています。Intuitは借り手のデータを貸し手と安全に照合し、適格な借り手を見つけています。クリーンルームは、コラボレーションとデータエンリッチメントを可能にしながら、顧客データを保護します。3. クリーンルームでは、どのようなデータアセットを共有できますか?Databricks Clean Roomsでは、Unity Catalogで管理されているさまざまなアセットを共有できます。テーブル (マネージド、外部、外部連携): トランザクション、イベント、顧客プロファイルなどの構造化データ。ビュー: テーブルをフィルタリングまたは集計したスライス。ボリューム: 画像、音声、ドキュメント、プライベートなコードライブラリなどのファイル。ノートブック: 実行したい分析を定義するSQLまたはPythonのノートブック。実際にどのように機能するかを以下に示します。小売業者、CPGブランド、市場調査会社が、ハッシュ化された顧客ID、集計されたメトリクス、地域の人口統計などを含む匿名化されたビューを共有し、キャンペーンのリーチを共同で分析します。ストリーミング プラットフォームと広告代理店が、キャンペーンのインプレッション テーブルと、クロスプラットフォームのオーディエンス メトリクスをコンピュートするノートブックを共有します。銀行とパートナーが、リスクおよび不正行為に関する機械学習モデルを含むボリュームを共有し、個々のレコードを非公開に保ちながら、ノートブックを使用してモデルを共同でスコアリングします。4. Delta Sharingとはどう違うのですか?なぜ代わりにクリーンルームを使うのでしょうか?このように考えてみてください。ある関係者が自身の環境でデータへの読み取り専用アクセスを必要とし、その関係者が基になるレコードを閲覧しても問題ない場合、Delta Sharingが適切な選択です。データを非公開にしておく必要がある場合に、クリーンルームは複数の関係者による分析のための安全で管理された空間を追加します。パートナーはデータアセットを結合し、相互に承認されたコードを実行し、全員が合意した出力のみを返すことができます。これは、厳格なプライバシー保証を満たす必要がある場合や、規制されたワークフローをサポートする場合に役立ちます。実際、クリーンルームで共有されるデータは、バックグラウンドで引き続きDelta Sharingプロトコルを使用しています。例えば、小売業者はDelta Sharingを使用して、サプライヤーに販売テーブルへの読み取り専用アクセス権を付与し、製品の売れ行きを確認できるようにします。同じ両者がクリーンルームを使用するのは、双方のよりリッチで機密性の高いデータ(顧客特性や詳細な在庫など)を結合し、承認されたノートブックを実行し、需要予測やリスクの高い上位品目などの集計された出力のみを共有する必要がある場合です。5. クリーンルームでは、機密データと IP はどのように保護されますか?クリーンルームは、パートナーが生データやIPを目にすることがないように構築されています。データは自社の Unity Catalog 内に保持され、クリーンルームには Delta Sharing を通じて限定したアセットのみを共有し、その利用は承認済みノートブックにより厳密に制御されます。これらの保護をクリーンルームで強制するために、次のような制御が提供されています:コラボレーターが参照できるのは、スキーマ(列名およびデータ型)のみであり、行レベルの実データにはアクセスできませんコラボレーター間で承認されたノートブックのみが、分離されたサーバーレスコンピュート環境上で実行可能ですノートブックの書き込み先は一時出力テーブルに限定されるため、クリーンルーム外へ出力されるデータを厳密に管理できますアウトバウンド ネットワーク トラフィックは、サーバーレスエグレス制御(SEG)により制限されますIP や専有コードを保護するために、ロジックをプライベートライブラリとしてパッケージ化し、Unity Catalog のボリュームに格納したうえで、ソースコードを開示することなくクリーンルーム内のノートブックから参照できます6. 異なるクラウド上のコラボレーターは、同じクリーンルームに参加できますか?はい。各参加者がUnity Catalog対応のワークスペースを持ち、メタストアでDelta Sharingが有効になっている限り、クリーンルームはマルチクラウドおよびクロスリージョンのコラボレーション向けに設計されています。これは、AzureでDatabricksを使用している組織が、AWSまたはGCP上のパートナーとクリーンルームでコラボレーションできることを意味します。7. Snowflake、BigQuery、またはその他のプラットフォームからデータをクリーンルームに持ち込むことはできますか?はい、もちろんです。レイクハウスフェデレーションは、Snowflake、BigQuery、従来のウェアハウスなどの外部システムをUnity Catalog(UC)のフォーリンカタログとして公開します。外部テーブルがUCで利用可能になると、他のテーブルやビューを共有するのと同じ方法で、それらをクリーンルームで共有します。仕組みの概要は次のとおりです。レイクハウスフェデレーションを使用して接続とフォーリンカタログを作成することで、すべてのデータをDatabricksにコピーすることなく、Unity Catalogでデータソースを公開します。それらの外部テーブルが Unity Catalog で利用可能になると、他の Unity Catalog マネージドテーブルやビューと同様に、クリーンルームに共有できます。8. 共有データに対してカスタム分析を実行するにはどうすればよいですか?クリーンルーム内では、ほぼすべての操作をノートブックを介して行います。実行したい分析のコードを含む SQL または Python のノートブックを追加し、パートナーがそのノートブックをレビューして承認すると、実行できるようになります。シンプルなケース:SQLノートブックを使用して、小売業者の購入データとメディアパートナーのインプレッションデータで重複するハッシュ化されたIDをカウントし、リーチ、フリークエンシー(接触頻度)、コンバージョンを出力します。より高度なケース:Pythonノートブックを使用して双方の特徴量を結合し、結合されたデータでモデルをトレーニングするかスコアリングして、予測を出力テーブルに書き込みます。承認された実行者は出力を確認できますが、相手側の生レコードは誰にも表示されません。9. 複数の関係者によるコラボレーションはどのように機能しますか?Databricksクリーンルームでは、たとえ異なるクラウドやデータプラットフォームを使用していても、最大10の組織(自社と9社のパートナー)が1つの安全な環境で連携できます。各チームはデータをそれぞれのUnity Catalogに保持し、クリーンルームで使用したい特定のテーブル、ビュー、またはファイルのみを共有します。参加者全員が揃ったら、各当事者は SQL または Python のノートブックを提案できます。ノートブックは実行する前に承認が必要となるため、すべての当事者がそのロジックに安心して同意できます。10. なるほど、それはよさそうですね。どうすれば使い始められますか?以下の簡易な手順で開始できます。お使いのワークスペースでUnity Catalog、Delta Sharing、サーバーレスコンピュートが有効になっていることを確認してくださいUnity Catalog メタストアでクリーンルームオブジェクトを作成し、パートナーの共有識別子を指定してコラボレーターとして招待します各参加者が、コラボレーションに使用したいデータ資産とノートブックを追加します全員がノートブックを承認したら、分析を実行し、ご自身のメタストアで出力結果を確認しますクリーンルームの作成方法と使用開始方法については、こちらの動画をご覧ください。