Direkt zum Hauptinhalt

Die 10 häufigsten Fragen zu Databricks Clean Rooms, beantwortet

Einfache und datenschutzorientierte Datenkollaboration mit Databricks Clean Rooms

Top 10 Questions You Asked About Databricks Clean Rooms, Answered

Published: December 18, 2025

Produkt6 min de leitura

Summary

  • Arbeiten Sie mit Partnern an sensiblen Daten, ohne Rohdatensätze preiszugeben.
  • Verwenden Sie Delta Sharing, um externe Daten wie z. B. von Snowflake oder BigQuery in einen Clean Room zu bringen.
  • Unterstützt Anwendungsfälle einschließlich Identitätsauflösung, Werbung, Gesundheitswesen und Finanzen.

Datenkollaboration ist das Rückgrat moderner KI-Innovationen, insbesondere da Unternehmen mit externen Partnern zusammenarbeiten, um neue Erkenntnisse zu gewinnen. Allerdings bleiben der Datenschutz und der Schutz des geistigen Eigentums große Herausforderungen, um die Zusammenarbeit zu ermöglichen und gleichzeitig sensible Daten zu schützen.

Um diese Lücke zu schließen, nutzen Kunden aus allen Branchen Databricks Clean Rooms, um gemeinsame Analysen sensibler Daten durchzuführen und eine datenschutzorientierte Zusammenarbeit zu ermöglichen.

Wir haben nachfolgend die 10 am häufigsten gestellten Fragen zu Clean Rooms zusammengestellt. Hier erfahren Sie, was Clean Rooms sind, wie sie Daten und IP schützen, wie sie Cloud- und plattformübergreifend funktionieren und was für den Einstieg erforderlich ist. Legen wir los.

1. Was ist ein „Data Clean Room“?

Ein Data Clean Room ist eine sichere Umgebung, in der Sie und Ihre Partner gemeinsam an sensiblen Daten arbeiten können, um nützliche Erkenntnisse zu gewinnen, ohne die zugrunde liegenden sensiblen Rohdaten zu teilen.

In Databricks erstellen Sie einen Clean Room, fügen die zu verwendenden Assets (Vermögenswerte) hinzu und führen nur genehmigte Notebooks in einer isolierten, sicheren und verwalteten Umgebung aus.

Databricks Clean Rooms

2. Was sind einige Anwendungsbeispiele für Clean Rooms?

Clean Rooms sind nützlich, wenn mehrere Parteien sensible Daten analysieren müssen, ohne ihre Rohdaten zu teilen. Der Grund dafür sind oft Datenschutzbestimmungen, Verträge oder der Schutz des geistigen Eigentums.

Sie werden in vielen Branchen eingesetzt, darunter in der Werbung, im Gesundheitswesen, im Finanzwesen, im öffentlichen Sektor, im Transportwesen und bei der Datenmonetarisierung.

Einige Beispiele:

Werbung und Marketing: Identitätsauflösung ohne Offenlegung von PII, Kampagnenplanung und -messung, Datenmonetarisierung für Retail Media und Markenkooperation.

  • Partner wie Epsilon, The Trade Desk, Acxiom, LiveRamp und Deloitte nutzen Databricks Clean Rooms zur Identitätsauflösung.

Finanzdienstleistungen: Banken, Versicherer und Kreditkartenunternehmen kombinieren Daten für einen besseren Betrieb, Betrugserkennung und Analysen.

  • Beispiele: Mastercard verwendet Clean Rooms, um PII-Daten zur Betrugserkennung abzugleichen und zu analysieren; Intuit gleicht Kreditnehmerdaten sicher mit Kreditgebern ab, um qualifizierte Kreditnehmer zu finden.

Clean Rooms schützen Kundendaten und ermöglichen gleichzeitig Zusammenarbeit und Datenanreicherung.

3. Welche Arten von Daten-Assets kann ich in einem Clean Room teilen?

Sie können eine breite Palette von über Unity Catalog verwalteten Assets in Databricks Clean Rooms teilen:

  • Tabellen (verwaltet, extern und fremd): strukturierte Daten wie Transaktionen, Ereignisse oder Kundenprofile.
  • Ansichten: gefilterte oder aggregierte Ausschnitte Ihrer Tabellen.
  • Volumes: Dateien wie Bilder, Audiodateien, Dokumente oder private Code-Bibliotheken.
  • Notebooks: SQL- oder Python-Notebooks, die die Analyse definieren, die Sie ausführen möchten.

So sieht das in der Praxis aus:

  • Ein Einzelhändler, eine CPG-Marke und ein Marktforschungsunternehmen teilen anonymisierte Ansichten, darunter: gehashte Kunden-IDs, aggregierte Vertriebskennzahlen und regionale demografische Daten, um gemeinsam die Kampagnenreichweite zu analysieren.
  • Eine Streaming-Plattform und eine Werbeagentur teilen Tabellen mit Kampagnen-Impressions und ein Notebook, das plattformübergreifende Zielgruppenmetriken berechnet.
  • Eine Bank und ein Fintech-Partner teilen Volumes, die ML-Modelle für Risiko und Betrug enthalten, und verwenden ein Notebook, um die Modelle gemeinsam zu bewerten, während einzelne Datensätze privat bleiben.

4. Wie ist das im Vergleich zu Delta Sharing? Warum sollte ich stattdessen einen Clean Room verwenden?

Stellen Sie sich das so vor: Delta Sharing ist die richtige Wahl, wenn eine Partei schreibgeschützten Zugriff auf Daten in ihrer eigenen Umgebung benötigt und es für sie akzeptabel ist, die zugrunde liegenden Datensätze zu sehen.

Clean Rooms bieten einen sicheren, kontrollierten Bereich für Multiparteienanalysen, wenn Daten privat bleiben müssen. Partner können Datenassets Join, gegenseitig genehmigten Code ausführen und nur die Ausgaben zurückgeben, denen alle Seiten zustimmen. Dies ist nützlich, wenn Sie strenge Datenschutzgarantien einhalten oder regulierte Workflows unterstützen müssen. Tatsächlich verwenden in Clean Rooms freigegebene Daten im Hintergrund weiterhin das Delta Sharing-Protokoll.

Beispielsweise könnte ein Einzelhändler Delta Sharing verwenden, um einem Lieferanten schreibgeschützten Zugriff auf eine Verkaufstabelle zu gewähren, damit dieser sehen kann, wie sich die Produkte verkaufen. Dasselbe Paar würde einen Clean Room verwenden, wenn es umfassendere, sensiblere Daten von beiden Seiten (wie Kundeneigenschaften oder detaillierte Bestandsdaten) joinen, genehmigte Notebooks ausführen und nur aggregierte Ausgaben wie Bedarfsplanungen oder die am stärksten gefährdeten Artikel teilen muss.

5. Wie werden sensible Daten und IP im Clean Room geschützt?

Clean Rooms sind so konzipiert, dass Ihre Partner niemals Ihre Rohdaten oder Ihr geistiges Eigentum (IP) sehen. Ihre Daten verbleiben in Ihrem eigenen Unity Catalog, und Sie geben nur bestimmte Assets im Clean Room über Delta Sharing frei, was durch genehmigte Notebooks gesteuert wird.

So setzen Sie diese Schutzmaßnahmen in einem Clean Room durch:

  • Projektmitglieder sehen nur Schemata (Spaltennamen und -typen), nicht die eigentlichen Daten auf Zeilenebene.
  • Nur Notebooks, die Sie und Ihre Partner genehmigen, können auf serverlosem compute in einer isolierten Umgebung Ausführung finden.
  • Notebooks schreiben in temporäre Ausgabetabellen, sodass Sie genau steuern können, was den Clean Room verlässt.
  • Ausgehender Netzwerkverkehr wird durch serverlose Ausgangskontrollen (SEG) eingeschränkt.
  • Zum Schutz von IP oder proprietärem Code können Sie Ihre Logik als private Bibliothek paketieren, in einem Unity Catalog-Volume speichern und in Clean-Room-Notebooks darauf verweisen, ohne Ihren Quellcode preiszugeben.

6. Können Kollaborationspartner auf unterschiedlichen Clouds demselben Clean Room beitreten?

Ja. Clean Rooms sind für die Multicloud- und regionenübergreifende Zusammenarbeit konzipiert, solange jeder Teilnehmer über einen Unity Catalog-fähigen Workspace verfügt und Delta Sharing in seinem Metastore aktiviert ist. Das bedeutet, dass eine Organisation, die Databricks in Azure verwendet, in einem Clean Room mit Partnern in AWS oder GCP zusammenarbeiten kann.

Clean Rooms-Mitwirkender

7. Kann ich Daten von Snowflake, BigQuery oder anderen Plattformen in einen Clean Room einbringen?

Ja, absolut. Lakehouse Federation stellt externe Systeme wie Snowflake, BigQuery und herkömmliche Warehouses als Fremdkataloge in Unity Catalog (UC) bereit. Sobald die externen Tabellen in UC verfügbar sind, können Sie sie im Clean Room auf die gleiche Weise freigeben, wie Sie jede andere Tabelle oder Ansicht freigeben.

Im Grunde funktioniert es so: Sie verwenden Lakehouse Federation, um Verbindungen und Foreign Catalogs zu erstellen, die externe Datenquellen in Unity Catalog verfügbar machen, ohne all diese Daten in Databricks kopieren zu müssen. Sobald diese externen Tabellen in Unity Catalog verfügbar sind, können Sie sie in einem Clean Room freigeben, genauso wie jede andere von Unity Catalog verwaltete Tabelle oder Ansicht.

8. Wie führe ich eine benutzerdefinierte Analyse für gemeinsame Daten durch?

In einem Clean Room erledigen Sie fast alles über Notebooks. Sie fügen ein SQL- oder Python-Notebook mit dem Code für die gewünschte Analyse hinzu, Ihre Partner überprüfen und genehmigen das Notebook, und dann kann es ausgeführt werden.

Wie Sie eine benutzerdefinierte Analysen für gemeinsame Daten durchführen

Einfacher Fall: Sie haben möglicherweise ein SQL-Notebook, das überlappende Hash-IDs zwischen den Käufen eines Einzelhändlers und den Impressionen eines Medienpartners zählt und dann Reichweite, Frequenz und Konversion ausgibt.

Für Fortgeschrittene: Sie verwenden ein Python-Notebook, um Features von beiden Seiten zu joinen, ein Modell mit den kombinierten Daten zu trainieren oder zu bewerten und Vorhersagen in eine Ausgabetabelle zu schreiben. Der genehmigte Runner sieht die Ergebnisse, aber niemand sieht die Rohdatensätze der anderen Seite.

9. Wie funktioniert die Zusammenarbeit zwischen mehreren Parteien?

In einem Databricks Clean Room können bis zu 10 Organisationen (Sie und 9 weitere Partner) in einer einzigen sicheren Umgebung zusammenarbeiten, selbst wenn Sie sich auf unterschiedlichen Clouds oder Datenplattformen befinden. Jedes Team behält seine Daten in seinem eigenen Unity Catalog und teilt nur die spezifischen Tabellen, Ansichten oder Dateien, die es im Clean Room verwenden möchte.

Sobald alle beigetreten sind, kann jede Partei SQL- oder Python-Notebooks vorschlagen, und diese Notebooks müssen genehmigt werden, vor ihrer Ausführung, damit alle Seiten mit der Logik einverstanden sind.

10. Das klingt alles gut. Wie lege ich los?

So einfach können Sie loslegen:

  • Stellen Sie sicher, dass in Ihrem Workspace Unity Catalog, Delta Sharing und Serverless Compute aktiviert sind.
  • Erstellen Sie ein Clean Room-Objekt in Ihrem Unity Catalog-Metastore und laden Sie Ihre Partner über deren Freigabe-IDs ein.
  • Jede Partei fügt die Daten-Assets und Notebooks hinzu, an denen sie zusammenarbeiten möchte.
  • Sobald alle die Notebooks genehmigt haben, führen Sie Ihre Analysen aus und überprüfen Sie die Ausgaben in Ihrem eigenen Metastore.

Sehen Sie sich dieses Video an, um mehr über die Erstellung von Clean Rooms und die ersten Schritte zu erfahren.

Verpassen Sie keinen Beitrag von Databricks

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Was kommt als Nächstes?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks