Datenkollaboration ist das Rückgrat moderner KI-Innovationen, insbesondere da Unternehmen mit externen Partnern zusammenarbeiten, um neue Erkenntnisse zu gewinnen. Allerdings bleiben der Datenschutz und der Schutz des geistigen Eigentums große Herausforderungen, um die Zusammenarbeit zu ermöglichen und gleichzeitig sensible Daten zu schützen.
Um diese Lücke zu schließen, nutzen Kunden aus allen Branchen Databricks Clean Rooms, um gemeinsame Analysen sensibler Daten durchzuführen und eine datenschutzorientierte Zusammenarbeit zu ermöglichen.
Wir haben nachfolgend die 10 am häufigsten gestellten Fragen zu Clean Rooms zusammengestellt. Hier erfahren Sie, was Clean Rooms sind, wie sie Daten und IP schützen, wie sie Cloud- und plattformübergreifend funktionieren und was für den Einstieg erforderlich ist. Legen wir los.
Ein Data Clean Room ist eine sichere Umgebung, in der Sie und Ihre Partner gemeinsam an sensiblen Daten arbeiten können, um nützliche Erkenntnisse zu gewinnen, ohne die zugrunde liegenden sensiblen Rohdaten zu teilen.
In Databricks erstellen Sie einen Clean Room, fügen die zu verwendenden Assets (Vermögenswerte) hinzu und führen nur genehmigte Notebooks in einer isolierten, sicheren und verwalteten Umgebung aus.
Clean Rooms sind nützlich, wenn mehrere Parteien sensible Daten analysieren müssen, ohne ihre Rohdaten zu teilen. Der Grund dafür sind oft Datenschutzbestimmungen, Verträge oder der Schutz des geistigen Eigentums.
Sie werden in vielen Branchen eingesetzt, darunter in der Werbung, im Gesundheitswesen, im Finanzwesen, im öffentlichen Sektor, im Transportwesen und bei der Datenmonetarisierung.
Einige Beispiele:
Werbung und Marketing: Identitätsauflösung ohne Offenlegung von PII, Kampagnenplanung und -messung, Datenmonetarisierung für Retail Media und Markenkooperation.
Finanzdienstleistungen: Banken, Versicherer und Kreditkartenunternehmen kombinieren Daten für einen besseren Betrieb, Betrugserkennung und Analysen.
Clean Rooms schützen Kundendaten und ermöglichen gleichzeitig Zusammenarbeit und Datenanreicherung.
Sie können eine breite Palette von über Unity Catalog verwalteten Assets in Databricks Clean Rooms teilen:
So sieht das in der Praxis aus:
Stellen Sie sich das so vor: Delta Sharing ist die richtige Wahl, wenn eine Partei schreibgeschützten Zugriff auf Daten in ihrer eigenen Umgebung benötigt und es für sie akzeptabel ist, die zugrunde liegenden Datensätze zu sehen.
Clean Rooms bieten einen sicheren, kontrollierten Bereich für Multiparteienanalysen, wenn Daten privat bleiben müssen. Partner können Datenassets Join, gegenseitig genehmigten Code ausführen und nur die Ausgaben zurückgeben, denen alle Seiten zustimmen. Dies ist nützlich, wenn Sie strenge Datenschutzgarantien einhalten oder regulierte Workflows unterstützen müssen. Tatsächlich verwenden in Clean Rooms freigegebene Daten im Hintergrund weiterhin das Delta Sharing-Protokoll.
Beispielsweise könnte ein Einzelhändler Delta Sharing verwenden, um einem Lieferanten schreibgeschützten Zugriff auf eine Verkaufstabelle zu gewähren, damit dieser sehen kann, wie sich die Produkte verkaufen. Dasselbe Paar würde einen Clean Room verwenden, wenn es umfassendere, sensiblere Daten von beiden Seiten (wie Kundeneigenschaften oder detaillierte Bestandsdaten) joinen, genehmigte Notebooks ausführen und nur aggregierte Ausgaben wie Bedarfsplanungen oder die am stärksten gefährdeten Artikel teilen muss.
Clean Rooms sind so konzipiert, dass Ihre Partner niemals Ihre Rohdaten oder Ihr geistiges Eigentum (IP) sehen. Ihre Daten verbleiben in Ihrem eigenen Unity Catalog, und Sie geben nur bestimmte Assets im Clean Room über Delta Sharing frei, was durch genehmigte Notebooks gesteuert wird.
So setzen Sie diese Schutzmaßnahmen in einem Clean Room durch:
Ja. Clean Rooms sind für die Multicloud- und regionenübergreifende Zusammenarbeit konzipiert, solange jeder Teilnehmer über einen Unity Catalog-fähigen Workspace verfügt und Delta Sharing in seinem Metastore aktiviert ist. Das bedeutet, dass eine Organisation, die Databricks in Azure verwendet, in einem Clean Room mit Partnern in AWS oder GCP zusammenarbeiten kann.

Ja, absolut. Lakehouse Federation stellt externe Systeme wie Snowflake, BigQuery und herkömmliche Warehouses als Fremdkataloge in Unity Catalog (UC) bereit. Sobald die externen Tabellen in UC verfügbar sind, können Sie sie im Clean Room auf die gleiche Weise freigeben, wie Sie jede andere Tabelle oder Ansicht freigeben.
Im Grunde funktioniert es so: Sie verwenden Lakehouse Federation, um Verbindungen und Foreign Catalogs zu erstellen, die externe Datenquellen in Unity Catalog verfügbar machen, ohne all diese Daten in Databricks kopieren zu müssen. Sobald diese externen Tabellen in Unity Catalog verfügbar sind, können Sie sie in einem Clean Room freigeben, genauso wie jede andere von Unity Catalog verwaltete Tabelle oder Ansicht.
In einem Clean Room erledigen Sie fast alles über Notebooks. Sie fügen ein SQL- oder Python-Notebook mit dem Code für die gewünschte Analyse hinzu, Ihre Partner überprüfen und genehmigen das Notebook, und dann kann es ausgeführt werden.

Einfacher Fall: Sie haben möglicherweise ein SQL-Notebook, das überlappende Hash-IDs zwischen den Käufen eines Einzelhändlers und den Impressionen eines Medienpartners zählt und dann Reichweite, Frequenz und Konversion ausgibt.
Für Fortgeschrittene: Sie verwenden ein Python-Notebook, um Features von beiden Seiten zu joinen, ein Modell mit den kombinierten Daten zu trainieren oder zu bewerten und Vorhersagen in eine Ausgabetabelle zu schreiben. Der genehmigte Runner sieht die Ergebnisse, aber niemand sieht die Rohdatensätze der anderen Seite.
In einem Databricks Clean Room können bis zu 10 Organisationen (Sie und 9 weitere Partner) in einer einzigen sicheren Umgebung zusammenarbeiten, selbst wenn Sie sich auf unterschiedlichen Clouds oder Datenplattformen befinden. Jedes Team behält seine Daten in seinem eigenen Unity Catalog und teilt nur die spezifischen Tabellen, Ansichten oder Dateien, die es im Clean Room verwenden möchte.
Sobald alle beigetreten sind, kann jede Partei SQL- oder Python-Notebooks vorschlagen, und diese Notebooks müssen genehmigt werden, vor ihrer Ausführung, damit alle Seiten mit der Logik einverstanden sind.
So einfach können Sie loslegen:
Sehen Sie sich dieses Video an, um mehr über die Erstellung von Clean Rooms und die ersten Schritte zu erfahren.
Produto
June 12, 2024/11 min de leitura

