Ir al contenido principal

Las 10 preguntas principales sobre los Clean Rooms de Databricks, respondidas

Colaboración de datos que prioriza la privacidad, simplificada con Databricks Clean Rooms

Top 10 Questions You Asked About Databricks Clean Rooms, Answered

Published: December 18, 2025

Producto7 min de leitura

Summary

  • Trabaja con socios en datos confidenciales sin exponer los registros sin procesar.
  • Utilice Delta Sharing para importar datos externos, como Snowflake o BigQuery, a un Clean Room.
  • Admite casos de uso que incluyen resolución de identidades, publicidad, sector salud y finanzas.

La colaboración de datos es la columna vertebral de la innovación moderna en IA, especialmente a medida que las organizaciones colaboran con socios externos para obtener nuevas perspectivas. Sin embargo, la privacidad de los datos y la protección de la propiedad intelectual siguen siendo desafíos importantes para permitir la colaboración y, al mismo tiempo, proteger los datos sensibles.

Para cerrar esta brecha, clientes de todas las industrias utilizan Databricks Clean Rooms para realizar análisis compartidos de datos sensibles y permitir una colaboración que prioriza la privacidad.

A continuación, hemos recopilado las 10 preguntas más frecuentes sobre las Clean Rooms. Aquí se explica qué son los Clean Rooms, cómo protegen los datos y la IP, cómo funcionan en diferentes nubes y plataformas y qué se necesita para empezar. Comencemos.

1. ¿Qué es un “data clean room”?

Una sala de datos limpia es un entorno seguro en el que usted y sus socios pueden colaborar con datos sensibles para extraer información valiosa, sin compartir los datos brutos y sensibles de origen.

En Databricks, crea una sala limpia, agrega los activos que quieres usar y ejecuta solo notebooks aprobados en un entorno aislado, seguro y gobernado.

Databricks Clean Rooms

2. ¿Cuáles son algunos ejemplos de casos de uso de las salas limpias?

Las salas limpias son útiles cuando varias partes necesitan analizar datos sensibles sin compartir sus datos sin procesar. Esto suele deberse a las normativas de privacidad, los contratos o la protección de la propiedad intelectual.

Se utilizan en muchas industrias, como publicidad, atención médica, finanzas, gobierno, transporte y monetización de datos.

Algunos ejemplos incluyen:

Publicidad y marketing: resolución de identidades sin exponer PII, planificación y medición de campañas, monetización de datos para retail media y colaboración entre marcas.

  • Socios como Epsilon, The Trade Desk, Acxiom, LiveRamp y Deloitte utilizan las Clean Rooms de Databricks para la resolución de identidades.

Servicios financieros: los bancos, las aseguradoras y las empresas de tarjetas de crédito combinan datos para mejorar las operaciones, la detección de fraudes y el análisis.

  • Ejemplos: Mastercard usa salas limpias para cotejar y analizar datos de PII para la detección de fraudes; Intuit coteja de forma segura los datos de los prestatarios con los prestamistas para encontrar prestatarios calificados.

Los clean rooms protegen los datos de los clientes a la vez que permiten la colaboración y el enriquecimiento de datos.

3. ¿Qué tipos de activos de datos puedo compartir en un clean room?

Puede compartir una amplia gama de recursos administrados por Unity Catalog en Clean Rooms de Databricks:

  • Tablas (administradas, externas y foráneas): datos estructurados como transacciones, eventos o perfiles de clientes.
  • Vistas: segmentos filtrados o agregados de tus tablas.
  • Volúmenes: archivos como imágenes, audio, documentos o bibliotecas de código privadas.
  • Cuadernos: Cuadernos de SQL o Python que definen el análisis que quieres ejecutar.

Así es como se ve en la práctica:

  • Un minorista, una marca de CPG y una empresa de investigación de mercado comparten vistas anonimizadas que incluyen: ID de cliente con hash, métricas de ventas agregadas y datos demográficos regionales para analizar conjuntamente el alcance de la campaña.
  • Una plataforma de streaming y una agencia de publicidad comparten tablas de impresiones de campañas y un notebook que calcula métricas de audiencia multiplataforma.
  • Un banco y un socio fintech comparten volúmenes que contienen modelos de ML de riesgo y fraude, y usan un notebook para calificar los modelos de forma conjunta mientras mantienen la privacidad de los registros individuales.

4. ¿Cómo se compara esto con Delta Sharing? ¿Por qué usaría un clean room en su lugar?

Piénsalo de esta manera: Delta Sharing es la opción correcta cuando una de las partes necesita acceso de solo lectura a los datos en su propio entorno y es aceptable que pueda ver los registros subyacentes.

Las salas limpias agregan un espacio seguro y controlado para el análisis de varias partes cuando los datos deben permanecer privados. Los socios pueden unir activos de datos, ejecutar código aprobado mutuamente y devolver solo los resultados en los que todas las partes estén de acuerdo. Esto es útil cuando se deben cumplir garantías de privacidad estrictas o admitir flujos de trabajo regulados. De hecho, los datos compartidos en las Clean Rooms siguen utilizando el protocolo Delta Sharing en segundo plano.

Por ejemplo, un minorista podría usar Delta Sharing para darle a un proveedor acceso de solo lectura a una tabla de ventas para que pueda ver cómo se venden los productos. Ambos usarían un Clean Room cuando necesiten unir datos más detallados y confidenciales de ambas partes (como rasgos de los clientes o inventario detallado), ejecutar notebooks aprobados y solo compartir resultados agregados, como pronósticos de demanda o los principales artículos en riesgo.

5. ¿Cómo se protegen los datos confidenciales y la IP en la sala limpia?

Los clean rooms están diseñados para que tus socios nunca vean tus datos sin procesar ni tu IP. Sus datos permanecen en su propio Unity Catalog y solo comparte activos específicos en la sala limpia a través de Delta Sharing, que se controla mediante notebooks aprobados.

Para aplicar estas protecciones en un clean room:

  • Los colaboradores solo ven los esquemas (nombres y tipos de columnas), no los datos reales a nivel de fila.
  • Solo los notebooks que tú y tus socios aprueben pueden ejecutarse en un cómputo sin servidor en un entorno aislado.
  • Los notebooks escriben en tablas de salida temporales, de modo que controlas exactamente lo que sale de la sala limpia.
  • El tráfico de red saliente está restringido a través de los controles de egreso sin servidor (SEG).
  • Para proteger la PI o el código propietario, puede empaquetar su lógica como una biblioteca privada, almacenarla en un volumen de Unity Catalog y hacer referencia a ella en los notebooks de la clean room sin revelar su código fuente.

6. ¿Pueden los colaboradores en diferentes nubes unirse a la misma Clean Room?

Sí. Los Clean Rooms están diseñados para la colaboración multinube y entre regiones, siempre que cada participante tenga un espacio de trabajo con Unity Catalog habilitado y Delta Sharing habilitado en su metastore. Esto significa que una organización que usa Databricks en Azure puede colaborar en una sala limpia con socios en AWS o GCP.

Colaboradores de Clean Rooms

7. ¿Puedo transferir datos de Snowflake, BigQuery u otras plataformas a una sala limpia?

Sí, por supuesto. Lakehouse Federation expone sistemas externos como Snowflake, BigQuery y almacenes de datos tradicionales como catálogos externos en Unity Catalog (UC). Una vez que las tablas externas estén disponibles en UC, puede compartirlas en la Clean Room de la misma manera que comparte cualquier otra tabla o vista.

Así es como funciona a grandes rasgos: se utiliza Lakehouse Federation para crear conexiones y catálogos externos que exponen fuentes de datos externas en Unity Catalog, sin tener que copiar todos esos datos en Databricks. Una vez que esas tablas externas estén disponibles en Unity Catalog, puedes compartirlas en una Clean Room, al igual que cualquier otra tabla o vista administrada por Unity Catalog.

8. ¿Cómo ejecuto un análisis personalizado en datos conjuntos?

Dentro de una sala limpia, se hace casi todo a través de notebooks. Usted agrega un notebook de SQL o Python que incluye el código para el análisis que desea realizar, sus socios revisan y aprueban el notebook, y luego se puede ejecutar.

Cómo ejecutar un análisis personalizado en datos combinados

Caso simple: podría tener un notebook de SQL que cuente los ID con hash superpuestos entre las compras de un minorista y las impresiones de un socio de medios, y luego genere el alcance, la frecuencia y la conversión.

Más avanzado: utiliza un notebook de Python para unir características de ambos lados, entrenar o calificar un modelo con los datos combinados y escribir las predicciones en una tabla de salida. El ejecutor aprobado ve los resultados, pero nadie ve los registros sin procesar de la otra parte.

9. ¿Cómo funciona la colaboración entre varias partes?

En un Databricks Clean Room, puedes tener hasta 10 organizaciones (tú más 9 socios) trabajando juntas en un entorno seguro, incluso si están en diferentes nubes o plataformas de datos. Cada equipo mantiene sus datos en su propio Unity Catalog y solo comparte las tablas, vistas o archivos específicos que quiere usar en la clean room.

Una vez que todos se hayan unido, cada parte puede proponer notebooks de SQL o Python, y esos notebooks necesitan aprobación antes de ejecutarse para que todas las partes estén de acuerdo con la lógica.

10. Bueno, todo eso suena bien. ¿Cómo empiezo?

Aquí tienes una forma sencilla de empezar:

  • Compruebe que su área de trabajo tenga habilitados Unity Catalog, Delta Sharing y la computación sin servidor.
  • Cree un objeto Clean Room en su metastore de Unity Catalog e invite a sus socios con sus identificadores de uso compartido.
  • Cada parte agrega los activos de datos y notebooks con los que quieren colaborar.
  • Una vez que todos aprueben los notebooks, ejecuta tu análisis y revisa los resultados en tu propio metastore.

Mira este video para obtener más información sobre la creación de Clean Rooms y los primeros pasos.

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.

¿Qué sigue?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks