La colaboración de datos es la columna vertebral de la innovación moderna en IA, especialmente a medida que las organizaciones colaboran con socios externos para obtener nuevas perspectivas. Sin embargo, la privacidad de los datos y la protección de la propiedad intelectual siguen siendo desafíos importantes para permitir la colaboración y, al mismo tiempo, proteger los datos sensibles.
Para cerrar esta brecha, clientes de todas las industrias utilizan Databricks Clean Rooms para realizar análisis compartidos de datos sensibles y permitir una colaboración que prioriza la privacidad.
A continuación, hemos recopilado las 10 preguntas más frecuentes sobre las Clean Rooms. Aquí se explica qu é son los Clean Rooms, cómo protegen los datos y la IP, cómo funcionan en diferentes nubes y plataformas y qué se necesita para empezar. Comencemos.
Una sala de datos limpia es un entorno seguro en el que usted y sus socios pueden colaborar con datos sensibles para extraer información valiosa, sin compartir los datos brutos y sensibles de origen.
En Databricks, crea una sala limpia, agrega los activos que quieres usar y ejecuta solo notebooks aprobados en un entorno aislado, seguro y gobernado.
Las salas limpias son útiles cuando varias partes necesitan analizar datos sensibles sin compartir sus datos sin procesar. Esto suele deberse a las normativas de privacidad, los contratos o la protección de la propiedad intelectual.
Se utilizan en muchas industrias, como publicidad, atención médica, finanzas, gobierno, transporte y monetización de datos.
Algunos ejemplos incluyen:
Publicidad y marketing: resolución de identidades sin exponer PII, planificación y medición de campañas, monetización de datos para retail media y colaboración entre marcas.
Servicios financieros: los bancos, las aseguradoras y las empresas de tarjetas de crédito combinan datos para mejorar las operaciones, la detección de fraudes y el análisis.
Los clean rooms protegen los datos de los clientes a la vez que permiten la colaboración y el enriquecimiento de datos.
Puede compartir una amplia gama de recursos administrados por Unity Catalog en Clean Rooms de Databricks:
Así es como se ve en la práctica:
Piénsalo de esta manera: Delta Sharing es la opción correcta cuando una de las partes necesita acceso de solo lectura a los datos en su propio entorno y es aceptable que pueda ver los registros subyacentes.
Las salas limpias agregan un espacio seguro y controlado para el análisis de varias partes cuando los datos deben permanecer privados. Los socios pueden unir activos de datos, ejecutar código aprobado mutuamente y devolver solo los resultados en los que todas las partes estén de acuerdo. Esto es útil cuando se deben cumplir garantías de privacidad estrictas o admitir flujos de trabajo regulados. De hecho, los datos compartidos en las Clean Rooms siguen utilizando el protocolo Delta Sharing en segundo plano.
Por ejemplo, un minorista podría usar Delta Sharing para darle a un proveedor acceso de solo lectura a una tabla de ventas para que pueda ver cómo se venden los productos. Ambos usarían un Clean Room cuando necesiten unir datos más detallados y confidenciales de ambas partes (como rasgos de los clientes o inventario detallado), ejecutar notebooks aprobados y solo compartir resultados agregados, como pronósticos de demanda o los principales artículos en riesgo.
Los clean rooms están diseñados para que tus socios nunca vean tus datos sin procesar ni tu IP. Sus datos permanecen en su propio Unity Catalog y solo comparte activos específicos en la sala limpia a través de Delta Sharing, que se controla mediante notebooks aprobados.
Para aplicar estas protecciones en un clean room:
Sí. Los Clean Rooms están diseñados para la colaboración multinube y entre regiones, siempre que cada participante tenga un espacio de trabajo con Unity Catalog habilitado y Delta Sharing habilitado en su metastore. Esto significa que una organización que usa Databricks en Azure puede colaborar en una sala limpia con socios en AWS o GCP.

Sí, por supuesto. Lakehouse Federation expone sistemas externos como Snowflake, BigQuery y almacenes de datos tradicionales como catálogos externos en Unity Catalog (UC). Una vez que las tablas externas estén disponibles en UC, puede compartirlas en la Clean Room de la misma manera que comparte cualquier otra tabla o vista.
Así es como funciona a grandes rasgos: se utiliza Lakehouse Federation para crear conexiones y catálogos externos que exponen fuentes de datos externas en Unity Catalog, sin tener que copiar todos esos datos en Databricks. Una vez que esas tablas externas estén disponibles en Unity Catalog, puedes compartirlas en una Clean Room, al igual que cualquier otra tabla o vista administrada por Unity Catalog.
Dentro de una sala limpia, se hace casi todo a través de notebooks. Usted agrega un notebook de SQL o Python que incluye el código para el análisis que desea realizar, sus socios revisan y aprueban el notebook, y luego se puede ejecutar.

Caso simple: podría tener un notebook de SQL que cuente los ID con hash superpuestos entre las compras de un minorista y las impresiones de un socio de medios, y luego genere el alcance, la frecuencia y la conversión.
Más avanzado: utiliza un notebook de Python para unir características de ambos lados, entrenar o calificar un modelo con los datos combinados y escribir las predicciones en una tabla de salida. El ejecutor aprobado ve los resultados, pero nadie ve los registros sin procesar de la otra parte.
En un Databricks Clean Room, puedes tener hasta 10 organizaciones (tú más 9 socios) trabajando juntas en un entorno seguro, incluso si están en diferentes nubes o plataformas de datos. Cada equipo mantiene sus datos en su propio Unity Catalog y solo comparte las tablas, vistas o archivos específicos que quiere usar en la clean room.
Una vez que todos se hayan unido, cada parte puede proponer notebooks de SQL o Python, y esos notebooks necesitan aprobación antes de ejecutarse para que todas las partes estén de acuerdo con la lógica.
Aquí tienes una forma sencilla de empezar:
Mira este video para obtener más información sobre la creación de Clean Rooms y los primeros pasos.
Produto
June 12, 2024/11 min de leitura

