Ir al contenido principal

Presentación de salas limpias de datos para el lakehouse

db-233-clean-rooom-og

Publicado: June 28, 2022

Anuncios8 min de lectura

Nos complace anunciar las salas de datos limpias para Lakehouse, que permiten a las empresas colaborar fácilmente con sus clientes y socios en cualquier nube de una manera que resguarda la privacidad. Los participantes de las salas limpias de datos pueden compartir y unir sus datos existentes y ejecutar cargas de trabajo complejas en cualquier lenguaje (Python, R, SQL, Java y Scala) sobre los datos, mientras mantienen la privacidad de los datos.

Con la demanda de datos externos más grande que nunca, las organizaciones buscan formas de intercambiar sus datos de forma segura y consumir datos externos para fomentar innovaciones basadas en datos. Históricamente, las organizaciones han aprovechado las soluciones de intercambio de datos para compartir datos con sus socios y han confiado en la confianza mutua para preservar la privacidad de los datos. Pero las organizaciones renuncian al control sobre los datos una vez que se comparten y tienen poca o ninguna visibilidad sobre cómo sus socios consumen los datos en diversas plataformas. Esto expone a un posible uso indebido de los datos y a violaciones de la privacidad de los datos. Con las estrictas regulaciones de privacidad de datos, es imperativo que las organizaciones tengan control y visibilidad sobre cómo se consumen sus datos sensibles. Como resultado, las organizaciones necesitan una forma segura, controlada y privada de colaborar en los datos, y aquí es donde entran en juego las salas limpias de datos (data clean rooms).

En este blog, analizaremos los clean rooms de datos, su demanda y nuestra visión de un clean room de datos escalable en la plataforma Lakehouse de Databricks.

¿Qué es una sala limpia de datos (data clean room) y por qué es importante para su negocio?

Una sala limpia de datos proporciona un entorno seguro, gobernado y que protege la privacidad, en el que varios participantes pueden unir sus datos de origen (first-party data) y realizar análisis sobre los datos, sin el riesgo de exponer sus datos a otros participantes. Los participantes tienen el control total de sus datos y pueden decidir qué participantes pueden realizar qué análisis sobre sus datos sin exponer ningún dato sensible, como la información de identificación personal (PII).

Las salas limpias de datos abren una amplia gama de casos de uso en diversas industrias. Por ejemplo, las empresas de bienes de consumo empaquetados (CPG) pueden ver un aumento en las ventas al unir sus datos de publicidad de origen con los datos transaccionales del punto de venta (POS) de sus socios minoristas. En la industria de los medios, los anunciantes y los especialistas en marketing pueden ofrecer anuncios más dirigidos, con un alcance más amplio, una mejor segmentación y una mayor transparencia en la efectividad de los anuncios, mientras protegen la privacidad de los datos. Las empresas de servicios financieros pueden colaborar en toda la cadena de valor para establecer estrategias proactivas de detección de fraudes o contra el lavado de dinero. De hecho, IDC predice que para 2024, el 65 % de las empresas del G2000 formarán alianzas para compartir datos con partes interesadas externas a través de salas de datos limpias para aumentar la interdependencia y, a la vez, resguardar la privacidad de los datos.

Salas limpias de datos seguras

Veamos algunas de las razones convincentes que impulsan la demanda de clean rooms:

Panorama de seguridad, cumplimiento y privacidad en rápida evolución: Las estrictas regulaciones de privacidad de datos como el GDPR y la CCPA, junto con los cambios radicales en la medición de terceros, han transformado la forma en que las organizaciones recopilan, usan y comparten datos, especialmente para casos de uso de publicidad y marketing. Por ejemplo, el marco de transparencia de seguimiento de aplicaciones (ATT) de Apple ofrece a los usuarios de dispositivos Apple la libertad y flexibilidad de optar fácilmente por no participar en el seguimiento de aplicaciones. Google también planea eliminar gradualmente la compatibilidad con las cookies de terceros en Chrome para fines de 2023. A medida que estas leyes y prácticas de privacidad evolucionan, es probable que aumente la demanda de data clean rooms, ya que la industria avanza hacia nuevos identificadores basados en PII, como UID 2.0. Las organizaciones intentarán encontrar nuevas soluciones para unir datos con sus socios de una manera centrada en la privacidad para lograr sus objetivos de negocio en la realidad sin cookies.

Colaboración en un ecosistema de datos fragmentado: Hoy en día, los consumidores tienen más opciones que nunca en cuanto a dónde, cuándo y cómo interactúan con el contenido. Como resultado, la huella digital de los consumidores está fragmentada en diferentes plataformas, lo que exige que las empresas colaboren con sus socios para crear una vista unificada de las necesidades y los requisitos de sus clientes. Para facilitar la colaboración entre organizaciones, los clean rooms proporcionan una manera segura y privada de combinar sus datos con otros para obtener estadísticas o capacidades nuevas.

Nuevas formas de monetizar los datos: la mayoría de las organizaciones ya tienen o buscan desarrollar estrategias de monetización para sus datos o IP existentes. Con las leyes de privacidad actuales, las empresas intentarán encontrar cualquier ventaja posible para monetizar sus datos sin el riesgo de infringir las normas de privacidad. Esto crea una oportunidad para que los proveedores o publicadores de datos unan datos para el análisis de big data sin tener acceso directo a ellos.

Las soluciones de salas limpias de datos existentes tienen grandes inconvenientes

A medida que las organizaciones exploran diversas soluciones de salas limpias, existen algunas deficiencias evidentes en las soluciones existentes, que no aprovechan todo el potencial de las "salas limpias" ni satisfacen los requisitos empresariales de las organizaciones.

Movimiento y replicación de datos: Los proveedores de salas limpias de datos existentes exigen que los participantes trasladen sus datos a las plataformas del proveedor, lo que da como resultado la dependencia de la plataforma y costos adicionales de almacenamiento de datos para los participantes. Además, a los participantes les lleva mucho tiempo preparar los datos en un formato estandarizado antes de realizar cualquier análisis sobre los datos agregados. Además, los participantes tienen que replicar los datos en diferentes nubes y regiones para facilitar la colaboración con participantes en diferentes nubes y regiones, lo que genera una sobrecarga operativa y de costos.

Restringido a SQL: Las soluciones de salas limpias existentes no proporcionan mucha flexibilidad para ejecutar cargas de trabajo y análisis arbitrarios y, a menudo, se limitan a instrucciones SQL simples. Si bien SQL es potente y absolutamente necesario para las salas limpias, hay ocasiones en las que se requieren cálculos complejos, como el aprendizaje automático (machine learning), la integración con API u otras cargas de trabajo de análisis en las que SQL simplemente no es suficiente.

Difícil de escalar: La mayoría de las soluciones de salas de datos limpias existentes están vinculadas a un único proveedor y no son escalables para ampliar la colaboración más allá de dos participantes a la vez. Por ejemplo, un anunciante podría querer obtener una vista detallada del rendimiento de sus anuncios en diferentes plataformas, lo que requiere el análisis de los datos agregados de varios publicadores de datos. Con la colaboración limitada a solo dos participantes, las organizaciones obtienen información parcial en una plataforma de clean room y terminan trasladando sus datos a otro proveedor de clean rooms, lo que genera la sobrecarga operativa de cotejar manualmente la información parcial.

Implemente una solución de sala limpia de datos escalable y flexible con la plataforma Databricks Lakehouse

La plataforma Databricks Lakehouse proporciona un conjunto completo de herramientas para crear, servir e implementar una sala limpia de datos escalable y flexible en función de sus requisitos de gobierno y privacidad de datos.

Intercambio seguro de datos sin replicación: Con Delta Sharing, los participantes de la sala limpia pueden compartir datos de forma segura desde sus lagos de datos con otros participantes sin ninguna replicación de datos entre nubes o regiones. Sus datos permanecen con usted y no están bloqueados en ninguna plataforma. Además, los participantes de la sala limpia pueden auditar y supervisar de forma centralizada el uso de sus datos.

Soporte completo para ejecutar cargas de trabajo y lenguajes arbitrarios: la plataforma Databricks Lakehouse proporciona a los participantes de la sala limpia la flexibilidad de ejecutar cualquier cálculo complejo, como las cargas de trabajo de machine learning o de datos, en cualquier lenguaje (SQL, R, Scala, Java, Python) sobre los datos.

Fácilmente escalable con una experiencia de incorporación guiada: Las salas limpias en la plataforma Databricks Lakehouse son fácilmente escalables a múltiples participantes en cualquier nube o región. Es fácil empezar y guiar a los participantes a través de casos de uso comunes utilizando plantillas predefinidas (p. ej., trabajos, flujos de trabajo, paneles), lo que reduce el tiempo necesario para obtener información.

Protección de la privacidad con controles de acceso detallados: Con Unity Catalog, puede habilitar controles de acceso detallados sobre los datos y cumplir con sus requisitos de privacidad. La gobernanza integrada permite a los participantes tener control total sobre las consultas o los trabajos que se pueden ejecutar en sus datos. Todas las consultas o trabajos sobre los datos se ejecutan en el cómputo de confianza alojado en Databricks. Los participantes nunca obtienen acceso a los datos sin procesar de otros participantes, lo que garantiza la privacidad de los datos. Los participantes también pueden aprovechar los marcos de privacidad diferencial de código abierto o de terceros, lo que hace que su sala limpia esté preparada para el futuro.

Para obtener más información sobre los data clean rooms en Databricks Lakehouse, comuníquese con sus representantes de cuenta de Databricks.

¿Quiere verlo en acción?

Pruebe el recorrido del producto de la sala limpia para ayudar a las empresas a colaborar de forma segura con clientes y socios en cualquier plataforma en la nube, garantizando la privacidad y la seguridad.

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.

¿Qué sigue?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks