Temos o prazer de anunciar as salas limpas de dados para o Lakehouse, permitindo que as empresas colaborem facilmente com seus clientes e parceiros em qualquer cloud, com privacidade e segurança. Os participantes nas salas limpas de dados podem compartilhar e join seus dados existentes e executar a execução de cargas de trabalho complexas em qualquer linguagem (Python, R, SQL, Java e Scala) nos dados, mantendo a privacidade dos dados.
Com a demanda por dados externos maior do que nunca, as organizações buscam maneiras de trocar seus dados com segurança e consumir dados externos para fomentar inovações data-driven. Historicamente, as organizações têm utilizado soluções de compartilhamento de dados para compartilhar dados com seus parceiros e contavam com a confiança mútua para preservar a privacidade dos dados. Mas as organizações abrem mão do controle sobre os dados uma vez que eles são compartilhados e têm pouca ou nenhuma visibilidade de como os dados são consumidos por seus parceiros em várias plataformas. Isso expõe a possíveis usos indevidos de dados e violações de privacidade de dados. Com as rigorosas regulamentações de privacidade de dados, é imperativo que as organizações tenham controle e visibilidade sobre como seus dados sensíveis são consumidos. Como resultado, as organizações precisam de uma maneira segura, controlada e privada de colaborar com dados, e é aí que as salas limpas de dados (data clean rooms) entram em cena.
Este blog discutirá os data clean rooms, a demanda por eles e nossa visão para um data clean room escalável na Databricks Lakehouse Platform.
Uma sala limpa de dados oferece um ambiente seguro, governado e que protege a privacidade, no qual vários participantes podem unir seus dados primários e realizar análises nos dados, sem o risco de expor seus dados a outros participantes. Os participantes têm controle total de seus dados e podem decidir quais participantes podem realizar quais análises em seus dados sem expor nenhum dado confidencial, como informações de identificação pessoal (PII).
As salas limpas de dados abrem uma ampla gama de casos de uso em todas as indústrias. Por exemplo, empresas de bens de consumo embalados (CPG) podem ver um aumento nas ventas ao unir seus dados de publicidade primários com os dados transacionais de ponto de venda (POS) de seus parceiros de varejo. No setor de mídia, anunciantes e comerciantes podem veicular anúncios mais direcionados, com maior alcance, melhor segmentação e maior transparência na eficácia do anúncio, enquanto protegem a privacidade dos dados. Empresas de serviços financeiros podem colaborar em toda a cadeia de valor para estabelecer detecção proativa de fraudes ou estratégias de combate à lavagem de dinheiro. De fato, a IDC prevê que até 2024, 65% das empresas G2000 formarão parcerias de compartilhamento de dados com stakeholders externos por meio de salas limpas de dados para aumentar a interdependência, enquanto protegem a privacidade dos dados.
Vejamos alguns dos motivos mais convincentes que impulsionam a demanda por clean rooms:
Cenário de segurança, compliance e privacidade em rápida mudança: Regulamentações rigorosas de privacidade de dados, como GDPR e CCPA, juntamente com mudanças radicais na medição de terceiros, transformaram a forma como as organizações coletam, usam e compartilham dados, especialmente para casos de uso de publicidade e marketing. Por exemplo, o App Tracking Transparency Framework (ATT) da Apple oferece aos usuários de dispositivos Apple a liberdade e a flexibilidade para desativar facilmente o acompanhamento de apps. O Google também planeja eliminar gradualmente o suporte para cookies de terceiros no Chrome até o final de 2023. À medida que essas leis e práticas de privacidade evoluem, a demanda por data clean rooms provavelmente aumentará, à medida que o setor migra para novos identificadores baseados em PII, como o UID 2.0. As organizações tentarão encontrar novas soluções para join dados com seus parceiros de maneira centrada na privacidade, a fim de atingir seus objetivos de negócios na realidade sem cookies.
Colaboração em um ecossistema de dados fragmentado: hoje, os consumidores têm mais opções do que nunca quando se trata de onde, quando e como interagem com o conteúdo. Como resultado, a pegada digital dos consumidores fica fragmentada em diferentes plataformas, o que exige que as empresas colaborem com seus parceiros para criar uma unified view das necessidades e dos requisitos de seus clientes. Para facilitar a colaboração entre organizações, os clean rooms oferecem uma maneira segura e privada de combinar dados com outros dados para gerar novas percepções ou recursos.
Novas maneiras de monetizar dados: a maioria das organizações já tem ou está buscando desenvolver estratégias de monetização para seus dados ou IP existentes. Com as leis de privacidade atuais, as empresas tentarão encontrar qualquer vantagem possível para monetizar seus dados sem o risco de violar as regras de privacidade. Isso cria uma oportunidade para fornecedores ou publicadores de dados unirem dados para análise big data sem ter acesso direto aos dados.
À medida que as organizações exploram diversas soluções de clean room, existem algumas lacunas evidentes nas soluções existentes, que não aproveitam todo o potencial das "clean rooms" nem atendem aos requisitos de negócios das organizações.
Movimentação e replicação de dados: os fornecedores de data clean room existentes exigem que os participantes movam seus dados para as plataformas do fornecedor, o que resulta em aprisionamento tecnológico (lock-in) e custos adicionais de armazenamento de dados para os participantes. Além disso, é demorado para os participantes prepararem os dados em um formato padronizado antes de realizar qualquer análise nos dados agregados. Além disso, os participantes precisam replicar os dados em diferentes nuvens e regiões para facilitar as colaborações com participantes em diferentes nuvens e regiões, resultando em sobrecarga operacional e de custos.
Restritas a SQL: as soluções de data clean room existentes não oferecem muita flexibilidade para executar cargas de trabalho e análises arbitrárias e geralmente são restritas a instruções SQL simples. Embora o SQL seja poderoso e absolutamente necessário para clean rooms, há momentos em que você precisa de computações complexas, como machine learning, integração com APIs ou outras cargas de trabalho de análise em que o SQL simplesmente não é suficiente.
Difícil de escalar: a maioria das soluções de clean room existentes está vinculada a um único fornecedor e não é escalável para expandir a colaboração além de dois participantes por vez. Por exemplo, um anunciante pode querer obter uma visão detalhada do desempenho de seus anúncios em diferentes plataformas, o que exige a análise dos dados agregados de vários publicadores de dados. Com a colaboração limitada a apenas dois participantes, as organizações obtêm percepções parciais em uma plataforma de clean room e acabam movendo seus dados para outro fornecedor de clean room, incorrendo na sobrecarga operacional de agrupar manualmente as percepções parciais.
A Databricks Lakehouse Platform oferece um conjunto abrangente de ferramentas para criar, servir e implantar uma data clean room escalável e flexível com base em seus requisitos de privacidade e governança de dados.
Compartilhamento seguro de dados sem replicação: com o Delta Sharing, os participantes da clean room podem compartilhar dados de seus data lakes com segurança com outros participantes, sem qualquer replicação de dados entre nuvens ou regiões. Seus dados permanecem com você e não ficam bloqueados em nenhuma plataforma. Além disso, os participantes da sala limpa podem auditar e monitorar centralmente o uso de seus dados.
Suporte total para executar workloads e linguagens arbitrários: a Databricks Lakehouse platform oferece aos participantes da sala limpa a flexibilidade para executar quaisquer computações complexas, como workloads de machine learning ou de dados, em qualquer linguagem — SQL, R, Scala, Java, Python — nos dados.
Facilmente escalável com uma experiência de onboarding guiada: as clean rooms na Databricks Lakehouse Platform são facilmente escaláveis para vários participantes em qualquer cloud ou região. É fácil começar e guiar os participantes por casos de uso comuns usando padrões predefinidos (por exemplo, Jobs, fluxos de trabalho, dashboards), reduzindo o tempo para obter percepções.
Privacidade garantida com controles de acesso refinados: com o Unity Catalog, você pode habilitar controles de acesso refinados nos dados e atender aos seus requisitos de privacidade. A governança integrada permite que os participantes tenham controle total sobre as queries ou jobs que podem ser executados em seus dados. Todas as consultas ou jobs nos dados são executados na computação confiável hospedada pela Databricks. Os participantes nunca têm acesso aos dados brutos de outros participantes, garantindo a privacidade dos dados. Os participantes também podem aproveitar frameworks de privacidade diferencial de código aberto ou de terceiros, tornando sua clean room à prova de futuro.
Para saber mais sobre as salas limpas de dados no Databricks Lakehouse, entre em contato com seus representantes de account da Databricks.
Faça o tour do produto Clean Room para ajudar as empresas a colaborar com segurança com clientes e parceiros em qualquer plataforma de cloud, garantindo a privacidade e a segurança.
Produto
June 12, 2024/11 min de leitura

