A colaboração de dados é a espinha dorsal da inovação moderna em AI, especialmente quando as organizações colaboram com parceiros externos para desbloquear novas percepções. No entanto, a privacidade de dados e a proteção da propriedade intelectual continuam sendo grandes desafios para viabilizar a colaboração e, ao mesmo tempo, proteger dados confidenciais.
Para preencher essa lacuna, clientes de diversas indústrias estão usando as Databricks Clean Rooms para a execução de análises compartilhadas em dados sensíveis e permitir a colaboração com foco na privacidade.
Compilamos abaixo as 10 perguntas mais frequentes sobre Clean Rooms. Eles abordam o que são as Clean Rooms, como elas protegem dados e IP, como funcionam em diferentes clouds e plataformas e o que é necessário para começar. Vamos começar.
Uma clean room de dados é um ambiente seguro onde você e seus parceiros podem trabalhar juntos em dados confidenciais para extrair percepções úteis, sem o compartilhamento dos dados brutos e confidenciais subjacentes.
No Databricks, você cria uma clean room, adiciona os ativos que deseja usar e realiza a execução apenas dos Notebooks aprovados em um ambiente isolado, seguro e governado.
Os clean rooms são úteis quando várias partes precisam analisar dados confidenciais sem o compartilhamento de seus dados brutos. Isso geralmente ocorre devido a regulamentações de privacidade, contratos ou à proteção da propriedade intelectual.
Eles são usados em muitas indústrias, incluindo publicidade, saúde, finanças, governo, transporte e monetização de dados.
Alguns exemplos incluem:
Publicidade e marketing: Resolução de identidade sem expor PII, planejamento e mensuração de campanhas, monetização de dados para mídia de varejo e colaboração entre marcas.
Serviços financeiros: bancos, seguradoras e operadoras de cartão de crédito combinam dados para otimizar operações, detectar fraudes e realizar análises.
As salas limpas protegem os dados do cliente e, ao mesmo tempo, permitem a colaboração e o enriquecimento de dados.
Você pode compartilhar uma ampla variedade de ativos gerenciados pelo Unity Catalog nos Databricks Clean Rooms:
Veja como funciona na prática:
Pense da seguinte forma: o Delta Sharing é a escolha certa quando uma das partes precisa de acesso somente leitura aos dados em seu próprio ambiente e não há problema que ela veja os registros subjacentes.
Os Clean Rooms adicionam um espaço seguro e controlado para análise multipartidária quando os dados precisam permanecer privados. Os parceiros podem join ativos de dados, executar código mutuamente aprovado e retornar apenas os resultados com os quais todas as partes concordam. Isso é útil quando você precisa cumprir garantias de privacidade rigorosas ou dar suporte a fluxos de trabalho regulamentados. Na verdade, os dados compartilhados nos Clean Rooms ainda usam o protocolo Delta Sharing nos bastidores.
Por exemplo, um varejista pode usar o Delta Sharing para dar a um fornecedor acesso somente leitura a uma tabela de ventas, para que ele possa ver o desempenho de ventas dos produtos. Essa mesma dupla usaria um Clean Room quando precisasse join dados mais detalhados e confidenciais de ambos os lados (como características do cliente ou inventário detalhado), realizar a execução de Notebooks aprovados e compartilhar apenas os resultados agregados, como previsões de demanda ou os principais itens em risco.
Os Clean Rooms são criados para que seus parceiros nunca vejam seus dados brutos ou sua PI. Seus dados permanecem em seu próprio Unity Catalog, e você compartilha apenas ativos específicos no Clean Room pelo Delta Sharing, que é controlado por Notebooks aprovados.
Para aplicar estas proteções em uma clean room:
Sim. Os Clean Rooms são projetados para colaboração multicloud e entre regiões, desde que cada participante tenha um workspace com o Unity Catalog ativado e o Delta Sharing ativado em seu metastore. Isso significa que uma organização que usa o Databricks no Azure pode colaborar em uma clean room com parceiros na AWS ou no GCP.

Sim, com certeza. Lakehouse Federation expõe sistemas externos como Snowflake, BigQuery e warehouses tradicionais como catálogos estrangeiros no Unity Catalog (UC). Assim que as tabelas externas estiverem disponíveis no UC, você as compartilha na clean room da mesma forma que compartilha qualquer outra tabela ou view.
Veja como funciona em um nível geral: você usa o Lakehouse Federation para criar conexões e catálogos externos que expõem fontes de dados externas no Unity Catalog, sem precisar copiar todos esses dados para o Databricks. Quando essas tabelas externas estiverem disponíveis no Unity Catalog, você pode compartilhá-las em um Clean Room, assim como qualquer outra tabela ou view gerenciada pelo Unity Catalog.
Dentro de uma clean room, você faz quase tudo por meio de notebooks. Você adiciona um Notebook SQL ou Python que inclui o código para a análise que você deseja, seus parceiros revisam e aprovam o Notebook e, então, pode ser feita a execução.

Um caso simples: você pode ter um notebook SQL que conta IDs com hash sobrepostos entre as compras de um varejista e as impressões de um parceiro de mídia e, depois, gera o alcance, a frequência e a conversão.
Mais avançado: você usa um Notebooks Python para fazer join recursos de ambos os lados, ensinar ou pontuar um modelo nos dados combinados e gravar as previsões em uma tabela de saída. O executor aprovado vê os resultados, mas ninguém vê os registros brutos da outra parte.
Em um Databricks Clean Room, você pode ter até 10 organizações (você e mais 9 parceiros) trabalhando juntas em um único ambiente seguro, mesmo que estejam em clouds ou plataformas de dados diferentes. Cada equipe mantém seus dados em seu próprio Unity Catalog e compartilha apenas as tabelas, view ou arquivos específicos que desejam usar no clean room.
Depois que todos entram, cada parte pode propor Notebooks em SQL ou Python, e esses Notebooks precisam de aprovação antes da execução, para que todas as partes fiquem confortáveis com a lógica.
Aqui está uma maneira simples de começar:
Assista a este vídeo para saber mais sobre a criação de Clean Rooms e como começar.
(This blog post has been translated using AI-powered tools) Original Post
Produto
June 11, 2024/11 min de leitura

