Ir para o conteúdo principal
Produto

Como o Delta Sharing permite uma colaboração segura de ponta a ponta

Cenários reais de compartilhamento demonstram a arquitetura segura, flexibilidade, adaptabilidade e integração do Delta Sharing com o Unity Catalog em várias plataformas e nuvens

por Bilal Obeidat, Bhavin Kukadia e Giselle Goicochea

O Delta Sharing evoluiu para OpenSharing, o primeiro protocolo aberto e neutro em relação a fornecedores para compartilhar com segurança ativos de IA, incluindo Agent Skills, modelos de IA e dados não estruturados. Leia o anúncio.

No cenário digital de hoje, o compartilhamento seguro de dados é fundamental para a eficiência operacional e a inovação. A Databricks e a Linux Foundation desenvolveram o Delta Sharing como a primeira abordagem de código aberto para compartilhamento de dados em dados, análise e IA. A Databricks oferece troca segura de dados, facilitando o compartilhamento contínuo entre plataformas, nuvens e regiões. Empresas de todos os tamanhos confiam no Delta Sharing, que suporta uma ampla gama de aplicações e diversos formatos de dados. Essa flexibilidade o torna uma ferramenta confiável para organizações que buscam aproveitar todo o potencial de seus ativos de dados.

Neste blog, analisaremos a arquitetura de segurança do Delta Sharing por meio de três cenários de compartilhamento diferentes — de cliente Databricks para cliente Databricks (D2D), de cliente Databricks para compartilhamento aberto (D2O) e compartilhamento de dados entre nuvens. Resumiremos os benefícios de implementar o Delta Sharing como parte de uma estratégia moderna de colaboração de dados, como maior eficiência operacional por meio de trocas de dados simplificadas e seguras em várias plataformas e nuvens, além de reduzir a complexidade e os riscos. Essa estrutura segura acelera o tempo para obter insights, permitindo uma tomada de decisão mais rápida, ao mesmo tempo em que mantém proteções robustas de privacidade que geram confiança entre as partes interessadas. Além disso, a flexibilidade do Delta Sharing suporta uma gama diversificada de formatos de dados e aplicações, tornando-o adaptável às necessidades de negócios em constante evolução de maneira segura. Cada cenário inclui um depoimento de cliente que destaca o conhecimento em primeira mão do impacto transformador da solução. Focaremos este blog no Databricks Delta Sharing, onde o provedor de dados está usando a versão gerenciada da plataforma Databricks.

Compartilhamento de dados de Databricks para Databricks (D2D)

O cenário D2D exemplifica a troca de dados segura e simplificada entre dois clientes Databricks dentro do ecossistema Databricks. Ele apresenta conexões gerenciadas pela Databricks e um sistema de troca sem token, garantindo simplicidade e segurança.

Ao usar o compartilhamento D2D, os clientes se beneficiam da integração nativa do Delta Sharing com o Unity Catalog (UC), que fornece governança e segurança unificadas para operações de compartilhamento. É importante notar que o compartilhamento não se limita apenas a dados — o Unity Catalog vai além dos conjuntos de dados para incluir volumes, notebooks e modelos de IA, apresentando uma gama impressionante de funções. O Delta Sharing para compartilhamento na mesma conta também é ativado por padrão, enquanto o compartilhamento externo fica disponível quando ativado com o acesso de nível de administrador necessário. Para configurar o Databricks Delta Sharing, você só precisa de pelo menos um workspace do Databricks habilitado para o Unity Catalog e Metastore, além de uma função de administrador ou dos privilégios CREATE SHARE e CREATE RECIPIENT (Consulte a documentação para configuração da conta).

O Unity Catalog fornece uma camada de governança unificada do início ao fim — desde as etapas iniciais de criação de um destinatário e estabelecimento de compartilhamentos até o ato crucial de conceder acesso. O serviço Delta Sharing processa solicitações de API, realiza verificações completas de autorização e mantém logs de atividades detalhados. Todas essas etapas garantem que as operações sejam tão transparentes quanto seguras, funcionando como uma máquina bem azeitada na qual você pode confiar para manter seu ecossistema de compartilhamento rodando sem problemas.

Acesso a dados: Indo mais a fundo no acesso a dados pós-autorização, o Unity Catalog é novamente um elemento crucial. Ao receber a autorização do Unity Catalog, o método de acesso é determinado — tokens de nuvem ou URLs pré-assinadas — com base em fatores como o tipo de ativo e o arranjo de compartilhamento. Para tokens de nuvem, um token SAS com escopo reduzido e somente leitura é gerado pelo UC do provedor, que é então encaminhado para o plano de computação do destinatário. Isso fornece acesso seguro e por tempo limitado ao armazenamento do diretório raiz da tabela. Da mesma forma, com URLs pré-assinadas, uma lista de URLs relevantes é criada e enviada para o plano de computação do destinatário, fornecendo acesso seguro e temporário aos arquivos de armazenamento. Ao usar estrategicamente recursos de segurança ao utilizar diferentes serviços de nuvem, como tokens SAS do Azure e URLs pré-assinadas da AWS, você garante que apenas pessoas autorizadas possam acessar os dados em um ambiente seguro em várias regiões e nuvens. Além disso, as interações são limitadas aos planos de controle do destinatário e do provedor, sendo uma operação privilegiada que não pode ser acionada por agentes externos, protegendo assim contra violações externas. Essa metodologia reforça a adaptabilidade do sistema, garantindo que o compartilhamento de dados seja flexível e seguro, acomodando com facilidade uma ampla gama de necessidades de negócios.

Delta Sharing: Acesso a dados

O Coastal Community Bank selecionou o Delta Sharing para atender às suas rigorosas e desafiadoras demandas de compartilhamento de dados, conformidade e segurança de sua rede de parceiros. O Coastal escolheu a Cavallo Technologies para ajudá-los a desenvolver uma plataforma de dados moderna. Rob Cavallo, presidente da Cavallo Technologies, explica que o Coastal precisava de uma solução flexível para o presente e para o futuro, Leia o estudo de caso do Coastal Community Bank.

"De certa forma, o Coastal [Community Bank] estava pedindo um paradoxo: permitir uma colaboração fácil e, ao mesmo tempo, atender aos mais altos padrões de segurança para dados financeiros dos consumidores. É fundamental garantir que a plataforma seja de alto desempenho e econômica para as cargas de trabalho de hoje, além de adaptável o suficiente para lidar com casos de uso futuros ainda não imaginados. No final, a Databricks Data Intelligence Platform foi a única plataforma que encontramos que nos capacitou a fazer isso." — Rob Cavallo, presidente da Cavallo Technologies

Compartilhamento seguro de dados, além das tabelas

O Delta Sharing suporta mais do que apenas dados tabulares, adotando uma abordagem mais holística para a colaboração de dados com a inclusão de ativos de dados não tabulares, como volumes, notebooks e modelos de IA. Atualmente, esses tipos de ativos são suportados apenas na estrutura de compartilhamento D2D, onde aprimoram o ecossistema colaborativo. Os modelos de IA são compartilhados de maneira semelhante aos volumes, enquanto os notebooks apresentam um mecanismo de compartilhamento exclusivo. Os notebooks podem ser visualizados pelos destinatários por meio de uma URL pré-assinada, renderizando o conteúdo como HTML em uma janela pop-up para acesso imediato. Para uma integração mais profunda, os notebooks também podem ser importados para o ambiente do destinatário, utilizando codificação base64 e chamadas de API para uma transição contínua.

O compartilhamento de modelos de IA é facilitado pela geração de um token SAS seguro, somente leitura e com escopo reduzido, criado pelo UC do provedor, que é então encaminhado para o plano de computação do destinatário. Essa abordagem garante um acesso seguro e eficiente e evita a necessidade de cópias desnecessárias do modelo, permitindo uma cópia única para o Model Registry no UC do destinatário. Essa cópia do modelo pode então ser implantada em várias regiões para otimizar o processo de inferência, melhorar o desempenho com latência reduzida e fornecer tempos de resposta mais rápidos, aproveitando data centers regionais mais próximos dos usuários finais. Descobrir, acessar e utilizar volumes compartilhados e modelos de IA com o Delta Sharing demonstra abordagens semelhantes e personalizadas que se adaptam a cada tipo de dado, promovendo uma plataforma segura e versátil para compartilhamento de dados e colaboração.

Compartilhamento de dados de Databricks para aberto (D2O)

Transitando para o cenário de compartilhamento aberto, o D2O mantém protocolos de segurança rígidos para um cliente Databricks que compartilha dados com usuários terceiros externos que não estão no Databricks. O D2O permite que os destinatários se conectem diretamente aos dados compartilhados usando conectores do Delta Sharing que suportam vários sistemas como pandas, Tableau, Apache Spark, Rust ou outros que suportam o protocolo aberto, sem a necessidade prévia de uma plataforma de computação específica.

Ao criar um destinatário aberto no Databricks, uma URL de ativação única e segura é gerada, permitindo que o destinatário baixe um arquivo de credenciais que contém um endereço de endpoint do Delta Sharing e um token. Em caso de violação de segurança, os provedores têm a capacidade de tomar medidas imediatas, como alterar as credenciais de um destinatário ou revogar suas permissões de leitura para evitar novos problemas.

Fluxo de trabalho de acesso a dados: Quando um destinatário consulta uma tabela compartilhada usando um desses conectores mencionados, o Delta Sharing verifica o destinatário usando tokens do arquivo de credenciais e fornece URLs pré-assinadas para acessar os dados. Essa abordagem garante a compatibilidade com vários conectores de código aberto, protegendo a integridade e a segurança dos ativos compartilhados. (Veja mais sobre compartilhamento e acesso a dados.)

A Cox Automotive Europe (parte da Cox Automotive) é a maior organização de serviços automotivos do mundo que usa o Delta Sharing para gerenciar e auditar centralmente os dados compartilhados fora de sua equipe de serviços de dados corporativos, garantindo segurança e governança robustas. Leia o estudo de caso da Cox Automotive.

"O Delta Sharing facilita o compartilhamento seguro de dados com unidades de negócios e subsidiárias sem a necessidade de copiá-los ou replicá-los. Ele nos permite compartilhar dados sem que o destinatário precise ter uma identidade em nosso workspace." — Robert Hamlet, Engenheiro de Dados Líder na Cox Automotive

Compartilhamento de dados cross-cloud

As empresas estão adotando cada vez mais estratégias cross-cloud, impulsionadas pela necessidade de dar suporte a diversas funcionalidades em diferentes plataformas de nuvem, facilitar parcerias ou integrar dados de outra organização após uma aquisição. Essa transição para um ambiente multicloud reforça a importância de as organizações implementarem soluções robustas como o Delta Sharing para permitir um compartilhamento contínuo e seguro, tanto interna quanto externamente. A implementação de uma estratégia cross-cloud costuma ser essencial para que nossos clientes mantenham a continuidade operacional, incentivem a inovação e impulsionem o crescimento em um ecossistema digital interconectado, mantendo a capacidade de aproveitar os pontos fortes exclusivos de cada serviço de nuvem.

Para muitos de nossos clientes que adotam estratégias cross-cloud, fica claro que os recursos de compartilhamento multiplataforma aberto do Delta Sharing, que oferecem suporte contínuo a ambientes multicloud, são um diferencial e uma vantagem evidentes. O Delta Sharing é igualmente eficaz tanto para compartilhar dados internamente em uma única nuvem quanto para compartilhar dados externamente em várias plataformas de nuvem, garantindo um processo de troca de dados seguro e eficiente para ambos os cenários. A Databricks tem ouvido de muitos clientes sobre suas necessidades de compartilhamento de dados em ambientes multicloud e como o Delta Sharing ajuda a promover a interoperabilidade e a aumentar a segurança em todo o ecossistema de nuvem.

Um desses clientes da Databricks é a Deutsche Börse, uma organização internacional de câmbio e provedora de infraestrutura de mercado. Depois que eles implementaram o Delta Sharing, permitindo o compartilhamento aberto e a colaboração com seus clientes, o impacto nos negócios foi transformador.

"Ter uma plataforma que permite o compartilhamento seguro de dados com controles de acesso refinados, os mais altos padrões de segurança e garantia de privacidade abre novas possibilidades. Agora podemos iniciar conversas sobre soluções personalizadas onde, no passado, teríamos dito: 'Infelizmente, nossos clientes não querem compartilhar seus dados e modelos conosco, ou nós não queremos compartilhar dados mais granulares ou nossos modelos por motivos de confidencialidade'." — Jan Stiebing, head de Estratégia de Negócios e M&A na Deutsche Börse

Neste exemplo de cliente e em muitos outros, o Delta Sharing consegue superar barreiras de compartilhamento de dados e colaboração que antes eram consideradas intransponíveis, tudo isso mantendo os mais altos padrões de segurança e privacidade. A Deutsche Börse também oferece diversas listagens de dados de mercado no Databricks Marketplace.

Configuração de rede e armazenamento

O Delta Sharing permite o compartilhamento de dados seguro e contínuo em vários ambientes de nuvem, integrando-se perfeitamente à arquitetura nativa de segurança de armazenamento da nuvem. Ele faz isso sem a necessidade de realizar modificações significativas em sua estrutura de segurança existente. Essa abordagem foi projetada para organizações que utilizam a Databricks em plataformas de nuvem como Azure, AWS e GCP, alinhando-se aos requisitos do Unity Catalog. A Databricks Data Intelligence Platform oferece suporte ao compartilhamento de dados por meio de soluções de armazenamento em nuvem (ADLS Gen2, S3, GCS) com ênfase em canais de comunicação privados ou lista de permissões de endereços IP para maior segurança.

A configuração de rede e armazenamento para o Delta Sharing descrita abaixo funciona tanto em cenários intra-cloud quanto cross-cloud. O compartilhamento intra-cloud facilita a troca segura de dados no mesmo ecossistema de nuvem usando endpoints privados, firewalls de armazenamento e gateways de rede, garantindo que nenhum acesso público seja permitido. Em cenários de compartilhamento cross-cloud, o Delta Sharing aproveita IPs de saída de gateway NAT e oferece suporte a conexões privadas cross-cloud existentes, como VPNs site-to-site ou links dedicados para permitir o acesso seguro a dados em diferentes plataformas de nuvem e redes locais (on-premise). Essa abordagem abrangente e segura permite que uma ampla variedade de infraestruturas de rede participe de forma eficiente do Delta Sharing, promovendo flexibilidade e segurança.

Configuração de rede e armazenamento

O diagrama acima representa um exemplo de configuração de rede cross-cloud.

Filtragem de dados

No Delta Sharing, a filtragem de dados é crucial para fornecer um acesso flexível e seguro, contando com dois métodos principais:

  • Filtragem de partição: permite o compartilhamento de partições de tabela específicas que se alinham com as propriedades do destinatário, conhecido como compartilhamento de partição parametrizado. Essa estratégia permite que os provedores de dados compartilhem as partes de dados necessárias de maneira flexível, facilitando o acesso controlado.
  • Visualizações dinâmicas: permite o compartilhamento de qualquer subconjunto de dados com destinatários por meio de funções dinâmicas, como current_recipient, oferecendo controle refinado sobre o acesso aos dados e melhor capacidade de gerenciamento.

Permita restrições de acesso com base em propriedades específicas do destinatário, garantindo que os dados sejam compartilhados apenas com os destinatários pretendidos e no contexto apropriado. Essas abordagens aprimoram a segurança e a flexibilidade do Delta Sharing, permitindo um acesso a dados personalizado que atende às necessidades exclusivas de cada destinatário.

Segurança, flexibilidade e integração contínua com o Delta Sharing

Em conclusão, o Delta Sharing é um componente fundamental da Databricks Data Intelligence Platform e se destaca por seus recursos de compartilhamento de dados seguros, flexíveis e multiplataforma, dando suporte a estratégias de dados modernas. Além de oferecer suporte a outras plataformas por meio de conectores de código aberto, o Delta Sharing permite que os clientes compartilhem dados estruturados e não estruturados, bem como modelos de AI. Todos esses recursos diferenciam claramente o Delta Sharing de outras plataformas de troca de dados. Como resultado, o Delta Sharing conta com a ampla confiança de clientes em diferentes setores, o que se reflete nos depoimentos de clientes, destacando o impacto significativo na eficiência operacional e na inovação. À medida que o cenário de compartilhamento de dados continua a evoluir, o Delta Sharing é construído para o futuro, priorizando a segurança, a flexibilidade e a integração contínua em diversos ecossistemas de compartilhamento de dados. Esse compromisso firme posiciona o Delta Sharing como um ativo indispensável para aproveitar o poder dos dados para impulsionar os objetivos digitais de empresas em todo o mundo.

Para saber mais sobre como implementar o Delta Sharing em sua organização, confira os recursos mais recentes, incluindo novos eBooks e blogs relacionados abaixo, ou aprofunde-se na documentação do Delta Sharing.

Se você já é um cliente do Delta Sharing, também pode entrar em contato com a equipe para tirar dúvidas ou enviar feedback pelo e-mail datasharing@databricks.com.

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.