Atualização: Delta Sharing agora está disponível para o público geral na AWS e no Azure.
O compartilhamento de dados tornou-se um componente essencial para impulsionar o valor dos negócios, à medida que empresas de todos os portes buscam trocar dados com segurança com seus clientes, fornecedores e parceiros. De acordo com uma pesquisa recente do Gartner, as organizações que promovem o compartilhamento de dados superarão seus pares na maioria das métricas de valor de negócio.
Existem vários desafios com as soluções de compartilhamento de dados existentes que limitam o compartilhamento de dados dentro ou entre organizações e não conseguem perceber o verdadeiro valor dos dados. Nos últimos 30 anos, as soluções de compartilhamento de dados se apresentaram em duas formas: soluções desenvolvidas internamente ou soluções comerciais de terceiros. Com soluções desenvolvidas internamente, o compartilhamento de dados foi construído com base em tecnologias legadas, como SFTP e REST APIs, que se tornaram difíceis de gerenciar, manter ou escalar com novos requisitos de dados. Alternativamente, as soluções comerciais de compartilhamento de dados só permitem que você compartilhe dados com outras pessoas que utilizam a mesma plataforma, o que limita o compartilhamento de dados e pode ser caro.
Esses desafios nos levaram, na Databricks, a repensar o futuro do compartilhamento de dados como aberto. Durante o Data + AI Summit 2021, anunciamos o Delta Sharing, o primeiro protocolo aberto do mundo para compartilhamento de dados seguro, escalável e em tempo real. Nossa visão por trás do Delta Sharing é construir uma solução de compartilhamento de dados que simplifique o compartilhamento seguro de dados em tempo real entre organizações, independentemente da plataforma em que os dados residem ou são consumidos. Com o Delta Sharing, as organizações podem compartilhar facilmente datasets existentes em grande escala baseados nos formatos Apache Parquet e Delta Lake sem mover os dados e dar às equipes de dados a flexibilidade para query, visualizar e enriquecer os dados compartilhados com as ferramentas de sua escolha.

Desde o lançamento da pré-visualização privada, vimos um grande engajamento de clientes de diversas indústrias para colaborar e desenvolver uma solução de compartilhamento de dados adequada à finalidade e aberta a todos. Os clientes já compartilharam petabytes de dados usando o Delta Sharing. O ecossistema de parceiros do Delta Sharing também cresceu desde o anúncio, com clientes comerciais e de código aberto com conectores Delta Sharing integrados, como PowerBI, Pandas e Apache Spark™, com muitos outros a serem lançados em breve.
Por meio de nossas conversas com clientes, identificamos três casos de uso comuns: comercialização de dados, compartilhamento de dados com parceiros e clientes externos e compartilhamento de dados da linha de negócios. Nesta postagem do blog, exploramos cada um dos principais casos de uso e compartilhamos algumas das percepções que estamos recebendo de nossos clientes.
Exemplo de cliente: Um provedor de dados financeiros estava interessado em reduzir as ineficiências operacionais com seus canais legados de entrega de dados e facilitar para os clientes finais o acesso contínuo a grandes novos datasets.
O provedor de dados lançou recentemente novos datasets textuais de grande porte, com terabytes de dados sendo produzidos regularmente. Fornecer acesso rápido e fácil a esses grandes datasets tem sido um desafio persistente para o provedor de dados, pois os datasets eram difíceis de ingerir em massa para os destinatários dos dados. Com a solução atual, o provedor precisava replicar os dados para servidores SFTP externos, o que tinha muitos pontos de falha em potencial e aumentava a latência.
Do lado do destinatário, ingerir e gerenciar esses dados não era fácil devido ao seu tamanho e escala. Os destinatários dos dados tinham que configurar uma infraestrutura para ingestão, o que exigia ainda aprovações de IT e de administradores de banco de dados, resultando em atrasos que poderiam levar semanas ou mais para serem concluídos antes que o consumidor final pudesse começar a usar os dados.
Com o Delta Sharing, o provedor de dados agora pode compartilhar grandes datasets de forma transparente e superar os problemas de escalabilidade com os servidores SFTP. Esses grandes datasets textuais de terabytes que precisavam ser extraídos em lotes para SFTP agora podem ser acessados em tempo real através do Delta Sharing. O provedor agora pode simplesmente conceder e gerenciar o acesso aos destinatários dos dados em vez de replicar os dados, reduzindo assim a complexidade e a latência. Com a escalabilidade aprimorada, o provedor de dados está vendo um aumento significativo na adoção por parte dos clientes, pois os consumidores de dados têm acesso a dados ao vivo em vez de ter que extrair os datasets regularmente.
Exemplo de cliente: um grande varejista precisava compartilhar facilmente dados de produto (por exemplo, vendas de SKU de cereais) com parceiros sem estar na mesma plataforma de compartilhamento de dados ou de computação em cloud que eles. O varejista queria criar conjuntos de dados particionados com base em SKUs para que os parceiros pudessem acessar facilmente os dados relevantes em tempo real.
O varejista estava utilizando SFTP e APIs desenvolvidos internamente para compartilhar dados com parceiros, que se tornaram ingerenciáveis. Essa solução exigia uma quantidade considerável de recursos de desenvolvimento para manter e operar. O varejista analisou outras soluções de compartilhamento de dados, mas essas soluções exigiam que seus parceiros estivessem na mesma plataforma, o que não é viável para todas as partes devido a considerações de custo e à sobrecarga operacional de replicar dados em diferentes regiões.
O Delta Sharing foi uma proposta empolgante para o varejista gerenciar e compartilhar dados de forma eficiente entre plataformas de cloud, sem a necessidade de replicar os dados entre regiões. O varejista achou fácil gerenciar, criar e auditar os compartilhamentos de dados para seus mais de 100 parceiros através do Delta Sharing. Para cada parceiro, o varejista pode criar partições facilmente e compartilhar os dados com segurança, sem a necessidade de estar na mesma plataforma de dados. Além de facilitar o gerenciamento dos compartilhamentos, o Delta Sharing também minimiza o custo, pois o provedor de dados incorre apenas no custo de saída de dados do provedor de cloud subjacente e não precisa pagar por nenhuma cobrança de compute para o compartilhamento de dados.
Exemplo de cliente: um fabricante quer que os cientistas de dados de suas mais de 15 divisões e subsidiárias tenham acesso a dados permissionados para criar modelos preditivos. O fabricante quer fazer isso com forte governança, controles e recursos de auditoria devido à sensibilidade dos dados.
O fabricante tem muitas implantações de data lake, o que dificulta para as equipes de toda a organização acessar os dados de forma segura e eficiente. O gerenciamento de todos esses dados na organização é feito de maneira personalizada, sem controles rígidos sobre direitos e governança. Além disso, muitos desses datasets têm petabytes de tamanho, o que gera preocupação quanto à capacidade de compartilhar esses dados de forma escalável. A gerência estava hesitante quanto ao compartilhamento de dados sem os devidos controles de acesso a dados e governança. Como resultado, o fabricante estava perdendo oportunidades únicas de gerar valor e permitir percepções mais exclusivas para as equipes de ciência de dados.
Com o Delta Sharing, o fabricante agora tem a capacidade de governar e compartilhar dados entre entidades internas distintas sem precisar mover os dados. O Delta Sharing permite que o fabricante conceda, monitore e audite o acesso aos dados compartilhados a partir de um único ponto de aplicação. Sem precisar mover esses grandes datasets, o fabricante não precisa se preocupar em gerenciar diferentes serviços para replicar os dados. O Delta Sharing permitiu que o fabricante compartilhasse dados com segurança muito mais rápido do que esperava, proporcionando benefícios imediatos, pois os usuários finais puderam começar a trabalhar com conjuntos de dados exclusivos que antes estavam isolados. O fabricante também está animado para utilizar o conector integrado do Delta Sharing com o PowerBI, que é a ferramenta de sua escolha para visualização de dados.
O Delta Sharing simplifica o compartilhamento de dados com outras organizações, independentemente das plataformas de dados que elas usam. Temos o prazer de compartilhar a primeira solução que oferece uma solução aberta e segura sem lock-in proprietário, que ajuda as equipes de dados a compartilhar dados facilmente e a gerenciar a privacidade, a segurança e a compliance entre organizações.
Para experimentar o Delta Sharing no Databricks, entre em contato com seu executivo de contas da Databricks ou inscreva-se para obter acesso antecipado. Para muitos de nossos clientes, a governança é uma prioridade no compartilhamento de dados. O Delta Sharing é integrado nativamente com o Unity Catalog, o que permite aos clientes adicionar governança e controles de segurança refinados, tornando fácil e seguro o compartilhamento de dados interna ou externamente. Depois de habilitar o Unity Catalog na sua conta do Databricks, experimente os Notebooks de início rápido abaixo para começar a usar o Delta Sharing no Databricks:
Para experimentar a versão de código aberto do Delta Sharing, siga as instruções em delta.io/sharing.
Gostaríamos muito de receber seu feedback sobre o projeto Delta Sharing e ideias ou contribuições para novos recursos. Participe da comunidade Delta Sharing seguindo as instruções aqui.
Produto
June 12, 2024/11 min de leitura

