por Matei Zaharia, Michael Armbrust, Steve Weis, Todd Greenstein e Cyrielle Simeone
O Delta Sharing evoluiu para OpenSharing, o primeiro protocolo aberto e neutro em relação a fornecedores para compartilhar com segurança ativos de IA, incluindo Agent Skills, modelos de IA e dados não estruturados. Leia o anúncio.
Atualização: Delta Sharing agora está disponível para o público geral na AWS e no Azure.
Obtenha uma prévia do novo e-book da O'Reilly para obter as orientações passo a passo necessárias para começar a usar o Delta Lake.
O compartilhamento de dados tornou-se fundamental na economia moderna, à medida que as empresas buscam trocar dados com segurança com seus clientes, fornecedores e parceiros. Por exemplo, um varejista pode querer publicar dados de vendas para seus fornecedores em tempo real, ou um fornecedor pode querer compartilhar o inventário em tempo real. Mas, até agora, o compartilhamento de dados tem sido severamente limitado porque as soluções de compartilhamento estão vinculadas a um único fornecedor. Isso cria atrito tanto para os provedores quanto para os consumidores de dados, que naturalmente utilizam plataformas diferentes.
Hoje, estamos lançando um novo projeto de código aberto que simplifica o compartilhamento entre organizações: o Delta Sharing, um protocolo aberto para troca segura em tempo real de grandes conjuntos de dados, que permite o compartilhamento seguro de dados entre produtos pela primeira vez. Estamos desenvolvendo o Delta Sharing com parceiros que estão entre os principais provedores de software e dados do mundo.
Para entender por que as soluções de compartilhamento de dados atuais criam atrito, imagine um varejista que deseja compartilhar dados com um analista de um de seus fornecedores. Hoje, o varejista poderia usar um dos vários data warehouses em nuvem que oferecem compartilhamento de dados, mas o analista precisaria trabalhar com suas equipes de TI, segurança e compras para implantar o mesmo produto de data warehouse em sua empresa, um processo que pode levar meses. Além disso, uma vez implantado o data warehouse, a primeira coisa que o analista faria seria exportar os dados dele para sua ferramenta de ciência de dados favorita, como pandas ou Tableau.
Com o Delta Sharing, os usuários de dados podem se conectar diretamente aos dados compartilhados por meio do pandas, Tableau ou dezenas de outros sistemas que implementam o protocolo aberto, sem a necessidade de implantar uma plataforma específica primeiro. Isso reduz o tempo de acesso de meses para minutos e diminui drasticamente o trabalho dos provedores de dados que desejam alcançar o maior número possível de usuários.
Estamos trabalhando com um ecossistema vibrante de parceiros no Delta Sharing, incluindo equipes de produtos dos principais fornecedores de nuvem, BI e dados:

Ecossistema do Delta Sharing
Neste post, explicaremos como o Delta Sharing funciona e por que estamos tão entusiasmados com uma abordagem aberta para o compartilhamento de dados.
O Delta Sharing foi projetado para ser fácil de usar, tanto para provedores quanto para consumidores, com seus dados e fluxos de trabalho existentes. Nós o projetamos com quatro objetivos em mente:
O Delta Sharing é um protocolo REST simples que compartilha com segurança o acesso a parte de um conjunto de dados na nuvem. Ele aproveita os sistemas modernos de armazenamento em nuvem, como S3, ADLS ou GCS, para transferir grandes conjuntos de dados de maneira confiável. Há duas partes envolvidas: Provedores de Dados e Destinatários.
Como Provedor de Dados, o Delta Sharing permite que você compartilhe tabelas existentes ou partes delas (por exemplo, versões de tabelas ou partições específicas) armazenadas em seu data lake na nuvem no formato Delta Lake. Uma tabela do Delta Lake é essencialmente uma coleção de arquivos Parquet, e é fácil envelopar tabelas Parquet existentes no Delta Lake, se necessário. O provedor de dados decide quais dados deseja compartilhar e executa um servidor de compartilhamento à frente deles que implementa o protocolo Delta Sharing e gerencia o acesso dos destinatários. Disponibilizamos um servidor de compartilhamento de referência em código aberto; e fornecemos um hospedado no Databricks, assim como imaginamos que outros fornecedores farão.
Como Destinatário de Dados, tudo o que você precisa é de um dos muitos clientes do Delta Sharing que suportam o protocolo. Lançamos conectores de código aberto para pandas, Apache Spark, Rust e Python, e estamos trabalhando com parceiros em muitos outros.

A troca real é cuidadosamente projetada para ser eficiente, aproveitando a funcionalidade dos sistemas de armazenamento em nuvem e do Delta Lake. O protocolo funciona da seguinte maneira:
O design do Delta Sharing oferece muitos benefícios tanto para provedores quanto para consumidores:
Como mencionado anteriormente, estamos entusiasmados em estabelecer uma abordagem aberta para o compartilhamento de dados. Provedores de dados, como a Nasdaq, nos disseram de forma unânime que é difícil demais entregar dados para diversos consumidores, sendo que todos usam ferramentas de analytics diferentes.
"Apoiamos o Delta Sharing e sua visão de um protocolo aberto que simplificará o compartilhamento seguro de dados e a colaboração entre organizações. O Delta Sharing aprimorará a forma como trabalhamos com nossos parceiros, reduzirá os custos operacionais e permitirá que mais usuários acessem uma gama abrangente do conjunto de dados da Nasdaq para descobrir insights e desenvolver estratégias financeiras”, disse Bill Dague, Head de Dados Alternativos da Nasdaq.
Com o Delta Sharing, dezenas de sistemas populares poderão se conectar diretamente aos dados compartilhados para que qualquer usuário possa usá-los, reduzindo o atrito para todos os participantes. Estamos trabalhando com dezenas de parceiros para definir o padrão do Delta Sharing e convidamos você a participar.
Muitas dessas empresas manifestaram seu apoio ao lançamento de hoje:
Ferramentas de BI: Tableau, Qlik, Power BI, Looker
Analytics: AtScale, Dremio, Starburst, Microsoft Azure, Google BigQuery
Governança: Collibra, Immuta, Alation, Privacera
Provedores de dados: FactSet, Nasdaq, Precisely, Safegraph, Atlassian, AWS, Foursquare, ICE, Qandl, S&P, SequenceBio
Os clientes do Databricks terão uma integração nativa do Delta Sharing em nosso Unity Catalog, proporcionando uma experiência simplificada para compartilhar dados tanto internamente quanto entre organizações. Os administradores poderão gerenciar compartilhamentos usando uma nova sintaxe SQL CREATE SHARE ou APIs REST e auditar todos os acessos de forma centralizada. Os destinatários poderão consumir os dados de qualquer plataforma. Inscreva-se para entrar na nossa lista de espera para acesso à versão preview e atualizações.

Esta primeira versão do Delta Sharing é apenas o começo. À medida que desenvolvemos o projeto, planejamos estendê-lo para o compartilhamento de outros objetos, como streams, views SQL ou arquivos arbitrários, como modelos de machine learning. Acreditamos que o futuro do compartilhamento de dados é aberto e estamos entusiasmados em trazer essa abordagem para outros fluxos de trabalho de compartilhamento.
Para testar a versão open source do Delta Sharing, siga as instruções em delta.io/sharing. Ou, se você for um cliente Databricks, inscreva-se para receber atualizações sobre o nosso serviço. Estamos muito entusiasmados para receber seu feedback!
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicaç ão original
Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.