Atualização: Delta Sharing agora está em disponibilidade geral na AWS e no Azure.
Confira em primeira mão o novo ebook da O'Reilly com a orientação passo a passo que você precisa para começar a usar o Delta Lake.
O compartilhamento de dados tornou-se essencial na economia moderna, à medida que as empresas buscam trocar dados de forma segura com seus clientes, fornecedores e parceiros. Por exemplo, um varejista pode querer publicar dados de vendas para seus fornecedores em tempo real, ou um fornecedor pode querer compartilhar o inventário em tempo real. Mas, até agora, o compartilhamento de dados tem sido severamente limitado porque as soluções de compartilhamento estão vinculadas a um único fornecedor. Isso cria atrito tanto para provedores quanto para consumidores de dados, que naturalmente executam plataformas diferentes.
Hoje, estamos lançando um novo projeto de código aberto que simplifica o compartilhamento entre organizações: Delta Sharing, um protocolo aberto para a troca segura e em tempo real de grandes conjuntos de dados, que permite, pela primeira vez, o compartilhamento de dados seguro entre produtos. Estamos desenvolvendo o Delta Sharing com parceiros dos principais provedores de software e dados do mundo.
Para entender por que as soluções atuais de compartilhamento de dados criam atrito, considere um varejista que deseja compartilhar dados com um analista de um de seus fornecedores. Hoje, o varejista poderia usar um dos vários data warehouses em nuvem que oferecem compartilhamento de dados, mas o analista precisaria trabalhar com suas equipes de IT, segurança e compras para implantar o mesmo produto de data warehouse em sua empresa, um processo que pode levar meses. Além disso, assim que o warehouse for implantado, a primeira coisa que o analista faria seria exportar os dados dele para sua ferramenta de ciência de dados favorita, como pandas ou Tableau.
Com o Delta Sharing, os usuários de dados podem se conectar diretamente aos dados compartilhados por meio do pandas, Tableau ou de dezenas de outros sistemas que implementam o protocolo aberto, sem precisar implantar uma plataforma específica primeiro. Isso reduz o tempo de acesso de meses para minutos e diminui muito o trabalho dos provedores de dados que desejam alcançar o maior número possível de usuários.
Estamos trabalhando com um ecossistema vibrante de parceiros no Delta Sharing, incluindo equipes do produto dos principais fornecedores de cloud, BI e dados:
Ecossistema Delta Sharing
Neste post, explicaremos como o Delta Sharing funciona e por que estamos tão entusiasmados com uma abordagem aberta para o compartilhamento de dados.
O Delta Sharing foi projetado para facilitar o uso por provedores e consumidores com seus dados e fluxos de trabalho existentes. Nós o projetamos com quatro objetivos em mente:
O Delta Sharing é um protocolo REST simples que compartilha com segurança o acesso a parte de um dataset na cloud. Utiliza sistemas modernos de armazenamento em nuvem, como S3, ADLS ou GCS, para transferir grandes datasets de forma confiável. Há duas partes envolvidas: Provedores de dados e Destinatários.
Como Provedor de dados, o Delta Sharing permite que você compartilhe tabelas existentes ou partes delas (por exemplo, versões de tabelas de partições específicas) armazenadas em seu data lake na nuvem no formato Delta Lake. Uma tabela do Delta Lake é essencialmente um conjunto de arquivos Parquet, e é fácil encapsular tabelas Parquet existentes no Delta Lake, se necessário. O provedor de dados decide quais dados deseja compartilhar e executa um servidor de compartilhamento que implementa o protocolo Delta Sharing e gerencia o acesso para os destinatários. Disponibilizamos como código aberto um servidor de compartilhamento de referência; e fornecemos um hospedado no Databricks, assim como imaginamos que outros fornecedores farão.
Como um Destinatário de Dados, tudo o que você precisa é um dos muitos clientes Delta Sharing que oferecem suporte ao protocolo. Lançamos conectores de código aberto para pandas, Apache Spark, Rust e Python e estamos trabalhando com parceiros em muitos outros.
A troca real é cuidadosamente projetada para ser eficiente, aproveitando a funcionalidade dos sistemas de armazenamento em cloud e do Delta Lake. O protocolo funciona da seguinte forma:
O design do Delta Sharing oferece muitos benefícios tanto para provedores quanto para consumidores:
Como mencionado anteriormente, estamos animados em estabelecer uma abordagem aberta para o compartilhamento de dados. Os fornecedores de dados, como a Nasdaq, nos disseram de forma unânime que é muito difícil entregar dados a consumidores diversos, já que todos usam diferentes ferramentas de analítica.
"Apoiamos o Delta Sharing e sua visão de um protocolo aberto que simplificará o compartilhamento seguro de dados e a colaboração entre organizações. O Delta Sharing aprimorará a forma como trabalhamos com nossos parceiros, reduzirá os custos operacionais e permitirá que mais usuários acessem uma gama abrangente do pacote de dados da Nasdaq para descobrir percepções e desenvolver estratégias financeiras”, disse Bill Dague, Head de Dados Alternativos da Nasdaq.
Com o Delta Sharing, dezenas de sistemas populares poderão se conectar diretamente aos dados compartilhados para que qualquer usuário possa usá-los, reduzindo o atrito para todos os participantes. Estamos trabalhando com dezenas de parceiros para definir o padrão Delta Sharing e convidamos você a participar.
Muitas dessas empresas estenderam seu suporte para o lançamento de hoje:
Ferramentas de BI: Tableau, Qlik, Power BI, Looker
Analítica: AtScale, Dremio, Starburst, Microsoft Azure, Google BigQuery
Governança: Collibra, Immuta, Alation, Privacera
Provedores de dados: FactSet, Nasdaq, Precisely, Safegraph, Atlassian, AWS, Foursquare, ICE, Qandl, S&P, SequenceBio
Os clientes da Databricks terão uma integração nativa do Delta Sharing em nosso Unity Catalog, proporcionando uma experiência simplificada para o compartilhamento de dados tanto dentro quanto entre organizações. Os administradores poderão gerenciar compartilhamentos usando uma nova sintaxe SQL CREATE SHARE ou APIs REST e auditar todos os acessos de forma centralizada. Os destinatários poderão consumir os dados de qualquer plataforma. Inscreva-se em nossa lista de espera para ter acesso à prévia e receber atualizações.
Esta primeira versão do Delta Sharing é apenas o começo. À medida que desenvolvemos o projeto, planejamos estendê-lo para o compartilhamento de outros objetos, como transmissões, views SQL ou arquivos arbitrários como modelos do machine learning. Acreditamos que o futuro do compartilhamento de dados é aberto e estamos entusiasmados em levar essa abordagem para outros fluxos de trabalho de compartilhamento.
Para experimentar a versão de código aberto do Delta Sharing, siga as instruções em delta.io/sharing. Ou, se você for um cliente da Databricks, inscreva-se para receber atualizações sobre nosso serviço. Estamos muito animados para ouvir seu feedback!
Produto
June 12, 2024/11 min de leitura
Produto
September 12, 2024/8 min de leitura


