Ir para o conteúdo principal
Soluções

Anunciando o Preview Público do Delta Sharing com integração ao Cloudflare R2

Minimize o custo e a complexidade do compartilhamento de dados entre nuvens

por Tianyi Huang, Giselle Goicochea, Philip Jones e Harshal Brahmbhatt

O Delta Sharing evoluiu para OpenSharing, o primeiro protocolo aberto e neutro em relação a fornecedores para compartilhar com segurança ativos de AI, incluindo Agent Skills, modelos de AI e dados não estruturados. Leia o anúncio.

Agradecimentos especiais a Phillip Jones, Gerente de Produto Sênior, e Harshal Brahmbhatt, Engenheiro de Sistemas da Cloudflare por suas contribuições para este blog.

Organizações de diversos setores desejam compartilhar seus dados e ativos de AI de maneira única e unificada, independentemente de nuvens ou regiões. No entanto, muitas organizações ainda enfrentam dificuldades para compartilhar dados com clientes, equipes e parceiros, deparando-se com problemas e limitações de compatibilidade de plataforma, altos custos de egress e falta de governança e segurança. A Databricks e a Linux Foundation desenvolveram o Delta Sharing como a primeira abordagem aberta para compartilhamento seguro de dados. Os clientes vêm utilizando o Delta Sharing para compartilhar dados de forma fácil e segura entre plataformas, nuvens e regiões, sem a necessidade de replicação.

Hoje, temos o prazer de anunciar que a integração do Delta Sharing com o Cloudflare R2 está em Public Preview para ajudar os clientes que compartilham dados entre nuvens e regiões a economizar nos custos de egress. A Databricks agora oferece suporte ao Delta Sharing a partir do Cloudflare R2, a oferta de armazenamento de objetos distribuído e sem custo de egress da Cloudflare. Os clientes em comum agora podem aproveitar tarifas zero de egress sem a necessidade de replicações caras entre regiões e sem vendor lock-in.

Parceria estratégica com a Cloudflare

A Databricks fez uma parceria com a Cloudflare para ajudar as organizações a compartilhar seus dados com clientes e parceiros de maneira única e unificada, independentemente de nuvem ou região. O Cloudflare R2 é um armazenamento distribuído com zero egress oferecido pela Cloudflare que permite aos clientes compartilhar os datasets mais atualizados com seus parceiros, fornecedores e linhas de negócios sem comprometer a segurança e a privacidade.

Matthew Prince, cofundador e CEO da Cloudflare, explicou o valor da parceria: "A combinação da enorme rede global da Cloudflare e do armazenamento com zero egress, juntamente com os poderosos recursos de compartilhamento e processamento da Databricks, dará aos nossos clientes em comum os recursos de compartilhamento de dados mais rápidos, seguros e acessíveis do mundo."

Ao usar o Delta Sharing com o Cloudflare R2, os clientes agora têm o controle de onde mover e usar seus dados e AI (datasets em tempo real, modelos e notebooks), compartilhando as informações mais recentes entre plataformas, nuvens e regiões sem necessidade de replicação, com zero custos de egress, sem vendor lock-in e sem comprometer a segurança e a governança.

"A combinação da enorme rede global da Cloudflare e do armazenamento com zero egress, juntamente com os poderosos recursos de compartilhamento e processamento da Databricks, dará aos nossos clientes em comum os recursos de compartilhamento de dados mais rápidos, seguros e acessíveis do mundo." — Matthew Prince, CEO e cofundador da Cloudflare

“O Delta Sharing oferece o primeiro protocolo aberto para compartilhamento de dados em diversas plataformas de computação, nuvens e regiões. Estamos entusiasmados com a forma como isso impulsionará o intercâmbio aberto e ajudará todos os nossos clientes a colaborar com mais facilidade”, explicou Matei Zaharia, cofundador e CTO da Databricks, sobre a parceria com a Cloudflare.

"O Delta Sharing oferece o primeiro protocolo aberto para compartilhamento de dados em diversas plataformas de computação, nuvens e regiões. Estamos entusiasmados com a forma como isso impulsionará o intercâmbio aberto e ajudará todos os nossos clientes a colaborar com mais facilidade." — Matei Zaharia, cofundador e CTO da Databricks

Allium economiza até US$ 645 mil por ano usando Delta Sharing e Cloudflare R2

Nos últimos 15 anos, o setor financeiro foi transformado com a introdução da tecnologia blockchain e o uso de criptomoedas em vários setores. Essa evolução gerou uma quantidade cada vez maior de dados transacionais de blockchains públicas, disponíveis para que investidores e traders obtenham insights cruciais em tempo real.

Allium é um cliente da Databricks que oferece uma plataforma de dados simples com dados de blockchain rápidos e precisos. Eles ajudam clientes que vão desde instituições financeiras até empresas nativas de cripto a liberar todo o poder de seus dados. A Allium oferece uma infraestrutura de dados dedicada e produtos que incluem bancos de dados blockchain gerenciados, schemas de dados enriquecidos e recursos de notificação em tempo real. Eles são líderes nesse espaço, atendendo a 15 blockchains, incluindo EVMs e Bitcoin, mais de 100 schemas e mais de 250 TB de tamanho de dados para potencializar todos os tipos de aplicações cripto — desde contabilidade e auditoria para traders até filtragem de wash trading para marketplaces de NFT. A Allium atende seus clientes onde quer que estejam — em seu ambiente de dados, resultando em mais de 1 PB de transferência de dados mensalmente no último trimestre, e esse volume continua a aumentar após a recente recuperação das criptomoedas impulsionada pelo otimismo com os ETFs.

Embora o aumento massivo nos volumes de transferência de dados tenha contribuído para o rápido crescimento dos negócios da Allium, ele também trouxe um desafio significativo para suas finanças: como criar uma solução econômica de armazenamento e compartilhamento de dados que atenda às necessidades de seus clientes. Especificamente, como eles podem compartilhar dados com seus clientes em qualquer local — entre nuvens e regiões — e minimizar os altos custos de egress de dados dos provedores de nuvem.

Antes de adotar a solução conjunta do Delta Sharing com o Cloudflare R2, a Allium havia implementado outras plataformas, mas as considerou proibitivamente caras, com custos estimados chegando a US$ 53,8 mil mensais para um egress de dados de 1 Petabyte, totalizando aproximadamente US$ 645 mil anualmente.

“Inicialmente, aproveitamos o sistema de replicação do Snowflake, mas ele carecia de controle e era caro. No Snowflake, fornecer dados para diferentes regiões exige que repliquemos os dados para essa região, o que gera automaticamente muitos custos de armazenamento, além de alguns custos de egress. Essa despesa aumenta exponencialmente para qualquer alteração operacional de schema, o que acontece com frequência em nossa escala”, explica Ethan Chan, cofundador e CEO da Allium.

"No Snowflake, fornecer dados para diferentes regiões exige que repliquemos os dados para essa região, o que gera automaticamente muitos custos de armazenamento, além de alguns custos de egress. Essa despesa aumenta exponencialmente para qualquer alteração operacional de schema, o que acontece com frequência em nossa escala." — Ethan Chan, cofundador e CEO da Allium

A combinação do Delta Sharing com o Cloudflare R2 proporcionou à Allium uma solução de compartilhamento de dados segura e econômica, sem a necessidade de replicações complexas e caras ou de vendor lock-in. A Allium agora tem o controle de onde mover e usar seus dados com o suporte multicloud do Delta Sharing e consolidou seu armazenamento em nuvem com o Cloudflare R2 para criar sua plataforma de compartilhamento de dados de última geração.

Chan explica: "A combinação do Delta Sharing com o Cloudflare R2 nos permite entregar dados aos nossos clientes de forma confiável e econômica. Entregamos dados de blockchain da mais alta qualidade aos nossos clientes em seu ambiente preferido, ao mesmo tempo em que minimizamos nossos custos de armazenamento e egress, economizando até US$ 645 mil por ano. Além disso, isso nos dá o controle e a segurança necessários para expandir nossas ofertas de forma sustentável."

A Allium usa essa integração para maximizar sua economia de custos (veja o diagrama abaixo), persistindo os dados de blockchain usando o Delta UniForm (Delta Lake Universal Format), uma maneira simples de unificar formatos de tabela Parquet sem criar cópias adicionais. A Allium habilita conectores Apache Iceberg e Delta que leem os dados armazenados no Cloudflare R2. Eles também implementam o Delta Sharing para compartilhar seus dados de forma simples e segura entre regiões e plataformas, tudo com zero custos de egress para transferências de saída.

"A combinação do Delta Sharing com o Cloudflare R2 nos permite entregar dados aos nossos clientes de forma confiável e econômica. Entregamos dados de blockchain da mais alta qualidade aos nossos clientes em seu ambiente preferido, ao mesmo tempo em que minimizamos nossos custos de armazenamento e egress, economizando até US$ 645 mil por ano." — Ethan Chan, cofundador e CEO da Allium

Plataforma de dados Allium

A Allium também expandiu recentemente sua linha de produtos para compartilhar seus Ethereum Realtime Data, agora listados no Databricks Marketplace. Esse conjunto de dados ajuda os usuários do espaço de criptomoedas a compartilhar insights valiosos sobre a dinâmica do Ethereum. Disponível para compra, ele inclui vários detalhes sobre o blockchain do Ethereum, incluindo contratos inteligentes, mercados de NFT e finanças descentralizadas (DeFi) e muito mais.

Principais casos de uso do setor

Outro exemplo de tipo de cliente que pode se beneficiar do uso do Delta Sharing e do Cloudflare R2 é um agregador de dados que utiliza um padrão de arquitetura comum de "hub and spoke" (centralizador e distribuidores). Um agregador de dados é especializado em coletar e mesclar dados de diversas fontes em um conjunto de dados unificado e coeso. Um cenário de compartilhamento de dados "hub and spoke" é definido como um para muitos, onde uma organização compartilha com muitos clientes. Esses agregadores de dados são especializados em coletar, mesclar e compartilhar conjuntos de dados com vários clientes em diferentes regiões, nuvens e plataformas. No entanto, essas organizações enfrentam um desafio comum: como dimensionar o compartilhamento de dados de maneira econômica e previsível. O ideal é que elas possam se beneficiar de economias de escala, de modo que, à medida que o número de clientes aumenta, o custo de compartilhamento aumente apenas marginalmente. Além disso, elas não querem ter nenhuma dependência de seus clientes adotando a replicação de dados para economizar custos, mas sim ter o controle total do gerenciamento dos custos com uma abordagem previsível.

Os setores que normalmente usam agregadores de dados incluem serviços financeiros, saúde e ciências da vida, e mídia e entretenimento. O compartilhamento de dados ajuda a impulsionar necessidades de negócios críticas, como tomada de decisões, análise de mercado, pesquisa e suporte às operações gerais de negócios. Por exemplo, os agregadores de dados desempenham um papel crucial na viabilização de vários aplicativos e serviços financeiros, como aplicativos de orçamento, plataformas de investimento, soluções de empréstimo e muito mais, acessando e analisando com segurança as informações financeiras dos usuários. Consulte a tabela abaixo para ver alguns casos de uso específicos de cada setor.

SetorCaso de uso do agregador de dadosDetalhes do caso de uso
Mídia e entretenimentoArquivamento de conteúdoOs agregadores podem ser usados para arquivar conteúdo de forma sistemática, facilitando para as empresas de mídia compartilhar seu conteúdo com parceiros e clientes para acessar e reaproveitar seu conteúdo histórico para novos públicos ou plataformas.
Serviços financeirosPontuação de crédito e avaliação de riscoOs agregadores de dados fornecem insights sobre o comportamento financeiro dos usuários, como padrões de gastos, níveis de renda e obrigações de dívida. Essas informações são compartilhadas e podem ser usadas por credores e instituições financeiras para avaliar o risco de crédito e ajudá-los a tomar decisões de empréstimo com base nas classificações de crédito gerais.
Saúde e ciências da vidaEficácia comercialOs agregadores de dados de saúde podem fornecer dados de prescrição clínica para hospitais, provedores de saúde, empresas farmacêuticas e instituições de pesquisa para análise e uso de diversas maneiras. Isso pode incluir a identificação de novos mercados para entrar, a medição da dinâmica dos canais de vendas ou padrões de compra em farmácias de varejo ou hospitais.

Calcule a economia e saiba quando implementar uma solução conjunta

Os custos de saída de dados (egress) da nuvem geralmente aumentam proporcionalmente com o volume de dados consultados no compartilhamento de dados. O diagrama abaixo mostra que, à medida que o número de consultas (e o volume de dados) aumenta, o custo de saída também aumenta. Os clientes podem usar essa abordagem para comparar diferentes soluções de armazenamento e quantificar o custo-benefício de usar a solução do Cloudflare R2, que não introduz nenhum custo de saída de dados. Como destaca o diagrama abaixo, a solução do Cloudflare R2 pode gerar economias significativas em relação a outras soluções de armazenamento em nuvem.

Por exemplo, com base em premissas de preços padrão, a análise abaixo indica que os ativos de dados cujas atividades de transferência de dados excedem 26% entre diferentes nuvens ou 85% entre regiões mensalmente podem se beneficiar de economias mensais significativas tanto nos custos de armazenamento quanto nos de saída de dados.1

Transferência de dados

Experimente o Delta Sharing e o Cloudflare R2

O Delta Sharing e o Cloudflare R2 já estão disponíveis em Public Preview. Para implementar a solução conjunta, você não precisa migrar todos os seus dados para o Cloudflare R2 (consulte o blog relacionado, Arquitetando a colaboração global de dados com o Delta Sharing). Você só precisa replicar os dados compartilhados uma vez para o R2, em três etapas fáceis (veja o diagrama abaixo):

  1. Adicione o Cloudflare R2 como um local de armazenamento externo
  2. Crie novas tabelas, volumes ou modelos de ML no Cloudflare R2 e sincronize os dados de forma incremental usando o Deep Clone
  3. Crie um Delta Share, como de costume, na tabela do R2

Modelo de compartilhamento de dados Delta Sharing para agregador de dados global

Consulte a documentação técnica para obter mais detalhes. Você também pode enviar seu feedback para a nossa equipe em datacollaboration@databricks.com.

Ao usar o Delta Sharing com o Cloudflare R2, agora você pode se beneficiar de uma nova abordagem para compartilhar dados e AI entre plataformas, nuvens e regiões, com zero custo de saída de dados, sem dependência de fornecedor (vendor lock-in) e sem comprometer a segurança e a governança.

Saiba mais sobre como integrar o Delta Sharing à sua estratégia de colaboração de dados com os recursos mais recentes:

1 O cálculo de economia de custos foi baseado na premissa de que 10% dos dados são atualizados mensalmente e os dados são replicados para o Cloudflare R2 para fins de compartilhamento, mantendo a cópia original no S3.

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.