Minimize o custo e a complexidade do compartilhamento de dados entre nuvens
por Tianyi Huang, Giselle Goicochea, Philip Jones e Harshal Brahmbhatt
O Delta Sharing evoluiu para OpenSharing, o primeiro protocolo aberto e neutro em relação a fornecedores para compartilhar com segurança ativos de AI, incluindo Agent Skills, modelos de AI e dados não estruturados. Leia o anúncio.
Agradecimentos especiais a Phillip Jones, Gerente de Produto Sênior, e Harshal Brahmbhatt, Engenheiro de Sistemas da Cloudflare por suas contribuições para este blog.
Organizações de diversos setores desejam compartilhar seus dados e ativos de AI de maneira única e unificada, independentemente de nuvens ou regiões. No entanto, muitas organizações ainda enfrentam dificuldades para compartilhar dados com clientes, equipes e parceiros, deparando-se com problemas e limitações de compatibilidade de plataforma, altos custos de egress e falta de governança e segurança. A Databricks e a Linux Foundation desenvolveram o Delta Sharing como a primeira abordagem aberta para compartilhamento seguro de dados. Os clientes vêm utilizando o Delta Sharing para compartilhar dados de forma fácil e segura entre plataformas, nuvens e regiões, sem a necessidade de replicação.
Hoje, temos o prazer de anunciar que a integração do Delta Sharing com o Cloudflare R2 está em Public Preview para ajudar os clientes que compartilham dados entre nuvens e regiões a economizar nos custos de egress. A Databricks agora oferece suporte ao Delta Sharing a partir do Cloudflare R2, a oferta de armazenamento de objetos distribuído e sem custo de egress da Cloudflare. Os clientes em comum agora podem aproveitar tarifas zero de egress sem a necessidade de replicações caras entre regiões e sem vendor lock-in.
A Databricks fez uma parceria com a Cloudflare para ajudar as organizações a compartilhar seus dados com clientes e parceiros de maneira única e unificada, independentemente de nuvem ou região. O Cloudflare R2 é um armazenamento distribuído com zero egress oferecido pela Cloudflare que permite aos clientes compartilhar os datasets mais atualizados com seus parceiros, fornecedores e linhas de negócios sem comprometer a segurança e a privacidade.
Matthew Prince, cofundador e CEO da Cloudflare, explicou o valor da parceria: "A combinação da enorme rede global da Cloudflare e do armazenamento com zero egress, juntamente com os poderosos recursos de compartilhamento e processamento da Databricks, dará aos nossos clientes em comum os recursos de compartilhamento de dados mais rápidos, seguros e acessíveis do mundo."
Ao usar o Delta Sharing com o Cloudflare R2, os clientes agora têm o controle de onde mover e usar seus dados e AI (datasets em tempo real, modelos e notebooks), compartilhando as informações mais recentes entre plataformas, nuvens e regiões sem necessidade de replicação, com zero custos de egress, sem vendor lock-in e sem comprometer a segurança e a governança.
"A combinação da enorme rede global da Cloudflare e do armazenamento com zero egress, juntamente com os poderosos recursos de compartilhamento e processamento da Databricks, dará aos nossos clientes em comum os recursos de compartilhamento de dados mais rápidos, seguros e acessíveis do mundo." — Matthew Prince, CEO e cofundador da Cloudflare
“O Delta Sharing oferece o primeiro protocolo aberto para compartilhamento de dados em diversas plataformas de computação, nuvens e regiões. Estamos entusiasmados com a forma como isso impulsionará o intercâmbio aberto e ajudará todos os nossos clientes a colaborar com mais facilidade”, explicou Matei Zaharia, cofundador e CTO da Databricks, sobre a parceria com a Cloudflare.
"O Delta Sharing oferece o primeiro protocolo aberto para compartilhamento de dados em diversas plataformas de computação, nuvens e regiões. Estamos entusiasmados com a forma como isso impulsionará o intercâmbio aberto e ajudará todos os nossos clientes a colaborar com mais facilidade." — Matei Zaharia, cofundador e CTO da Databricks
Nos últimos 15 anos, o setor financeiro foi transformado com a introdução da tecnologia blockchain e o uso de criptomoedas em vários setores. Essa evolução gerou uma quantidade cada vez maior de dados transacionais de blockchains públicas, disponíveis para que investidores e traders obtenham insights cruciais em tempo real.
Allium é um cliente da Databricks que oferece uma plataforma de dados simples com dados de blockchain rápidos e precisos. Eles ajudam clientes que vão desde instituições financeiras até empresas nativas de cripto a liberar todo o poder de seus dados. A Allium oferece uma infraestrutura de dados dedicada e produtos que incluem bancos de dados blockchain gerenciados, schemas de dados enriquecidos e recursos de notificação em tempo real. Eles são líderes nesse espaço, atendendo a 15 blockchains, incluindo EVMs e Bitcoin, mais de 100 schemas e mais de 250 TB de tamanho de dados para potencializar todos os tipos de aplicações cripto — desde contabilidade e auditoria para traders até filtragem de wash trading para marketplaces de NFT. A Allium atende seus clientes onde quer que estejam — em seu ambiente de dados, resultando em mais de 1 PB de transferência de dados mensalmente no último trimestre, e esse volume continua a aumentar após a recente recuperação das criptomoedas impulsionada pelo otimismo com os ETFs.
Embora o aumento massivo nos volumes de transferência de dados tenha contribuído para o rápido crescimento dos negócios da Allium, ele também trouxe um desafio significativo para suas finanças: como criar uma solução econômica de armazenamento e compartilhamento de dados que atenda às necessidades de seus clientes. Especificamente, como eles podem compartilhar dados com seus clientes em qualquer local — entre nuvens e regiões — e minimizar os altos custos de egress de dados dos provedores de nuvem.
Antes de adotar a solução conjunta do Delta Sharing com o Cloudflare R2, a Allium havia implementado outras plataformas, mas as considerou proibitivamente caras, com custos estimados chegando a US$ 53,8 mil mensais para um egress de dados de 1 Petabyte, totalizando aproximadamente US$ 645 mil anualmente.
“Inicialmente, aproveitamos o sistema de replicação do Snowflake, mas ele carecia de controle e era caro. No Snowflake, fornecer dados para diferentes regiões exige que repliquemos os dados para essa região, o que gera automaticamente muitos custos de armazenamento, além de alguns custos de egress. Essa despesa aumenta exponencialmente para qualquer alteração operacional de schema, o que acontece com frequência em nossa escala”, explica Ethan Chan, cofundador e CEO da Allium.
"No Snowflake, fornecer dados para diferentes regiões exige que repliquemos os dados para essa região, o que gera automaticamente muitos custos de armazenamento, além de alguns custos de egress. Essa despesa aumenta exponencialmente para qualquer alteração operacional de schema, o que acontece com frequência em nossa escala." — Ethan Chan, cofundador e CEO da Allium
A combinação do Delta Sharing com o Cloudflare R2 proporcionou à Allium uma solução de compartilhamento de dados segura e econômica, sem a necessidade de replicações complexas e caras ou de vendor lock-in. A Allium agora tem o controle de onde mover e usar seus dados com o suporte multicloud do Delta Sharing e consolidou seu armazenamento em nuvem com o Cloudflare R2 para criar sua plataforma de compartilhamento de dados de última geração.
Chan explica: "A combinação do Delta Sharing com o Cloudflare R2 nos permite entregar dados aos nossos clientes de forma confiável e econômica. Entregamos dados de blockchain da mais alta qualidade aos nossos clientes em seu ambiente preferido, ao mesmo tempo em que minimizamos nossos custos de armazenamento e egress, economizando até US$ 645 mil por ano. Além disso, isso nos dá o controle e a segurança necessários para expandir nossas ofertas de forma sustentável."
A Allium usa essa integração para maximizar sua economia de custos (veja o diagrama abaixo), persistindo os dados de blockchain usando o Delta UniForm (Delta Lake Universal Format), uma maneira simples de unificar formatos de tabela Parquet sem criar cópias adicionais. A Allium habilita conectores Apache Iceberg e Delta que leem os dados armazenados no Cloudflare R2. Eles também implementam o Delta Sharing para compartilhar seus dados de forma simples e segura entre regiões e plataformas, tudo com zero custos de egress para transferências de saída.
"A combinação do Delta Sharing com o Cloudflare R2 nos permite entregar dados aos nossos clientes de forma confiável e econômica. Entregamos dados de blockchain da mais alta qualidade aos nossos clientes em seu ambiente preferido, ao mesmo tempo em que minimizamos nossos custos de armazenamento e egress, economizando até US$ 645 mil por ano." — Ethan Chan, cofundador e CEO da Allium

A Allium também expandiu recentemente sua linha de produtos para compartilhar seus Ethereum Realtime Data, agora listados no Databricks Marketplace. Esse conjunto de dados ajuda os usuários do espaço de criptomoedas a compartilhar insights valiosos sobre a dinâmica do Ethereum. Disponível para compra, ele inclui vários detalhes sobre o blockchain do Ethereum, incluindo contratos inteligentes, mercados de NFT e finanças descentralizadas (DeFi) e muito mais.
Outro exemplo de tipo de cliente que pode se beneficiar do uso do Delta Sharing e do Cloudflare R2 é um agregador de dados que utiliza um padrão de arquitetura comum de "hub and spoke" (centralizador e distribuidores). Um agregador de dados é especializado em coletar e mesclar dados de diversas fontes em um conjunto de dados unificado e coeso. Um cenário de compartilhamento de dados "hub and spoke" é definido como um para muitos, onde uma organização compartilha com muitos clientes. Esses agregadores de dados são especializados em coletar, mesclar e compartilhar conjuntos de dados com vários clientes em diferentes regiões, nuvens e plataformas. No entanto, essas organizações enfrentam um desafio comum: como dimensionar o compartilhamento de dados de maneira econômica e previsível. O ideal é que elas possam se beneficiar de economias de escala, de modo que, à medida que o número de clientes aumenta, o custo de compartilhamento aumente apenas marginalmente. Além disso, elas não querem ter nenhuma dependência de seus clientes adotando a replicação de dados para economizar custos, mas sim ter o controle total do gerenciamento dos custos com uma abordagem previsível.
Os setores que normalmente usam agregadores de dados incluem serviços financeiros, saúde e ciências da vida, e mídia e entretenimento. O compartilhamento de dados ajuda a impulsionar necessidades de negócios críticas, como tomada de decisões, análise de mercado, pesquisa e suporte às operações gerais de negócios. Por exemplo, os agregadores de dados desempenham um papel crucial na viabilização de vários aplicativos e serviços financeiros, como aplicativos de orçamento, plataformas de investimento, soluções de empréstimo e muito mais, acessando e analisando com segurança as informações financeiras dos usuários. Consulte a tabela abaixo para ver alguns casos de uso específicos de cada setor.
| Setor | Caso de uso do agregador de dados | Detalhes do caso de uso |
|---|---|---|
| Mídia e entretenimento | Arquivamento de conteúdo | Os agregadores podem ser usados para arquivar conteúdo de forma sistemática, facilitando para as empresas de mídia compartilhar seu conteúdo com parceiros e clientes para acessar e reaproveitar seu conteúdo histórico para novos públicos ou plataformas. |
| Serviços financeiros | Pontuação de crédito e avaliação de risco | Os agregadores de dados fornecem insights sobre o comportamento financeiro dos usuários, como padrões de gastos, níveis de renda e obrigações de dívida. Essas informações são compartilhadas e podem ser usadas por credores e instituições financeiras para avaliar o risco de crédito e ajudá-los a tomar decisões de empréstimo com base nas classificações de crédito gerais. |
| Saúde e ciências da vida | Eficácia comercial | Os agregadores de dados de saúde podem fornecer dados de prescrição clínica para hospitais, provedores de saúde, empresas farmacêuticas e instituições de pesquisa para análise e uso de diversas maneiras. Isso pode incluir a identificação de novos mercados para entrar, a medição da dinâmica dos canais de vendas ou padrões de compra em farmácias de varejo ou hospitais. |
Os custos de saída de dados (egress) da nuvem geralmente aumentam proporcionalmente com o volume de dados consultados no compartilhamento de dados. O diagrama abaixo mostra que, à medida que o número de consultas (e o volume de dados) aumenta, o custo de saída também aumenta. Os clientes podem usar essa abordagem para comparar diferentes soluções de armazenamento e quantificar o custo-benefício de usar a solução do Cloudflare R2, que não introduz nenhum custo de saída de dados. Como destaca o diagrama abaixo, a solução do Cloudflare R2 pode gerar economias significativas em relação a outras soluções de armazenamento em nuvem.
Por exemplo, com base em premissas de preços padrão, a análise abaixo indica que os ativos de dados cujas atividades de transferência de dados excedem 26% entre diferentes nuvens ou 85% entre regiões mensalmente podem se beneficiar de economias mensais significativas tanto nos custos de armazenamento quanto nos de saída de dados.1

O Delta Sharing e o Cloudflare R2 já estão disponíveis em Public Preview. Para implementar a solução conjunta, você não precisa migrar todos os seus dados para o Cloudflare R2 (consulte o blog relacionado, Arquitetando a colaboração global de dados com o Delta Sharing). Você só precisa replicar os dados compartilhados uma vez para o R2, em três etapas fáceis (veja o diagrama abaixo):

Consulte a documentação técnica para obter mais detalhes. Você também pode enviar seu feedback para a nossa equipe em datacollaboration@databricks.com.
Ao usar o Delta Sharing com o Cloudflare R2, agora você pode se beneficiar de uma nova abordagem para compartilhar dados e AI entre plataformas, nuvens e regiões, com zero custo de saída de dados, sem dependência de fornecedor (vendor lock-in) e sem comprometer a segurança e a governança.
Saiba mais sobre como integrar o Delta Sharing à sua estratégia de colaboração de dados com os recursos mais recentes:
1 O cálculo de economia de custos foi baseado na premissa de que 10% dos dados são atualizados mensalmente e os dados são replicados para o Cloudflare R2 para fins de compartilhamento, mantendo a cópia original no S3.
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.