Ir para o conteúdo principal
Anúncios

Apresentamos o OpenSharing: a próxima evolução do Delta Sharing para a Era Agêntica

O primeiro protocolo aberto do setor para o compartilhamento de dados, modelos, agentes e habilidades em qualquer nuvem, fornecedor e formato

por Huey Han, Harish Gaur, Akram Chetibi e Mengxi Chen

Quando a Databricks foi pioneira no Delta Sharing em 2021, decidimos resolver um problema que toda equipe de dados conhecia muito bem: compartilhar dados em tempo real além dos limites organizacionais era lento, frágil e cheio de concessões. Ou você copiava os dados — criando réplicas desatualizadas e dores de cabeça com conformidade — ou se limitava a compartilhar apenas com parceiros na mesma plataforma que você, restringindo significativamente a inovação.

O Delta Sharing mudou isso. Um único protocolo aberto. Sem cópia de dados. Sem silos de plataforma. E, nos cinco anos seguintes, ele se tornou o protocolo aberto de compartilhamento de dados zero-copy mais amplamente adotado — com mais de 28.000 destinatários de dados e 33% dos compartilhamentos fluindo entre plataformas por meio de conectores abertos. Empresas líderes como SAP, Atlassian, Mercedes-Benz, The Trade Desk, LSEG, S&P Global e muitas outras adotaram o Delta Sharing para compartilhar e colaborar em dados.

Mas o mundo evoluiu. O surgimento da AI agentiva mudou fundamentalmente o que as empresas precisam compartilhar. Hoje, estamos dando o próximo passo.

Temos o prazer de anunciar o OpenSharing — a próxima evolução do Delta Sharing e o primeiro protocolo aberto do setor criado para a era agentiva. O OpenSharing eleva o Delta Sharing a um projeto de código aberto independente, expandindo seu escopo do compartilhamento de dados para todo o stack de AI: modelos, agentes — em qualquer nuvem, qualquer fornecedor e qualquer formato.

Por que os protocolos de compartilhamento precisam evoluir para a AI

O Delta Sharing foi criado para un mundo de tabelas e arquivos. Mas agora as organizações precisam trocar contexto semântico, habilidades de AI, dados não estruturados e agentes autônomos além dos limites de nuvem, fornecedor e empresa. Os protocolos de compartilhamento atuais continuam limitados a formatos específicos de fornecedores, não conseguem lidar com a lógica de AI e dependem de redes frágeis que levam semanas para serem configuradas para cada novo parceiro.

O resultado: a colaboração fica mais lenta, os silos de dados persistem e o valor contido nos dados corporativos deixa de ser aproveitado.

O OpenSharing resolve isso. É um protocolo aberto único que compartilha dados e AI em qualquer formato, qualquer nuvem e qualquer limite organizacional — oferecendo suporte nativo ao Delta Lake, Apache Iceberg e Parquet para que os dados permaneçam onde estão e fluam para quem precisar deles.

"O Delta Sharing provou que o setor escolheria o formato aberto em vez do proprietário. O OpenSharing estende esse princípio para todo o stack de AI, ao mesmo tempo em que expande o ecossistema multiplataforma para destinatários do Iceberg e provedores on-premises. A era agentiva merece uma base aberta, e o OpenSharing a oferece." — Matei Zaharia, cofundador e CTO da Databricks.

OpenSharing no Databricks

O OpenSharing existe em duas camadas. O protocolo de código aberto — agora hospedado pela Linux Foundation — é a especificação publicada que qualquer fornecedor ou membro da comunidade pode implementar. O Databricks OpenSharing é a implementação corporativa do protocolo aberto, integrada a outros recursos do Databricks, como o Unity Catalog para governança e logs de auditoria, o Marketplace para descoberta e muito mais.

Temos o prazer de lançar um conjunto de recursos para o OpenSharing no Databricks.

Genie Agent Sharing: compartilhe uma experiência de AI governada, não apenas dados

Pela primeira vez, as organizações podem compartilhar experiências de AI governadas — e não apenas conjuntos de dados — além dos limites organizacionais.

Genie Agents são os ambientes de análise conversacional baseados em AI do Databricks. Com o OpenSharing, um provedor agora pode compartilhar Genie Agents — incluindo seu contexto semântico subjacente, métricas de negócios e lógica de AI reutilizável — com qualquer parceiro ou cliente, com governança de ponta a ponta por meio do Unity Catalog. Opcionalmente, os provedores podem controlar como os destinatários acessam os dados — incluindo ocultar instruções proprietárias do Genie, restringir o acesso a dados apenas ao Genie Agent, definir cotas diárias de prompts e limitar a exportação de linhas. Esses controles abrem novas oportunidades de monetização para provedores de dados, como preços baseados no uso em vez de uma licença de dados completa.

SecureConnect e Global Distribution: rede multicloud mais simples, custos de saída (egress) menores

O compartilhamento de dados entre nuvens sempre apresentou dois problemas distintos. O OpenSharing no Databricks agora resolve ambos.

O primeiro é a rede. Quando o armazenamento do provedor está protegido por uma rede privada — o que quase sempre acontece em trocas de dados confidenciais ou setores regulamentados —, a integração de um novo destinatário pode levar semanas de liberação manual de IPs (allowlisting), coordenação de firewall e idas e vindas com administradores de nuvem. Para provedores com dezenas ou centenas de destinatários, isso não é escalável. O SecureConnect resolve esse problema: um proxy gerenciado pelo Databricks que roteia o acesso ao armazenamento em nome de todos os destinatários. Configure uma única vez — sem necessidade de alterações de firewall por destinatário, nunca mais. Leia o blog de anúncio.

SecureConnect

O segundo é o custo de saída (egress). As consultas entre nuvens geram taxas de saída que se acumulam em escala, tornando-se um custo significativo e imprevisível que inviabiliza economicamente o compartilhamento amplo em multicloud. O Global Distribution resolve isso com replicação automática entre regiões e entre nuvens. Os destinatários consultam uma réplica local — de forma rápida e sem taxas de saída. Os provedores obtêm uma estrutura de custos previsível. As equipes globais obtêm acesso de baixa latência, independentemente de onde os dados de origem estejam.

Open Client Interoperability & On-prem Storage Ecosystem: encontre seus parceiros onde eles estiverem

O OpenSharing foi criado com base na convicção de que os ecossistemas de dados prosperam quando são verdadeiramente abertos — não apenas no nome, mas na prática. Isso significa oferecer suporte aos formatos, sistemas de armazenamento e clientes que seus parceiros já utilizam.

Storage Ecosystem: governe tudo, onde quer que esteja

Nem todos os dados corporativos podem — ou devem — ser movidos para a nuvem. Exigências regulatórias, gravidade dos dados, latência de borda (edge) e a própria questão econômica significam que alguns dos dados mais valiosos do mundo permanecerão on-premises. O OpenSharing chega até eles.
O Databricks Storage Ecosystem traz a Databricks Data Intelligence Platform diretamente para ambientes on-premises, de nuvem privada e de borda (edge) — com tecnologia OpenSharing. Os parceiros de armazenamento implementam o servidor OpenSharing, conectando seus patrimônios de dados ao Unity Catalog sem mover um único byte. Sem migração. Sem duplicação. Leia o anúncio.
Os parceiros de lançamento incluem MinIO (GA), Everpure (Private Preview), Qumulo (Private Preview em breve) e VAST Data (Private Preview em breve) — com Cohesity, Commvault, NetApp e Nutanix chegando até o final do ano. Coletivamente, esses parceiros gerenciam centenas de exabytes de dados corporativos.

Interoperabilidade do Iceberg
O Delta Sharing já é compatível com uma ampla variedade de plataformas e conectores, incluindo Databricks, Tableau, Power BI, Apache Spark e Snowflake. O OpenSharing agora adicionou suporte para a Apache Iceberg REST Catalog API — tornando possível compartilhar dados com qualquer cliente compatível com Iceberg. Os provedores também podem compartilhar tabelas de catálogos externos, incluindo AWS Glue, Hive Metastore e Snowflake Horizon — trazendo dados externos para o ecossistema governado do OpenSharing sem replicação.

Iceberg Sharing

Como o OpenSharing funciona

Com base na mesma simplicidade que tornou o Delta Sharing um sucesso, o OpenSharing estende o protocolo para oferecer suporte a todo o stack de ativos de AI:

  1. O provedor de dados cria um compartilhamento no Unity Catalog — definindo quais conjuntos de dados, modelos, agentes ou Genie Agents deseja compartilhar e definindo permissões de acesso detalhadas.
  2. O destinatário recebe credenciais seguras e consulta o compartilhamento diretamente de suas ferramentas existentes, nuvem ou cliente Iceberg — sem precisar estar no Databricks.
  3. O Unity Catalog impõe a governança de ponta a ponta — auditando cada acesso, aplicando controles em nível de linha e coluna e garantindo que as políticas de conformidade acompanhem cada ativo compartilhado.
  4. Os dados nunca se movem — os destinatários consultam dados em tempo real diretamente do armazenamento em nuvem do provedor, garantindo uma única fonte da verdade.

Para implantações corporativas no Databricks, o SecureConnect e a Global Distribution são adicionados a esse fluxo — lidando com a rede entre nuvens e a replicação de forma automática, sem alterações na forma como os provedores ou destinatários interagem com seus compartilhamentos.

Tudo pronto para começar com o OpenSharing?

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.