por Matei Zaharia, Celia Kung, Xiaotong Sun, Steve Mahoney, Itai Weiss, Sachin Thakur e Jay Bhankharia
O Delta Sharing evoluiu para OpenSharing, o primeiro protocolo aberto e neutro em relação a fornecedores para compartilhar com segurança ativos de IA, incluindo habilidades de agente, modelos de IA e dados não estruturados. Leia o anúncio.
Hoje, temos o prazer de anunciar que o Delta Sharing está em disponibilidade geral (GA) na AWS e no Azure. Com a versão GA, você pode esperar o mais alto nível de estabilidade, suporte e preparação empresarial da Databricks para cargas de trabalho de missão crítica na Databricks Lakehouse Platform.
Neste blog, exploramos como as organizações aproveitam o Delta Sharing para maximizar o valor comercial de seus dados, alguns dos principais recursos disponíveis na versão GA e como começar a usar o Delta Sharing na Databricks Lakehouse Platform.
O compartilhamento de dados tornou-se importante na economia digital, pois as empresas buscam trocar dados de forma fácil e segura com seus clientes, parceiros, fornecedores e linhas de negócios internas (LOBs) para colaborar melhor e extrair valor desses dados. Mas a falta de um protocolo de compartilhamento de dados baseado em padrões resultou em soluções vinculadas a um único fornecedor ou produto comercial, introduzindo riscos de dependência de fornecedor (vendor lock-in). Esses desafios dos clientes nos levaram, na Databricks, a criar uma solução aberta de compartilhamento de dados, o Delta Sharing.
O Delta Sharing oferece uma solução aberta para compartilhar dados em tempo real com segurança do seu lakehouse para qualquer plataforma de computação. Os destinatários dos dados não precisam estar na Databricks Lakehouse Platform, na mesma nuvem ou em qualquer nuvem. Os provedores de dados podem compartilhar conjuntos de dados existentes em grande escala baseados nos formatos Apache Parquet ou Delta Lake, sem replicar ou copiar conjuntos de dados para outro sistema. Os destinatários dos dados se beneficiam de ter sempre acesso à versão mais recente dos dados, com a capacidade de consultar, visualizar, transformar, ingerir ou enriquecer os dados compartilhados com suas ferramentas de preferência, reduzindo o tempo de geração de valor (time-to-value). Como a governança e a segurança são as principais preocupações de muitas organizações, o Delta Sharing é integrado nativamente ao Unity Catalog, permitindo que você gerencie, governe, audite e acompanhe o uso dos dados compartilhados em uma única plataforma.
Desde o lançamento do Delta Sharing em preview privado no ano passado, centenas de clientes adotaram o Delta Sharing e, hoje, petabytes de dados estão sendo compartilhados por meio dele.
Nasdaq: "O Delta Sharing nos ajudou a simplificar nosso processo de entrega de dados para grandes conjuntos de dados. Isso permite que nossos clientes tragam seu próprio ambiente de computação para ler dados atualizados e tratados com pouco ou nenhum trabalho de integração, e nos permite continuar expandindo nosso catálogo de produtos de dados exclusivos e de alta qualidade" - William Dague, Diretor de Dados Alternativos
Shell: "Reconhecemos que a abertura dos dados desempenhará um papel fundamental no alcance das ambições de Carbono Zero Líquido da Shell. O Delta Sharing fornece à Shell um protocolo padrão, controlado e seguro para compartilhar facilmente grandes volumes de dados com nossos parceiros para trabalhar em direção a esses objetivos, sem exigir que nossos parceiros estejam na mesma plataforma de compartilhamento de dados" - Bryce Bartmann, Conselheiro Chefe de Tecnologia Digital
SafeGraph: "Como uma empresa de dados, dar aos nossos clientes acesso aos nossos conjuntos de dados é fundamental. A Databricks Lakehouse Platform com Delta Sharing realmente simplifica esse processo, permitindo-nos alcançar com segurança uma base de usuários muito mais ampla, independentemente da nuvem ou plataforma" - Felix Cheung, VP de Engenharia
YipitData: "Com o Delta Sharing, nossos clientes podem acessar conjuntos de dados tratados quase instantaneamente e integrá-los com as ferramentas de análise de sua escolha. O diálogo com nossos clientes muda de um vai e vem técnico de baixo valor sobre ingestão para uma discussão analítica de alto valor, onde impulsionamos experiências de sucesso para os clientes. À medida que nossos relacionamentos com os clientes evoluem, podemos fornecer novos conjuntos de dados perfeitamente e atualizar os existentes por meio do Delta Sharing para manter os clientes informados sobre as principais tendências em seus setores." - Anup Segu, Líder Técnico de Engenharia de Dados
Pumpjack Dataworks: "Aproveitar os recursos poderosos do Delta Sharing da Databricks permite que a Pumpjack Dataworks tenha uma experiência de integração (onboarding) mais rápida, eliminando a necessidade de exportar, importar e remodelar dados, o que traz valor imediato para nossos clientes. Resultados mais rápidos geram maiores oportunidades comerciais para nossos clientes e seus parceiros" - Corey Zwart, CTO
Embora o Delta Sharing tenha uma série de recursos incríveis na versão GA, abaixo estão alguns dos principais recursos que estamos lançando com esta versão:
Para clientes Databricks, o Delta Sharing torna o compartilhamento de dados no lakehouse extremamente simples, eficiente e seguro. Com apenas alguns cliques na UI ou comandos SQL, os provedores de dados podem compartilhar facilmente seus dados existentes com destinatários no Databricks, sem replicar os dados. Por exemplo, um provedor de dados que usa o Databricks na AWS pode compartilhar dados existentes com um destinatário que usa o Databricks no Azure ou vice-versa. Você pode explorar o guia do usuário para obter todos os detalhes. No compartilhamento de Databricks para Databricks, o provedor de dados não precisa gerenciar credenciais de token para destinatários que usam o Databricks; a conexão de compartilhamento é estabelecida com segurança por meio da plataforma Databricks. Tudo o que você precisa é de uma conta Databricks para fazer login e o resto é cuidado pela plataforma. Além do compartilhamento de dados entre contas, outro caso de uso importante é o compartilhamento interno de dados. Se você tiver vários metastores do Unity Catalog na mesma conta em regiões diferentes, poderá compartilhar dados facilmente entre esses metastores usando o Delta Sharing sem copiar nenhum dados. Exemplo de fluxo de trabalho SQL sob a perspectiva de um provedor de dados:
Exemplo de fluxo de trabalho SQL sob a perspectiva de um destinatário de dados:
O Delta Sharing agora suporta o compartilhamento de Change Data Feed (CDF). Além de compartilhar uma tabela, um provedor de dados pode optar por incluir o CDF da tabela, permitindo que os destinatários consultem alterações entre versões ou carimbos de data/hora (timestamps) específicos da tabela. Com esse recurso, os destinatários podem consultar apenas os novos dados ou as alterações incrementais, em vez de toda a tabela a cada vez. Um provedor de dados pode facilmente compartilhar uma tabela com CDF, e um destinatário de dados pode consultar as alterações da tabela com uma sintaxe simples:
Na versão GA do Delta Sharing, também temos um conjunto de recursos de segurança para tornar o compartilhamento ainda mais seguro. Um exemplo desses recursos de segurança é a Lista de Acesso IP. Os provedores de dados agora podem configurar uma lista de acesso IP para cada um de seus destinatários usando conectores abertos. Isso garante que o download de credenciais e o acesso aos dados só possam ser iniciados a partir do endereço IP de destino. Também adicionamos mais algumas permissões relacionadas ao Delta Sharing (por exemplo, CREATE SHARE, CREATE RECIPIENT) e introduzimos o conceito de owner para objetos do Delta Sharing, como Share e Recipient. Com essas primitivas, o Delta Sharing no Databricks oferece um modelo de controle de acesso mais flexível, e usuários não administradores também podem realizar operações de compartilhamento.
Assista à demonstração abaixo para saber mais sobre como o Delta Sharing pode ajudar você a compartilhar de forma integrada dados em tempo real do seu lakehouse com qualquer plataforma de computação.
Se você já é cliente da Databricks, siga o guia para começar (AWS | Azure). Leia as notas de versão para saber mais sobre o que está incluído neste lançamento GA. Se você ainda não é cliente da Databricks, inscreva-se para um teste gratuito com um workspace Premium ou Enterprise.(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.