Crie, leia e escreva em tabelas Delta gerenciadas de motores externos.
por Alex Jiang e Tathagata Das
O Unity Catalog foi projetado para o lakehouse aberto. Anteriormente, as equipes de dados ficavam presas em silos, muitas vezes forçadas a duplicar dados em várias plataformas apenas para usar as ferramentas que desejavam. Cada nova plataforma ou ferramenta significava copiar conjuntos de dados, reconstruir políticas de acesso do zero e manter tudo sincronizado. O resultado foi o aumento dos custos devido ao armazenamento redundante, políticas que saíam de sincronia e acesso e descoberta de dados fragmentados.
Quando abrimos o código do Unity Catalog e lançamos as APIs abertas, quebramos os silos que anteriormente mantinham os clientes presos. As empresas finalmente podiam manter uma cópia dos dados, usar qualquer mecanismo de computação e governar tudo a partir de um único local. O ecossistema do UC prosperou desde então. Hoje, milhares de clientes usam o Unity Catalog para governar e acessar tabelas Delta Lake e Apache Iceberg, com dezenas de integrações no crescente ecossistema do Unity Catalog — de Apache Spark e Trino a DuckDB e Confluent Tableflow.
Tabelas gerenciadas do UC são onde a abertura encontra o desempenho. Essas tabelas avançadas usam Otimização Preditiva e Clustering Líquido para ajustar automaticamente os layouts de dados, executar compactação e limpeza, e manter estatísticas atualizadas — oferecendo consultas até 20x mais rápidas e custos de armazenamento 50% menores, enquanto permanecem totalmente acessíveis por meio de APIs abertas.
Agora em Beta, motores externos, como Apache Spark, Apache Flink e DuckDB, podem criar e gravar em tabelas Delta gerenciadas pelo UC com governança centralizada e otimizações automáticas.
Com o Beta, motores externos podem:
Como cada operação flui através das tabelas gerenciadas do UC construídas sobre catalog commits, você obtém commits serializados que previnem corrupção de log e auditabilidade completa de cada leitura e gravação. A Otimização Preditiva continua a rodar sem problemas, mesmo em tabelas acessadas por motores externos. Os catalog commits também preparam o terreno para recursos como transações multi-instrução e multi-tabela que exigem um coordenador de commit centralizado.
O próspero ecossistema do UC continua a crescer à medida que os motores expandem o suporte para acesso externo a tabelas gerenciadas. O Delta Kernel — a biblioteca Java e Rust de código aberto para ler, gravar e confirmar tabelas Delta — abstrai os detalhes do protocolo de baixo nível para que os desenvolvedores de conectores possam se concentrar na integração do UC, não na implementação do Delta. Os conectores Delta para Apache Spark, Apache Flink e DuckDB aproveitaram o Delta Kernel para suportar gravações externas em tabelas gerenciadas pelo UC e integrar-se com commits gerenciados pelo catálogo, e o ecossistema continua a crescer. Ao lidar com a complexidade do protocolo de baixo nível, o Delta Kernel torna simples para qualquer motor integrar-se com o Unity Catalog, o que contribui para um ecossistema crescente de conectores.
Para que um motor externo acesse dados no UC, ele precisa de uma maneira segura de autenticar e obter acesso restrito ao armazenamento em nuvem sem exigir permissões amplas e estáticas ou credenciais vinculadas a uma conta específica. O Unity Catalog gerencia isso por meio de credential vending, que agora está geralmente disponível (GA): o UC emite credenciais de curta duração e com escopo restrito para motores externos sob demanda, com políticas de acesso aplicadas centralmente.
Milhares de clientes usaram as APIs abertas do UC e duas adições as tornam prontas para produção em escala empresarial. Motores externos agora podem se autenticar no UC usando OAuth machine-to-machine (M2M), atendendo aos requisitos de segurança empresarial sem depender de tokens de acesso personalizados (PATs), que são por usuário, de longa duração e difíceis de rotacionar. E as credenciais são atualizadas automaticamente pelos motores por meio das APIs de credential vending do UC, para que pipelines que rodam por horas sejam concluídos de forma confiável sem que os tokens expirem no meio do trabalho.
Com o credential vending, as empresas podem ler, gravar e criar tabelas gerenciadas e externas no Unity Catalog a partir de qualquer motor ou ferramenta compatível. Essas credenciais são de curta duração, com escopo restrito ao recurso solicitado e governadas por privilégios do UC. Isso significa que sua equipe de plataforma mantém controle total sobre quais principais podem acessar dados externamente e o que podem fazer com eles.
Com as APIs abertas do Unity Catalog, capacitamos nossas equipes a usar suas ferramentas preferidas, mantendo a governança e a consistência dos dados. Podemos aproveitar os benefícios das tabelas gerenciadas dentro de uma plataforma de dados e IA verdadeiramente interoperável que funciona em vários motores de computação.— Sudipta Das, Diretor de Operações de Dados Corporativos da PepsiCo
O credential vending se estende não apenas a tabelas, mas também a dados não estruturados. O credential vending para volumes está agora em Pré-visualização Pública, para que clientes externos possam solicitar credenciais temporárias e com escopo restrito para acessar imagens, PDFs e vídeos armazenados em volumes com governança do Unity Catalog. O mesmo modelo de controle de acesso, trilha de auditoria e credenciais com escopo se aplicam, quer você esteja consultando uma tabela ou processando um arquivo de vídeo bruto externamente.
Continuamos investindo para tornar o acesso externo mais capaz. O credential vending hoje governa controles de acesso de granularidade grossa para motores externos. Também desenvolvemos funcionalidades para impor controles de acesso baseados em atributos (ABAC) para leituras externas, o que torna a governança de granularidade fina. Isso permite impor políticas ABAC de nível de linha e coluna quando tabelas gerenciadas pelo UC são lidas de motores externos.
Para começar com o credential vending, consulte nossa documentação. Para usar o Beta de acesso externo a tabelas Delta gerenciadas:
O Data and AI Summit 2026 está quase chegando! Junte-se a nós de 15 a 18 de junho de 2026 no Moscone Center em São Francisco, Califórnia, para aprender como as principais organizações estão usando o Unity Catalog para governar dados e IA em vários motores. Registre-se hoje para ter um primeiro olhar sobre o que vem a seguir para governança aberta e unificada.
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.