Ir para o conteúdo principal

Anunciando suporte completo ao Apache Iceberg™ no Databricks

Leia e escreva tabelas gerenciadas pelo Iceberg e use o Catálogo Unity para acessar e governar tabelas Iceberg em catálogos externos

Announcing full Apache Iceberg™ support in Databricks

Published: June 12, 2025

Produto7 min de leitura

Summary

  • Escreva Tabelas Iceberg Gerenciadas abertas usando Databricks ou motores externos Apache Iceberg™ via API do Catálogo REST Iceberg do Unity Catalog.
  • Acesse e governe tabelas Iceberg gerenciadas por catálogos estrangeiros.
  • Essas adições avançam a indústria ainda mais em direção a um único formato de tabela aberta unificado.

Estamos animados em anunciar a Prévia Pública para o suporte ao Apache IcebergTM no Databricks, desbloqueando todo o ecossistema do Apache Iceberg e Delta Lake com o Unity Catalog. Esta Prévia apresenta duas novas funcionalidades para o Catálogo Unity. Primeiro, agora você pode ler e escrever tabelas gerenciadas pelo Iceberg usando o Databricks ou motores externos do Iceberg através da API REST do Catálogo Iceberg da Unity. Alimentadas pela Otimização Preditiva, estas tabelas executam automaticamente operações avançadas de tabela, incluindo Agrupamento Líquido, para fornecer desempenho rápido de consultas e eficiência de armazenamento diretamente da caixa. As tabelas Iceberg gerenciadas também são integradas com recursos avançados em toda a plataforma Databricks, incluindo DBSQL, Mosaic AI, Delta Sharing e MVs. Em segundo lugar, como parte da Federação Lakehouse, o Unity Catalog agora permite que você acesse e governe sem problemas as tabelas Iceberg gerenciadas por catálogos estrangeiros como AWS Glue, Hive Metastores e Snowflake Horizon Catalog.

Com esses novos recursos, você pode se conectar ao Unity Catalog de qualquer motor e acessar todos os seus dados, em todos os catálogos e independentemente do formato, quebrando silos de dados e resolvendo incompatibilidades do ecossistema. Neste blog, vamos abordar:

  • Identificando novos silos de dados
  • Usando o Catálogo Unity como um catálogo Iceberg totalmente aberto
  • Estendendo a governança do UC para toda a Lakehouse
  • Nossa visão para o futuro dos formatos de tabela abertos

Os novos silos de dados

Novos silos de dados surgiram ao longo de dois componentes fundamentais do Lakehouse: formatos de tabela abertos e catálogos de dados. Os formatos de tabela abertos permitem transações ACID em dados armazenados em armazenamento de objetos. Delta Lake e Apache Iceberg, os dois principais formatos de tabela aberta, desenvolveram ecossistemas de conectores em uma ampla gama de frameworks de código aberto e plataformas comerciais. No entanto, a maioria das plataformas populares adotou apenas um dos dois padrões, forçando os clientes a escolher motores ao escolher um formato.

Catálogos introduzem desafios adicionais. Uma responsabilidade central de um catálogo é gerenciar os arquivos de metadados atuais de uma tabela entre escritores e leitores. No entanto, alguns catálogos restringem quais motores têm permissão para escrevê-los. Mesmo que você consiga armazenar todos os seus dados em um formato suportado por todos os seus motores, você ainda pode não ser capaz de usar o motor escolhido porque ele não consegue se conectar ao seu catálogo. Esse bloqueio de fornecedor força os clientes a fragmentar a descoberta de dados e a governança em catálogos distintos.

Nas próximas duas seções, abordaremos como o Unity Catalog usa padrões abertos e federação de catálogos para resolver incompatibilidades de formato e catálogo.

Um catálogo Iceberg totalmente aberto

O Unity Catalog quebra silos de formato através de padrões abertos. Agora em Visualização Pública, você pode usar o Databricks e motores externos para escrever tabelas Iceberg gerenciadas pelo Catálogo Unity. As tabelas Iceberg gerenciadas estão totalmente abertas para todo o ecossistema Iceberg por meio da implementação do Catálogo Unity das APIs REST do Catálogo Iceberg. O Catálogo REST é uma especificação de API aberta que fornece uma interface padrão para interagir com as tabelas Iceberg. O Unity Catalog foi um dos primeiros a adotar o REST Catalog, lançando suporte pela primeira vez em 2023. Esta Prévia se baseia nessa fundação. Agora, praticamente qualquer cliente Iceberg compatível com a especificação REST, como Apache Spark™, Apache Flink ou Trino, pode ler e escrever no Catálogo Unity.

Planejamos armazenar todos os nossos dados em um formato aberto e queremos um único catálogo que possa se conectar a todas as ferramentas que usamos. O Catálogo Unity nos permite escrever tabelas Iceberg que estão totalmente abertas a qualquer cliente Iceberg, desbloqueando todo o ecossistema Lakehouse e à prova de futuro na nossa arquitetura.
— Hen Ben-Hemo, Arquiteto de Plataforma de Dados

Riskified

Com o Managed Iceberg, você pode trazer a governança do Unity Catalog para o ecossistema Iceberg, mesmo entre ferramentas OSS como PyIceberg que não suportam nativamente a autorização. O Unity Catalog permite que você crie pipelines de dados que abrangem todo o ecossistema do Lakehouse. Por exemplo, o Apache Iceberg oferece um conector sink popular para escrever de Kafka para tabelas Iceberg. Você pode usar o Kafka Connect para escrever tabelas Iceberg no Unity Catalog e usar downstream o melhor preço-desempenho da Databricks para ETL, armazenamento de dados e capacidades de aprendizado de máquina.

Todas as Tabelas Gerenciadas entregam automaticamente o melhor desempenho de leitura e otimização de armazenamento usando Otimização Preditiva. A Otimização Preditiva expira automaticamente snapshots antigos, exclui arquivos não referenciados e agrupa incrementalmente seus dados usando o Agrupamento Líquido. Em nosso exemplo usando Kafka, isso evita a degradação de desempenho comumente causada pela proliferação de pequenos arquivos. Você pode manter suas tabelas Iceberg saudáveis e com bom desempenho sem o incômodo de gerenciar manualmente a manutenção da sua própria tabela.

As tabelas Iceberg gerenciadas são integradas à plataforma Databricks, permitindo que você aproveite essas tabelas com recursos avançados da plataforma, como DBSQL, Mosaic AI, Delta Sharing e MVs. Além do Databricks, o Unity Catalog suporta um ecossistema de parceiros para aterrissar dados de forma segura no Iceberg usando ferramentas externas. Por exemplo, o Redpanda ingere dados de streaming produzidos para tópicos Kafka através da API do Catálogo REST Iceberg do Unity Catalog:

Com as Tabelas Iceberg Gerenciadas pelo Catálogo Unity e o Catálogo REST Iceberg, o Redpanda agora pode transmitir as cargas de trabalho Kafka mais exigentes diretamente para tabelas Iceberg que são otimizadas pelo Catálogo Unity, desbloqueando descoberta imediata e rápido desempenho de consulta em fluxos arbitrários. Com configuração de botão, todos os dados de streaming em tempo real estão agora totalmente disponíveis para o ecossistema Iceberg, para que os clientes possam ter confiança de que sua arquitetura foi construída para durar, independentemente de como sua pilha evolui.
— Matthew Schumpert, Chefe de Produto, Plataforma

Redpanda

Estamos animados em ter os seguintes parceiros de lançamento a bordo: Atlan, Buf, CelerData, Clickhouse, dbt Labs, dltHub, Fivetran, Informatica, PuppyGraph, Redpanda, RisingWave, StreamNative e mais.

O Catálogo Lakehouse

Com o Unity Catalog, você pode interoperar não apenas entre formatos de tabela, mas também entre catálogos. Agora também em Visualização Pública, você pode consultar e governar sem problemas as tabelas Iceberg gerenciadas por catálogos externos, como AWS Glue, Hive Metastores e Snowflake Horizon Catalog. Expandindo a Federacão do Hive Metastore e AWS Glue, esses conectores permitem que você monte catálogos inteiros dentro do Catálogo Unity, criando uma interface unificada para descoberta de dados e governança.

A Federação oferece uma integração perfeita para aproveitar os recursos avançados do Catálogo Unity em tabelas Iceberg gerenciadas por catálogos estrangeiros. Você pode usar os controles de acesso refinados, linhagem e auditoria do Databricks em todos os seus dados, em todos os catálogos e independentemente do formato.

O Unity Catalog permite que engenheiros de ML e Cientistas de Dados da Rippling acessem sem problemas as tabelas do Iceberg nos armazéns OLAP existentes sem cópia. Isso nos ajuda a reduzir custos, criar fontes consistentes de verdade e reduzir a latência da atualização de dados - tudo isso mantendo altos padrões de acesso e privacidade de dados em todo o ciclo de vida dos dados.
— Albert Strasheim, Diretor de Tecnologia

Ripping

Com a federação, o Catálogo Unity pode governar a totalidade do seu Lakehouse - em todas as suas tabelas, modelos de IA, arquivos, notebooks e painéis.

O Futuro dos Formatos de Tabela

O Unity Catalog está aproximando a indústria da realização da simplicidade, flexibilidade e menores custos do open data lakehouse. Na Databricks, acreditamos que podemos avançar ainda mais a indústria - com um único formato de tabela aberta e unificada. Delta Lake e Apache Iceberg compartilham grande parte do mesmo design, mas diferenças sutis causam grandes incompatibilidades para os clientes. Para resolver esses problemas compartilhados, as comunidades Delta e Apache Iceberg estão alinhando conceitos e contribuições, unificando o ecossistema Lakehouse.

Iceberg v3 é um grande passo em direção a essa visão. O Iceberg v3 inclui recursos chave como Vetores de Exclusão, Tipo de dados Variant, IDs de Linha e tipos de dados geoespaciais que compartilham implementações idênticas no Delta Lake. Essas melhorias permitem que você mova dados e delete arquivos entre formatos facilmente, sem reescrever petabytes de dados.

Em futuros lançamentos do Delta Lake e Apache Iceberg, queremos construir sobre essa base para que os clientes Delta e Iceberg possam usar os mesmos metadados e, assim, possam compartilhar tabelas diretamente. Com esses investimentos, os clientes podem realizar o objetivo original de um data lakehouse aberto - uma plataforma totalmente integrada para dados e IA em uma única cópia de dados.

Tabelas Iceberg Gerenciadas e Estrangeiras agora estão disponíveis em Prévia Pública. Confira nossa documentação para começar! Reveja nossos anúncios em Data and AI Summit em 9-12 de junho de 2025 para saber mais sobre nossos recursos mais recentes do Iceberg e o futuro dos formatos de tabela abertos.

 

(This blog post has been translated using AI-powered tools) Original Post

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada