Ir para o conteúdo principal

Anunciamos o suporte total ao Apache Iceberg™ no Databricks

Leia e grave tabelas Iceberg gerenciadas e use o Unity Catalog para acessar e governar tabelas Iceberg em catálogos externos

Announcing full Apache Iceberg™ support in Databricks

Publicado: 12 de junho de 2025

Produto7 min de leitura

Summary

  • Escreva tabelas Iceberg gerenciadas abertas usando Databricks ou mecanismos Apache Iceberg™ externos por meio da API Iceberg REST Catalog do Unity Catalog.
  • Acesse e governe tabelas Iceberg gerenciadas por catálogos externos.
  • Essas adições impulsionam ainda mais o setor em direção a um formato de tabela aberta único e unificado.

Temos o prazer de anunciar a Public Preview para o suporte do Apache IcebergTM no Databricks, desbloqueando os ecossistemas completos do Apache Iceberg e Delta Lake com o Unity Catalog. Esta Preview apresenta dois novos recursos ao Unity Catalog. Primeiro, agora você pode ler e gravar tabelas Managed Iceberg usando o Databricks ou mecanismos Iceberg externos por meio da API Iceberg REST Catalog do Unity Catalog. Desenvolvidas pela Otimização Preditiva, essas tabelas executam automaticamente operações de tabela avançadas, incluindo o Liquid Clustering, para fornecer desempenho de consulta rápido e eficiente e otimização de armazenamento. As tabelas Managed Iceberg também são integradas com recursos avançados em toda a plataforma Databricks, incluindo DBSQL, Mosaic AI, Delta Sharing e MVs. Em segundo lugar, como parte do Lakehouse Federation, o Unity Catalog agora permite que você acesse e governe perfeitamente as tabelas Iceberg gerenciadas por catálogos externos, como AWS Glue, Hive Metastores e Snowflake Horizon Catalog.

Com esses novos recursos, você pode se conectar ao Unity Catalog de qualquer mecanismo e acessar todos os seus dados, em todos os catálogos e independentemente do formato, eliminando os silos de dados e resolvendo as incompatibilidades do ecossistema. Neste blog, abordaremos:

  • Identificação de novos silos de dados
  • Uso do Unity Catalog como um catálogo Iceberg totalmente aberto
  • Extensão da governança do UC para todo o Lakehouse
  • Nossa visão para o futuro dos formatos de tabela abertos

Os novos silos de dados

Novos silos de dados surgiram ao longo de dois componentes fundamentais do Lakehouse: formatos de tabela abertos e catálogos de dados. Os formatos de tabela abertos permitem transações ACID em dados armazenados no armazenamento de objetos. Delta Lake e Apache Iceberg, os dois principais formatos de tabela abertos, desenvolveram ecossistemas de conectores em uma ampla variedade de estruturas de código aberto e plataformas comerciais. No entanto, a maioria das plataformas populares adotou apenas um dos dois padrões, forçando os clientes a escolher os mecanismos ao escolher um formato.

Os catálogos apresentam desafios adicionais. Uma responsabilidade central de um catálogo é gerenciar os arquivos de metadados atuais de uma tabela entre gravadores e leitores. No entanto, alguns catálogos restringem quais mecanismos podem gravá-los. Mesmo que você consiga armazenar todos os seus dados em um formato compatível com todos os seus mecanismos, você ainda pode não conseguir usar o mecanismo escolhido porque ele não consegue se conectar ao seu catálogo. Esse bloqueio de fornecedor força os clientes a fragmentar a descoberta e a governança de dados em catálogos distintos.

Nas próximas duas seções, abordaremos como o Unity Catalog usa padrões abertos e federação de catálogo para resolver incompatibilidades de formato e catálogo.

Um catálogo Iceberg totalmente aberto

O Unity Catalog elimina os silos de formato por meio de padrões abertos. Agora em Public Preview, você pode usar o Databricks e mecanismos externos para gravar tabelas Iceberg gerenciadas pelo Unity Catalog. As tabelas Managed Iceberg são totalmente abertas para todo o ecossistema Iceberg por meio da implementação do Unity Catalog das APIs Iceberg REST Catalog. O REST Catalog é uma especificação de API aberta que fornece uma interface padrão para interagir com tabelas Iceberg. O Unity Catalog foi um dos primeiros a adotar o REST Catalog, lançando o suporte pela primeira vez em 2023. Esta Preview se baseia nessa base. Agora, praticamente qualquer cliente Iceberg compatível com a especificação REST, como Apache Spark™, Apache Flink ou Trino pode ler e gravar no Unity Catalog.

Planejamos armazenar todos os nossos dados em um formato aberto e queremos um único catálogo que possa se conectar a todas as ferramentas que usamos. O Unity Catalog nos permite gravar tabelas Iceberg que são totalmente abertas a qualquer cliente Iceberg, desbloqueando todo o ecossistema Lakehouse e preparando nossa arquitetura para o futuro. — Hen Ben-Hemo, Arquiteto de plataforma de dados

Riskified

Com o Managed Iceberg, você pode trazer a governança do Unity Catalog para o ecossistema Iceberg, mesmo entre ferramentas OSS como o PyIceberg que não oferecem suporte nativo à autorização. O Unity Catalog permite que você crie pipelines de dados que abrangem todo o ecossistema Lakehouse. Por exemplo, o Apache Iceberg oferece um conector de coletor popular para gravar do Kafka em tabelas Iceberg. Você pode usar o Kafka Connect para gravar tabelas Iceberg no Unity Catalog e, a jusante, usar o melhor preço-desempenho do Databricks para ETL, data warehousing e recursos de machine learning.

Todas as tabelas gerenciadas oferecem automaticamente o melhor desempenho de leitura e otimização de armazenamento usando a Otimização Preditiva. A Otimização Preditiva expira automaticamente snapshots antigos, exclui arquivos não referenciados e agrupa incrementalmente seus dados usando o Liquid Clustering. Em nosso exemplo usando o Kafka, isso evita a degradação do desempenho comumente causada pela proliferação de arquivos pequenos. Você pode manter suas tabelas Iceberg íntegras e com bom desempenho sem o incômodo de gerenciar manualmente sua própria manutenção de tabela.

As tabelas Managed Iceberg são integradas à plataforma Databricks, permitindo que você aproveite essas tabelas com recursos avançados da plataforma, como DBSQL, Mosaic AI, Delta Sharing e MVs. Além do Databricks, o Unity Catalog oferece suporte a um ecossistema de parceiros para armazenar dados com segurança no Iceberg usando ferramentas externas. Por exemplo, o Redpanda ingere dados de streaming produzidos em tópicos do Kafka por meio da API Iceberg REST Catalog do Unity Catalog:

Com as tabelas Managed Iceberg do Unity Catalog e o Iceberg REST Catalog, o Redpanda agora pode transmitir os maiores e mais exigentes workloads do Kafka diretamente para tabelas Iceberg otimizadas pelo Unity Catalog, desbloqueando a capacidade de descoberta imediata e o desempenho rápido de consultas em fluxos arbitrários. Com a configuração de apertar um botão, todos os dados de streaming em tempo real agora estão totalmente disponíveis para o ecossistema Iceberg, para que os clientes possam ter certeza de que sua arquitetura foi construída para durar, não importa como sua stack evolua. — Matthew Schumpert, Head de Produto, Plataforma

Redpanda

Estamos animados em ter os seguintes parceiros de lançamento a bordo: Atlan, Buf, CelerData, Clickhouse, dbt Labs, dltHub, Fivetran, Informatica, PuppyGraph, Redpanda, RisingWave, StreamNative e muito mais.

UM LÍDER 5X

Gartner®: Databricks, líder em banco de dados em nuvem

O catálogo Lakehouse

Com o Unity Catalog, você pode interoperar não apenas entre formatos de tabela, mas também entre catálogos. Agora também em Public Preview, você pode consultar e governar perfeitamente as tabelas Iceberg gerenciadas por catálogos externos, como AWS Glue, Hive Metastores e Snowflake Horizon Catalog. Estendendo o Hive Metastore e AWS Glue Federation, esses conectores permitem que você monte catálogos inteiros dentro do Unity Catalog, criando uma interface unificada para descoberta e governança de dados.

A federação fornece uma integração perfeita para aproveitar os recursos avançados do Unity Catalog em tabelas Iceberg gerenciadas por catálogos estrangeiros. Você pode usar os controles de acesso refinados, a linhagem e a auditoria do Databricks em todos os seus dados, em todos os catálogos e independentemente do formato.

O Unity Catalog permite que os engenheiros de ML e os cientistas de dados da Rippling acessem perfeitamente as tabelas Iceberg em data warehouses OLAP existentes com zero cópia. Isso nos ajuda a reduzir custos, criar fontes de verdade consistentes e reduzir a latência da atualização de dados, tudo isso mantendo altos padrões de acesso e privacidade de dados em todo o ciclo de vida dos dados. — Albert Strasheim, Diretor de Tecnologia

Ripping

Com a federação, o Unity Catalog pode governar a totalidade do seu Lakehouse – em todas as suas tabelas, modelos de IA, arquivos, notebooks e dashboards.

O futuro dos formatos de tabela

O Unity Catalog está aproximando o setor da concretização da simplicidade, flexibilidade e menores custos do open data lakehouse. No Databricks, acreditamos que podemos impulsionar ainda mais o setor - com um único formato de tabela aberto e unificado. Delta Lake e Apache Iceberg compartilham grande parte do mesmo design, mas diferenças sutis causam grandes incompatibilidades para os clientes. Para resolver esses problemas compartilhados, as comunidades Delta e Apache Iceberg estão alinhando conceitos e contribuições, unificando o ecossistema Lakehouse.

O Iceberg v3 é um grande passo em direção a esta visão. O Iceberg v3 inclui recursos importantes como Deletion Vectors, tipo de dados Variant, IDs de linha e tipos de dados geoespaciais que compartilham implementações idênticas no Delta Lake. Essas melhorias permitem que você mova dados e exclua arquivos entre formatos facilmente, sem reescrever petabytes de dados.

Em futuras versões do Delta Lake e Apache Iceberg, queremos construir sobre esta base para que os clientes Delta e Iceberg possam usar os mesmos metadados e, assim, possam compartilhar tabelas diretamente. Com esses investimentos, os clientes podem realizar o objetivo original de um open data lakehouse – uma plataforma totalmente integrada para dados e IA em uma única cópia de dados.

As tabelas Managed e Foreign Iceberg agora estão disponíveis em Public Preview. Consulte nossa documentação para começar! Reveja nossos anúncios no Data and AI Summit de 9 a 12 de junho de 2025 para saber mais sobre nossos recursos mais recentes do Iceberg e o futuro dos formatos de tabela abertos.

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada