Ir al contenido principal

Anunciamos la compatibilidad total con Apache Iceberg™ en Databricks

Lea y escriba tablas Iceberg administradas y use Unity Catalog para acceder y gestionar tablas Iceberg en catálogos externos

Announcing full Apache Iceberg™ support in Databricks

Publicado: 12 de junio de 2025

Producto7 min de lectura

Summary

  • Escriba tablas Iceberg administradas abiertas usando Databricks o motores Apache Iceberg™ externos a través de la API Iceberg REST Catalog de Unity Catalog.
  • Acceda y gestione las tablas Iceberg administradas por catálogos externos.
  • Estas adiciones hacen avanzar aún más a la industria hacia un formato de tabla abierta único y unificado.

Nos complace anunciar la versión preliminar pública de la compatibilidad con Apache IcebergTM en Databricks, que desbloquea los ecosistemas completos de Apache Iceberg y Delta Lake con Unity Catalog. Esta versión preliminar introduce dos nuevas características en Unity Catalog. En primer lugar, ahora puede leer y escribir tablas Iceberg administradas mediante Databricks o motores Iceberg externos a través de la API REST Catalog de Iceberg de Unity Catalog. Impulsadas por Optimización predictiva, estas tablas ejecutan automáticamente operaciones de tabla avanzadas, incluido Liquid Clustering, para ofrecer un rendimiento de consulta rápido y eficiencia de almacenamiento listos para usar. Las tablas Iceberg administradas también están integradas con características avanzadas en toda la plataforma de Databricks, incluidos DBSQL, Mosaic AI, Delta Sharing y MV. En segundo lugar, como parte de Lakehouse Federation, Unity Catalog ahora le permite acceder y gobernar sin problemas las tablas Iceberg administradas por catálogos externos como AWS Glue, Hive Metastores y Snowflake Horizon Catalog.

Con estas nuevas características, puede conectarse a Unity Catalog desde cualquier motor y acceder a todos sus datos, en todos los catálogos e independientemente del formato, rompiendo los silos de datos y resolviendo las incompatibilidades del ecosistema. En este blog, cubriremos:

  • Identificación de nuevos silos de datos
  • Uso de Unity Catalog como un catálogo de Iceberg totalmente abierto
  • Extensión de la gobernanza de UC a todo el Lakehouse
  • Nuestra visión para el futuro de los formatos de tabla abiertos

Los nuevos silos de datos

Han surgido nuevos silos de datos a lo largo de dos componentes fundamentales del Lakehouse: formatos de tabla abiertos y catálogos de datos. Los formatos de tabla abiertos permiten transacciones ACID en los datos almacenados en el almacenamiento de objetos. Delta Lake y Apache Iceberg, los dos formatos de tabla abiertos líderes, desarrollaron ecosistemas de conectores en una amplia gama de marcos de código abierto y plataformas comerciales. Sin embargo, la mayoría de las plataformas populares solo adoptaron uno de los dos estándares, lo que obligó a los clientes a elegir motores al elegir un formato.

Los catálogos introducen desafíos adicionales. Una responsabilidad central de un catálogo es administrar los archivos de metadatos actuales de una tabla entre escritores y lectores. Sin embargo, algunos catálogos restringen qué motores pueden escribirlos. Incluso si logra almacenar todos sus datos en un formato compatible con todos sus motores, es posible que aún no pueda usar el motor elegido porque no puede conectarse a su catálogo. Este bloqueo del proveedor obliga a los clientes a fragmentar el descubrimiento y la gobernanza de datos en catálogos dispares.

En las siguientes dos secciones, cubriremos cómo Unity Catalog usa estándares abiertos y la federación de catálogos para resolver las incompatibilidades de formato y catálogo.

Un catálogo de Iceberg totalmente abierto

Unity Catalog rompe los silos de formato a través de estándares abiertos. Ahora en versión preliminar pública, puede usar Databricks y motores externos para escribir tablas Iceberg administradas por Unity Catalog. Las tablas Iceberg administradas están totalmente abiertas a todo el ecosistema de Iceberg a través de la implementación de Unity Catalog de las API REST Catalog de Iceberg. El REST Catalog es una especificación de API abierta que proporciona una interfaz estándar para interactuar con las tablas Iceberg. Unity Catalog fue uno de los primeros en adoptar el REST Catalog, lanzando por primera vez soporte en 2023. Esta versión preliminar se basa en esa base. Ahora, prácticamente cualquier cliente de Iceberg compatible con la especificación REST, como Apache Spark™, Apache Flink o Trino puede leer y escribir en Unity Catalog.

Planeamos almacenar todos nuestros datos en un formato abierto y queremos un solo catálogo que pueda conectarse a todas las herramientas que usamos. Unity Catalog nos permite escribir tablas Iceberg que están totalmente abiertas a cualquier cliente de Iceberg, desbloqueando todo el ecosistema de Lakehouse y protegiendo nuestra arquitectura para el futuro. — Hen Ben-Hemo, Arquitecto de plataforma de datos

Riskified

Con Managed Iceberg, puede llevar la gobernanza de Unity Catalog al ecosistema de Iceberg incluso entre herramientas OSS como PyIceberg que no admiten la autorización de forma nativa. Unity Catalog le permite crear canalizaciones de datos que abarcan todo el ecosistema de Lakehouse. Por ejemplo, Apache Iceberg ofrece un conector de receptor popular para escribir desde Kafka a tablas Iceberg. Puede usar Kafka Connect para escribir tablas Iceberg en Unity Catalog y usar el mejor precio-rendimiento de Databricks para ETL, almacenamiento de datos y capacidades de aprendizaje automático.

Todas las tablas administradas ofrecen automáticamente el mejor rendimiento de lectura y optimización de almacenamiento utilizando la optimización predictiva. La optimización predictiva caduca automáticamente las instantáneas antiguas, elimina los archivos no referenciados y agrupa incrementalmente sus datos mediante Liquid Clustering. En nuestro ejemplo usando Kafka, esto evita la degradación del rendimiento causada comúnmente por la proliferación de archivos pequeños. Puede mantener sus tablas Iceberg saludables y con un buen rendimiento sin la molestia de administrar manualmente su propio mantenimiento de tablas.

Las tablas Iceberg administradas están integradas con la plataforma Databricks, lo que le permite aprovechar estas tablas con características avanzadas de la plataforma como DBSQL, Mosaic AI, Delta Sharing y MV. Más allá de Databricks, Unity Catalog admite un ecosistema de socios para colocar de forma segura los datos en Iceberg utilizando herramientas externas. Por ejemplo, Redpanda ingiere datos de transmisión producidos en temas de Kafka a través de la API REST Catalog de Iceberg de Unity Catalog:

Con las tablas Iceberg administradas de Unity Catalog y el Iceberg REST Catalog, Redpanda ahora puede transmitir las cargas de trabajo de Kafka más grandes y exigentes directamente a las tablas Iceberg que están optimizadas por Unity Catalog, desbloqueando la capacidad de descubrimiento lista para usar y el rendimiento de consulta rápido en transmisiones arbitrarias. Con la configuración de pulsar un botón, todos los datos de transmisión en tiempo real ahora están totalmente disponibles para el ecosistema de Iceberg, por lo que los clientes pueden tener la confianza de que su arquitectura está construida para durar, sin importar cómo evolucione su pila. — Matthew Schumpert, Jefe de Producto, Plataforma

Redpanda

Nos complace tener a bordo a los siguientes socios de lanzamiento: Atlan, Buf, CelerData, Clickhouse, dbt Labs, dltHub, Fivetran, Informatica, PuppyGraph, Redpanda, RisingWave, StreamNative y más.

LÍDER 5X

Gartner®: Databricks, líder en bases de datos en la nube

El catálogo de Lakehouse

Con Unity Catalog, puede interoperar no solo entre formatos de tabla, sino también entre catálogos. Ahora también en versión preliminar pública, puede consultar y gobernar sin problemas las tablas Iceberg administradas por catálogos externos como AWS Glue, Hive Metastores y Snowflake Horizon Catalog. Extendiendo la Federación de Hive Metastore y AWS Glue, estos conectores le permiten montar catálogos completos dentro de Unity Catalog, creando una interfaz unificada para el descubrimiento y la gobernanza de datos.

La federación proporciona una integración perfecta para aprovechar las características avanzadas de Unity Catalog en las tablas Iceberg administradas por catálogos externos. Puede usar los controles de acceso, el linaje y la auditoría de grano fino de Databricks en todos sus datos, en todos los catálogos e independientemente del formato.

Unity Catalog permite a los ingenieros de ML y científicos de datos de Rippling acceder sin problemas a las tablas Iceberg en los almacenes OLAP existentes sin copiar. Esto nos ayuda a reducir los costos, crear fuentes de verdad consistentes y reducir la latencia de la actualización de datos, todo mientras mantenemos altos estándares en el acceso a los datos y la privacidad en todo el ciclo de vida de los datos. — Albert Strasheim, Director de Tecnología

Ripping

Con la federación, Unity Catalog puede gobernar la totalidad de su Lakehouse: en todas sus tablas, modelos de IA, archivos, cuadernos y paneles.

El futuro de los formatos de tabla

Unity Catalog está impulsando a la industria a acercarse a la realización de la simplicidad, la flexibilidad y los menores costos del open data lakehouse. En Databricks, creemos que podemos hacer avanzar aún más a la industria, con un único formato de tabla abierta unificado. Delta Lake y Apache Iceberg comparten gran parte del mismo diseño, pero las diferencias sutiles causan grandes incompatibilidades para los clientes. Para resolver estos problemas compartidos, las comunidades de Delta y Apache Iceberg están alineando conceptos y contribuciones, unificando el ecosistema de Lakehouse.

Iceberg v3 es un paso importante hacia esta visión. Iceberg v3 incluye características clave como Vectores de eliminación, Tipo de datos variante, ID de fila y tipos de datos geoespaciales que comparten implementaciones idénticas en Delta Lake. Estas mejoras le permiten mover datos y eliminar archivos entre formatos fácilmente, sin reescribir petabytes de datos.

En futuras versiones de Delta Lake y Apache Iceberg, queremos construir sobre esta base para que los clientes de Delta e Iceberg puedan usar los mismos metadatos y, por lo tanto, puedan compartir tablas directamente. Con estas inversiones, los clientes pueden realizar el objetivo original de un open data lakehouse: una plataforma totalmente integrada para datos e IA en una sola copia de datos.

Las tablas Iceberg administradas y externas ahora están disponibles en versión preliminar pública. Consulte nuestra documentación para comenzar. Vuelva a reproducir nuestros anuncios en Data and AI Summit del 9 al 12 de junio de 2025 para obtener más información sobre nuestras características más recientes de Iceberg y el futuro de los formatos de tabla abiertos.

(Esta entrada del blog ha sido traducida utilizando herramientas basadas en inteligencia artificial) Publicación original

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.