Revenir au contenu principal

Annonce de la prise en charge complète d’Apache Iceberg™ dans Databricks

Lisez et écrivez des tables Iceberg gérées et utilisez Unity Catalog pour accéder aux tables Iceberg dans des catalogues externes et les gouverner

Announcing full Apache Iceberg™ support in Databricks

Publié: 12 juin 2025

Produit8 min de lecture

Summary

  • Écrivez des tables Iceberg gérées ouvertes à l’aide de Databricks ou de moteurs Apache Iceberg™ externes via l’API Iceberg REST Catalog d’Unity Catalog.
  • Accédez aux tables Iceberg gérées par des catalogues étrangers et gouvernez-les.
  • Ces ajouts font progresser davantage l’industrie vers un format de table ouverte unique et unifié.

Nous sommes ravis d’annoncer la préversion publique de la prise en charge d’Apache IcebergTM dans Databricks, ce qui permet de déverrouiller les écosystèmes Apache Iceberg et Delta Lake complets avec Unity Catalog. Cette préversion introduit deux nouvelles fonctionnalités dans Unity Catalog. Tout d’abord, vous pouvez désormais lire et écrire des tables Iceberg gérées à l’aide de Databricks ou de moteurs Iceberg externes via l’API Iceberg REST Catalog d’Unity Catalog. Optimisées par l’optimisation prédictive, ces tables exécutent automatiquement des opérations de table avancées, notamment le clustering Liquid, afin d’offrir des performances de requête rapides et une efficacité de stockage prêtes à l’emploi. Les tables Iceberg gérées sont également intégrées aux fonctionnalités avancées de la plateforme Databricks, notamment DBSQL, Mosaic AI, Delta Sharing et les vues matérialisées. Deuxièmement, dans le cadre de Lakehouse Federation, Unity Catalog vous permet désormais d’accéder et de gérer en toute transparence les tables Iceberg gérées par des catalogues étrangers tels qu’AWS Glue, Hive Metastores et Snowflake Horizon Catalog.

Grâce à ces nouvelles fonctionnalités, vous pouvez vous connecter à Unity Catalog à partir de n’importe quel moteur et accéder à toutes vos données, dans tous les catalogues et quel que soit le format, ce qui permet de supprimer les silos de données et de résoudre les incompatibilités d’écosystème. Dans ce blog, nous aborderons les points suivants :

  • Identification des nouveaux silos de données
  • Utilisation d’Unity Catalog comme catalogue Iceberg entièrement ouvert
  • Extension de la gouvernance UC à l’ensemble de Lakehouse
  • Notre vision de l’avenir des formats de table ouverts

Les nouveaux silos de données

De nouveaux silos de données ont émergé le long de deux composants fondamentaux de Lakehouse : les formats de table ouverts et les catalogues de données. Les formats de table ouverts permettent d’effectuer des transactions ACID sur les données stockées dans le stockage d’objets. Delta Lake et Apache Iceberg, les deux principaux formats de table ouverts, ont développé des écosystèmes de connecteurs dans un large éventail de frameworks open source et de plateformes commerciales. Toutefois, la plupart des plateformes populaires n’ont adopté qu’une seule des deux normes, ce qui oblige les clients à choisir des moteurs lors du choix d’un format.

Les catalogues introduisent des défis supplémentaires. L’une des principales responsabilités d’un catalogue est de gérer les fichiers de métadonnées actuels d’une table entre les rédacteurs et les lecteurs. Toutefois, certains catalogues limitent les moteurs autorisés à les écrire. Même si vous parvenez à stocker toutes vos données dans un format pris en charge par tous vos moteurs, vous ne pourrez peut-être toujours pas utiliser le moteur de votre choix, car il ne peut pas se connecter à votre catalogue. Ce verrouillage du fournisseur oblige les clients à fragmenter la découverte et la gouvernance des données dans des catalogues disparates.

Dans les deux sections suivantes, nous verrons comment Unity Catalog utilise les normes ouvertes et la fédération de catalogues pour résoudre les incompatibilités de format et de catalogue.

Un catalogue Iceberg entièrement ouvert

Unity Catalog brise les silos de format grâce à des normes ouvertes. Désormais disponible en préversion publique, vous pouvez utiliser Databricks et des moteurs externes pour écrire des tables Iceberg gérées par Unity Catalog. Les tables Iceberg gérées sont entièrement ouvertes à l’ensemble de l’écosystème Iceberg via l’implémentation par Unity Catalog des API Iceberg REST Catalog. Le REST Catalog est une spécification d’API ouverte qui fournit une interface standard pour interagir avec les tables Iceberg. Unity Catalog a été l’un des premiers à adopter le REST Catalog, en lançant la prise en charge en 2023. Cette préversion s’appuie sur cette base. Désormais, pratiquement n’importe quel client Iceberg compatible avec la spécification REST, tel qu’Apache Spark™, Apache Flink ou Trino, peut lire et écrire dans Unity Catalog.

Nous prévoyons de stocker toutes nos données dans un format ouvert et nous voulons un catalogue unique qui puisse se connecter à tous les outils que nous utilisons. Unity Catalog nous permet d’écrire des tables Iceberg qui sont entièrement ouvertes à n’importe quel client Iceberg, ce qui déverrouille l’ensemble de l’écosystème Lakehouse et pérennise notre architecture. — Hen Ben-Hemo, architecte de plateforme de données

Riskified

Avec Managed Iceberg, vous pouvez apporter la gouvernance Unity Catalog à l’écosystème Iceberg, même parmi les outils OSS comme PyIceberg qui ne prennent pas en charge nativement l’autorisation. Unity Catalog vous permet de créer des pipelines de données qui couvrent l’ensemble de l’écosystème Lakehouse. Par exemple, Apache Iceberg offre un connecteur de récepteur populaire pour l’écriture de Kafka dans des tables Iceberg. Vous pouvez utiliser Kafka Connect pour écrire des tables Iceberg dans Unity Catalog et utiliser en aval le rapport prix/performances optimal de Databricks pour les fonctionnalités ETL, d’entreposage de données et de machine learning.

Toutes les tables gérées offrent automatiquement des performances de lecture et une optimisation du stockage optimales grâce à l’optimisation prédictive. L’optimisation prédictive fait automatiquement expirer les anciens instantanés, supprime les fichiers non référencés et regroupe de manière incrémentielle vos données à l’aide du clustering Liquid. Dans notre exemple d’utilisation de Kafka, cela empêche la dégradation des performances couramment causée par la prolifération de petits fichiers. Vous pouvez maintenir vos tables Iceberg en bon état et performantes sans avoir à gérer manuellement votre propre maintenance de table.

Les tables Iceberg gérées sont intégrées à la plateforme Databricks, ce qui vous permet d’exploiter ces tables avec des fonctionnalités de plateforme avancées telles que DBSQL, Mosaic AI, Delta Sharing et les vues matérialisées. Au-delà de Databricks, Unity Catalog prend en charge un écosystème de partenaires pour faire atterrir en toute sécurité les données dans Iceberg à l’aide d’outils externes. Par exemple, Redpanda ingère les données de streaming produites dans les rubriques Kafka via l’API Iceberg REST Catalog d’Unity Catalog :

Grâce aux tables Iceberg gérées par Unity Catalog et à Iceberg REST Catalog, Redpanda peut désormais diffuser en continu les charges de travail Kafka les plus importantes et les plus exigeantes directement dans les tables Iceberg qui sont optimisées par Unity Catalog, ce qui permet de déverrouiller la détectabilité prête à l’emploi et des performances de requête rapides sur les flux arbitraires. Grâce à la configuration à bouton-poussoir, toutes les données de streaming en temps réel sont désormais entièrement disponibles pour l’écosystème Iceberg, de sorte que les clients peuvent être sûrs que leur architecture est conçue pour durer, quelle que soit l’évolution de leur pile. — Matthew Schumpert, responsable des produits, plateforme

Redpanda

Nous sommes ravis d’avoir les partenaires de lancement suivants à bord : Atlan, Buf, CelerData, Clickhouse, dbt Labs, dltHub, Fivetran, Informatica, PuppyGraph, Redpanda, RisingWave, StreamNative, et plus encore.

UN LEADER 5X

Gartner® : Databricks, leader des bases de données cloud

Le catalogue Lakehouse

Avec Unity Catalog, vous pouvez interagir non seulement entre les formats de table, mais également entre les catalogues. Désormais également en préversion publique, vous pouvez interroger et gérer en toute transparence les tables Iceberg gérées par des catalogues externes tels qu’AWS Glue, Hive Metastores et Snowflake Horizon Catalog. Étendant Hive Metastore et AWS Glue Federation, ces connecteurs vous permettent de monter des catalogues entiers dans Unity Catalog, créant ainsi une interface unifiée pour la découverte et la gouvernance des données.

La fédération offre une intégration transparente pour exploiter les fonctionnalités avancées d’Unity Catalog sur les tables Iceberg gérées par des catalogues étrangers. Vous pouvez utiliser les contrôles d’accès affinés, la lignée et l’audit de Databricks sur toutes vos données, dans tous les catalogues et quel que soit le format.

Unity Catalog permet aux ingénieurs ML et aux scientifiques des données de Rippling d’accéder en toute transparence aux tables Iceberg dans les entrepôts OLAP existants sans copie. Cela nous aide à réduire les coûts, à créer des sources de vérité cohérentes et à réduire la latence de l’actualisation des données, tout en maintenant des normes élevées en matière d’accès aux données et de confidentialité tout au long du cycle de vie des données. — Albert Strasheim, directeur de la technologie

Ripping

Grâce à la fédération, Unity Catalog peut régir l’intégralité de votre Lakehouse : sur toutes vos tables, modèles d’IA, fichiers, notebooks et tableaux de bord.

L’avenir des formats de table

Unity Catalog rapproche l’industrie de la réalisation de la simplicité, de la flexibilité et de la réduction des coûts du lakehouse de données ouvert. Chez Databricks, nous pensons que nous pouvons faire progresser encore davantage l’industrie - avec un seul format de table ouvert et unifié. Delta Lake et Apache Iceberg partagent une grande partie de la même conception, mais des différences subtiles entraînent de grandes incompatibilités pour les clients. Pour résoudre ces problèmes communs, les communautés Delta et Apache Iceberg alignent les concepts et les contributions, unifiant ainsi l’écosystème Lakehouse.

Iceberg v3 est une étape importante vers cette vision. Iceberg v3 inclut des fonctionnalités clés telles que les vecteurs de suppression, le type de données Variant, les ID de ligne et les types de données géospatiales qui partagent des implémentations identiques dans Delta Lake. Ces améliorations vous permettent de déplacer facilement des données et de supprimer des fichiers entre les formats, sans réécrire des pétaoctets de données.

Dans les futures versions de Delta Lake et Apache Iceberg, nous voulons nous appuyer sur cette base afin que les clients Delta et Iceberg puissent utiliser les mêmes métadonnées et, par conséquent, partager directement les tables. Grâce à ces investissements, les clients peuvent atteindre l’objectif initial d’un lakehouse de données ouvert : une plateforme entièrement intégrée pour les données et l’IA sur une seule copie des données.

Les tables Iceberg gérées et étrangères sont désormais disponibles en préversion publique. Consultez notre documentation pour commencer ! Revoyez nos annonces lors du Data and AI Summit du 9 au 12 juin 2025 pour en savoir plus sur nos nouvelles fonctionnalités Iceberg et sur l’avenir des formats de table ouverts.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Ne manquez jamais un article Databricks

Abonnez-vous à notre blog et recevez les derniers articles dans votre boîte mail.