Revenir au contenu principal
Produit

Faire progresser Apache Iceberg sur Databricks : Iceberg v3 GA, partage ouvert et gouvernance unifiée

Le catalogue le plus complet et le plus ouvert pour Apache Iceberg

par Jason Reid, Ryan Blue, Daniel Weeks et Michelle Leon

*Unity Catalog est désormais le catalogue Apache Iceberg le plus complet, interopérable et prêt pour la production, avec Managed Iceberg, Iceberg v3 et Foreign Iceberg atteignant la disponibilité générale (GA).
*Cinq capacités le distinguent : API ouvertes, fédération de catalogues, contrôle d'accès inter-moteurs, partage sécurisé sans copie et optimisation pilotée par l'IA.
*À l'avenir, Iceberg v4 et Delta 5.0 convergeront vers une structure de métadonnées unifiée, mettant fin au compromis entre interopérabilité et performances prêtes pour la production.

La prochaine phase du lakehouse ouvert sera définie par le catalogue. Les formats de table ouverts ont permis à de nombreux moteurs de travailler sur les mêmes données, mais le catalogue détermine si ces données peuvent être gouvernées, optimisées et partagées de manière cohérente entre les systèmes. Alors que de plus en plus de charges de travail, y compris l'IA et les applications agentiques, dépendent d'un accès gouverné aux données à travers de nombreux systèmes, les entreprises ont besoin d'un catalogue Iceberg capable d'offrir l'interopérabilité, d'excellentes performances et une gouvernance prête pour l'entreprise.

C'est pourquoi, aujourd'hui, nous annonçons l'ensemble le plus complet de fonctionnalités Iceberg disponibles sur n'importe quel catalogue de lakehouse. Dans ce billet de blog, nous discuterons des nouvelles améliorations du support d'Iceberg dans Unity Catalog et décomposerons 5 points qui font d'Unity Catalog le catalogue Iceberg le plus interopérable du marché aujourd'hui.

Nouveautés : les fonctionnalités Iceberg en un coup d'œil

Nous avons mis en disponibilité générale (GA) et en aperçu (Preview) un large ensemble de fonctionnalités Iceberg sur Databricks et Unity Catalog pour garantir que chaque moteur, chaque catalogue et chaque équipe puissent travailler ensemble de manière transparente.

  • Iceberg géré (GA) : Créez, lisez, écrivez, optimisez, gouvernez et partagez des tables Iceberg directement dans Unity Catalog, avec Predictive Optimization et Liquid Clustering qui éliminent le travail manuel requis pour maintenir les performances des tables.
  • Iceberg v3 (GA) : Prise en charge native des vecteurs de suppression, du suivi des lignes et du nouveau type VARIANT pour les tables gérées, externes et activées par UniForm.
  • Iceberg externe (GA) & Délégation d'identifiants pour Iceberg externe (GA) : Enregistrez, gouvernez et interrogez en toute sécurité les tables Iceberg gérées dans des catalogues externes.
  • Partage externe vers les clients Iceberg (GA) : Partagez des données en direct avec tous les clients compatibles avec le catalogue REST Iceberg en utilisant le protocole ouvert DeltaSharing.
  • Partage externe de tables Iceberg externes (Aperçu public) : Partagez nativement des tables Iceberg gérées en dehors de Databricks dans Databricks et dans tout l'écosystème Delta Sharing.
  • Vues matérialisées compatibles Iceberg (Aperçu public limité) : Créez des vues matérialisées haute performance dans Databricks et exposez-les en aval sous forme de tables Iceberg natives.
  • Contrôle d'accès basé sur les attributs inter-moteurs (Beta) : Appliquez des politiques de gouvernance granulaires pour les moteurs Iceberg externes via les API de scan du catalogue REST Iceberg.
  • Nouveaux connecteurs de fédération de catalogue (Preview) : Élargissement du support de fédération de catalogue d'Unity Catalog au-delà d'AWS Glue, deSnowflake Horizon, deHive Metastore, et deSalesforce Data Cloud pour inclureGoogle Cloud Lakehouse et Palantir, faisant d'Unity Catalog votre guichet unique.
Unity Catalog Ecosystem

Cinq points qui font d'Unity Catalog le catalogue Iceberg le plus interopérable

Pour offrir un lakehouse entièrement ouvert, un catalogue Iceberg doit aller au-delà du simple suivi des métadonnées. Il doit vous offrir une flexibilité absolue sur divers moteurs, fournisseurs et modèles de gouvernance. Nous pensons que l'évaluation d'un catalogue Iceberg ouvert dépend de la manière dont il répond à cinq exigences opérationnelles fondamentales : fournir des API ouvertes, fédérer à travers des domaines externes, appliquer la gouvernance inter-moteurs, permettre un partage sécurisé et ouvert, et une innovation continue en matière de performances et de format.

Unity Catalog est le seul catalogue qui répond à ces cinq exigences.

Iceberg Catalog Comparison

1. API ouvertes et délégation d'identifiants

Les clients doivent pouvoir utiliser le moteur qui convient le mieux à la charge de travail, qu'il s'agisse de Spark, Trino, Flink, Snowflake, DuckDB, pandas ou d'un autre client compatible Iceberg, sans copier de données ni accorder à chaque moteur des autorisations de stockage étendues.

Avec Iceberg géré maintenant disponible en général sur Databricks, les clients peuvent créer, lire et écrire des tables Iceberg dans Unity Catalog à partir de n'importe quel moteur en utilisant les API du catalogue REST Iceberg de UC.

Les API du catalogue REST Iceberg de UC s'étendent maintenant au-delà des tables Iceberg gérées. UC délègue également des identifiants pour les tables Iceberg fédérées, fournissant un accès sécurisé via des API ouvertes, même aux tables gérées dans des catalogues externes. Et, actuellement en aperçu public limité, les clients peuvent créer des vues matérialisées dans Databricks et les exposer en tant que tables Iceberg aux consommateurs en aval. Avec une disponibilité plus large dans les semaines à venir, les clients pourront créer des vues matérialisées compatibles Iceberg directement avec CREATE MATERIALIZED VIEW my_mv USING ICEBERG.

Create Iceberg Table

2. Fédération de catalogue : votre domaine Iceberg entier en une seule vue

De nombreuses grandes entreprises ont plusieurs catalogues dans leur lakehouse. Par exemple, elles peuvent avoir des données réparties sur Unity Catalog, AWS Glue, Snowflake Horizon et Hive Metastore. Avec Iceberg externe maintenant disponible en général, Unity Catalog peut gouverner les tables Iceberg gérées dans d'autres catalogues. Les clients peuvent découvrir, sécuriser, interroger et partager des tables Iceberg externes via Databricks tout en laissant les données et le catalogue source en place.

Unity Catalog prend désormais en charge un ensemble large et croissant d'intégrations de catalogues Iceberg, y compris AWS Glue, Google Cloud Lakehouse Runtime Catalog, Snowflake Horizon, Palantir, Salesforce et Workday. Ces intégrations permettent aux entreprises de considérer Unity Catalog comme le guichet unique pour leur domaine Iceberg, même lorsque les données sont produites ou gérées ailleurs.

3. Contrôle d'accès basé sur les attributs inter-moteurs

Historiquement, les contrôles au niveau des lignes et des colonnes étaient appliqués à l'intérieur d'un seul moteur. Dans le lakehouse ouvert, la même table peut être accédée par de nombreux moteurs. Cela a introduit un problème difficile : la gouvernance doit fonctionner partout où les données peuvent être accédées.

Avec les contrôles d'accès basés sur les attributs (ABAC) inter-moteurs désormais en version bêta, Unity Catalog étend le contrôle d'accès basé sur les attributs aux clients Iceberg utilisant les API REST Catalog Scan d'Iceberg.

Comment ça marche : les administrateurs définissent les politiques une seule fois dans UC, y compris les masques de colonnes, les filtres de lignes et les politiques basées sur les tags. Lorsqu'un moteur Iceberg externe demande l'accès, UC évalue les politiques applicables lors de la planification de l'analyse côté serveur. UC renvoie ensuite un plan d'analyse filtré afin que le moteur ne lise que les données autorisées lors du traitement de la requête.

Cela apporte une gouvernance granulaire aux moteurs Iceberg externes utilisant des normes ouvertes. Tout moteur, tel qu'Apache Spark ou DuckDB, qui implémente le client de planification de l'analyse du catalogue REST Iceberg (ajouté dans la version 1.11 d'Iceberg) peut accéder aux données avec l'ABAC appliqué. Les clients peuvent utiliser le meilleur moteur pour chaque charge de travail tout en maintenant un modèle de gouvernance unique dans le lakehouse.

Unity Catalog et Iceberg géré nous donnent le meilleur des deux mondes : des performances natives pour nos pipelines d'IA et de ML, et une interopérabilité ouverte pour chaque consommateur en aval. Un chemin d'écriture, zéro duplication, et une couche de gouvernance que chaque moteur respecte, y compris les produits pilotés par l'IA que nous construisons pour le Data Cloud de Rippling.— Tae Lee, Ingénieur principal, Plateforme de données chez Rippling

4. Partage sécurisé sans copie pour les collaborations externes et inter-domaines

Le partage inter-domaines oblige souvent les fournisseurs de données à faire des compromis difficiles : copier les données vers une autre plateforme, créer des mécanismes d'authentification externes complexes ou exiger que chaque destinataire utilise le même écosystème de fournisseurs. Databricks a été le pionnier du partage de données ouvert et sécurisé avec Delta Sharing, le protocole open source le plus largement adopté pour le partage de données et d'IA - prenant en charge le partage de Databricks à Databricks et le partage de Databricks vers l'extérieur.

Nous sommes ravis d'annoncer qu'Iceberg est désormais un citoyen de première classe dans Databricks Delta Sharing, à la fois comme format source et comme destination. Avec le partage vers les clients Iceberg désormais généralement disponible, les clients Databricks peuvent partager des données en direct en externe avec tout destinataire qui prend en charge l'API REST Catalog d'Iceberg. Les destinataires peuvent interroger les données partagées à partir de clients compatibles Iceberg tels que Snowflake, Trino, Flink et Spark, sans ingestion manuelle ni copie. Les fournisseurs continuent de gérer l'accès, l'audit et la gouvernance via Unity Catalog.

Nous annonçons également la préversion publique du partage d'Iceberg étranger. Les clients peuvent partager des tables Iceberg qui sont gérées ou cataloguées en dehors de Databricks mais enregistrées et gouvernées dans Unity Catalog. Cela signifie que UC peut servir de couche de partage pour les tables Iceberg gérées et étrangères, tout en conservant les données en place et la gouvernance centralisée.

Partage Iceberg

5. Innovation en matière de performances et de formats : des tables ouvertes plus rapides sans réglage manuel

L'interopérabilité ouverte ne fonctionne que si les tables restent performantes à l'échelle de la production. Unity Catalog est le seul catalogue qui utilise l'IA pour optimiser vos tables afin d'obtenir des requêtes plus rapides et une surcharge opérationnelle réduite. Predictive Optimization détermine quelles tables nécessitent une maintenance, quelles optimisations exécuter, et à quelle fréquence les exécuter, et adapte la disposition des données de votre table en fonction des modèles de charge de travail. Cela réduit le travail opérationnel requis pour maintenir les tables Iceberg rapides et rentables à mesure que l'utilisation change, et ces optimisations bénéficient à tous les moteurs - par exemple, les techniques d'optimisation de la disposition des données améliorent le saut de données pour les requêtes exécutées en dehors de Databricks, comme dans Apache Spark. Nous innovons constamment dans l'expérience client - et sommes le seul catalogue capable de sélectionner intelligemment les clés de clustering pour des performances optimales ou de mettre à niveau automatiquement les tables ouvertes avec les dernières innovations basées sur les modèles d'accès antérieurs.

Databricks fait également progresser le standard Iceberg lui-même. Avec Iceberg v3 désormais généralement disponible sur Databricks, les clients bénéficient de la prise en charge des vecteurs de suppression, du suivi des lignes et de VARIANT sur les tables Iceberg gérées, les tables Iceberg étrangères et les tables gérées avec UniForm activé. Ces capacités comblent des lacunes importantes entre les performances et l'interopérabilité : les vecteurs de suppression accélèrent les mises à jour, les fusions et les suppressions ; le suivi des lignes prend en charge un traitement incrémental plus efficace ; et VARIANT fournit une représentation standard pour les données semi-structurées. Ces fonctionnalités fonctionnent également de manière transparente entre les tables Delta et Iceberg, permettant l'interopérabilité sans réécriture des données.

Ces investissements convergent vers le même objectif : des tables ouvertes qui ne forcent pas les clients à choisir entre l'interopérabilité de l'écosystème et les capacités de performance requises pour les charges de travail de production.

Unity Catalog nous donne un endroit unique pour gouverner les données entre les équipes et les systèmes, tandis qu'Iceberg géré offre les performances dont nous avons besoin à notre échelle.— Kayvon Raphael, Responsable de l'ingénierie des données, Magnite

Ensemble, ces cinq capacités font d'Unity Catalog le meilleur catalogue pour Apache Iceberg. UC offre aux clients un accès ouvert aux tables Iceberg, une vue unifiée entre les catalogues, une gouvernance granulaire entre les moteurs, un partage sécurisé entre les domaines et une optimisation automatique pour les charges de travail de production.

La prochaine frontière : Iceberg v4

Avec Iceberg v4, nous repensons la structure des métadonnées de base de manière fondamentale pour améliorer les performances, la scalabilité et l'interopérabilité. Notre objectif est de relever continuellement la barre en matière de performances et d'innovation de fonctionnalités, et ce, d'une manière qui rapproche Iceberg et Delta Lake. C'est pourquoi nous proposons également que la prochaine version de Delta, Delta 5.0, adopte la structure de métadonnées adaptative de l'arbre.

Le résultat est simple : toutes les tables gérées sont automatiquement optimisées dans Unity Catalog, gouvernées via des API ouvertes et disponibles pour n'importe quel moteur. Alors que d'autres plateformes vous obligent à choisir entre l'interopérabilité et les performances et capacités avancées. Avec Unity Catalog, vous obtenez les deux.

En savoir plus au Data + AI Summit

Rejoignez-nous au Data + AI Summit pour en savoir plus sur Apache Iceberg, Unity Catalog, le partage ouvert, la fédération, et la prochaine phase d'unification des formats Delta et Iceberg.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.