Revenir au contenu principal
Plateforme

Interopérabilité étendue avec les API ouvertes de Unity Catalog

Créez, lisez et écrivez dans des tables Delta gérées à partir de moteurs externes.

par Alex Jiang et Tathagata Das

  • L'accès externe aux tables Delta gérées par UC est maintenant en version Beta. Les moteurs externes comme Apache Spark, Apache Flink et DuckDB peuvent désormais créer, lire et écrire dans les tables Delta gérées.
  • Les tables Delta gérées par UC sont construites sur la nouvelle fonctionnalité de validation des commits du catalogue de Delta Lake — une norme ouverte qui coordonne les commits via le catalogue, permettant des écritures concurrentes sécurisées, l'auditabilité et les transactions multi-instructions.
  • La distribution des identifiants est maintenant disponible en général. Des milliers de clients utilisent la distribution des identifiants pour accéder en toute sécurité aux actifs de données UC à partir de moteurs externes, désormais avec la prise en charge de l'authentification M2M OAuth et le rafraîchissement automatique des identifiants pour les pipelines de longue durée.

Unity Catalog a été conçu pour le lakehouse ouvert. Auparavant, les équipes de données étaient enfermées dans des silos, souvent obligées de dupliquer les données sur différentes plateformes juste pour utiliser les outils qu'elles souhaitaient. Chaque nouvelle plateforme ou outil impliquait la copie de jeux de données, la reconstruction des politiques d'accès à partir de zéro et la synchronisation de tout. Il en résultait une augmentation des coûts due au stockage redondant, des politiques qui perdaient leur synchronisation et une fragmentation de l'accès et de la découverte des données.

Lorsque nous avons rendu Unity Catalog open source et lancé les API ouvertes, nous avons brisé les silos qui enfermaient auparavant les clients. Les entreprises pouvaient enfin conserver une copie des données, utiliser n'importe quel moteur de calcul et tout gouverner depuis un seul endroit. L'écosystème UC a prospéré depuis. Aujourd'hui, des milliers de clients utilisent Unity Catalog pour gouverner et accéder aux tables Delta Lake et Apache Iceberg, avec des dizaines d'intégrations dans l'écosystème Unity Catalog en pleine croissance — d'Apache Spark et Trino à DuckDB et Confluent Tableflow.

Accès externe aux tables gérées, maintenant en bêta

Les tables gérées UC sont là où l'ouverture rencontre la performance. Ces tables avancées utilisent Predictive Optimization et Liquid Clustering pour ajuster automatiquement les dispositions des données, exécuter la compaction et le nettoyage, et maintenir les statistiques à jour — offrant des requêtes jusqu'à 20 fois plus rapides et des coûts de stockage réduits de 50 %, tout en restant entièrement accessibles via des API ouvertes.

Maintenant en bêta, les moteurs externes, tels que Apache Spark, Apache Flink et DuckDB, peuvent créer et écrire dans des tables Delta gérées par UC avec une gouvernance centralisée et des optimisations automatiques.

Avec la bêta, les moteurs externes peuvent :

  • Créer des tables gérées — Créer de nouvelles tables gérées par UC directement à partir d'un moteur externe.
  • Lire et écrire en masse — Lire et écrire dans des tables gérées avec une sécurité transactionnelle complète.
  • Transmettre en flux vers et depuis des tables gérées — Utiliser les tables gérées comme source et destination de flux, permettant des pipelines temps réel de bout en bout sur Apache Spark.

Comme chaque opération passe par les tables gérées UC construites sur des catalog commits, vous bénéficiez de commits sérialisés qui empêchent la corruption des journaux et d'une auditabilité complète de chaque lecture et écriture. Predictive Optimization continue de fonctionner de manière transparente, même sur les tables accessibles par des moteurs externes. Les catalog commits préparent également le terrain pour des fonctionnalités telles que les transactions multi-instructions et multi-tables qui nécessitent un coordinateur de commit centralisé.

L'écosystème UC florissant continue de croître à mesure que les moteurs étendent leur prise en charge de l'accès externe aux tables gérées. Delta Kernel — la bibliothèque Java et Rust open source pour lire, écrire et commiter des tables Delta — abstrait les détails du protocole de bas niveau afin que les développeurs de connecteurs puissent se concentrer sur l'intégration UC, et non sur l'implémentation Delta. Les connecteurs Delta pour Apache Spark, Apache Flink et DuckDB ont tous tiré parti de Delta Kernel pour prendre en charge les écritures externes dans les tables gérées par UC et s'intégrer aux commits gérés par le catalogue, et l'écosystème continue de croître. En gérant la complexité du protocole de bas niveau, Delta Kernel permet à n'importe quel moteur de s'intégrer facilement à Unity Catalog, ce qui contribue à un écosystème croissant de connecteurs.

Accès externe sécurisé rendu possible par la distribution de certificats

Pour qu'un moteur externe accède aux données dans UC, il a besoin d'un moyen sécurisé d'authentification et d'obtention d'un accès limité au stockage cloud sans nécessiter d'autorisations larges et statiques ou de certificats liés à un compte spécifique. Unity Catalog gère cela via la distribution de certificats, qui est maintenant généralement disponible (GA) : UC émet des certificats de courte durée et limités aux moteurs externes à la demande, avec des politiques d'accès appliquées de manière centralisée.

Des milliers de clients ont utilisé les API ouvertes UC et deux ajouts les rendent prêts pour la production à l'échelle de l'entreprise. Les moteurs externes peuvent désormais s'authentifier auprès d'UC en utilisant OAuth machine à machine (M2M), répondant aux exigences de sécurité de l'entreprise sans dépendre de jetons d'accès personnalisés (PAT), qui sont par utilisateur, de longue durée et difficiles à faire pivoter. Et les certificats sont automatiquement actualisés par les moteurs via les API de distribution de certificats UC, de sorte que les pipelines qui s'exécutent pendant des heures se terminent de manière fiable sans que les jetons n'expirent en cours de travail.

Exécution de requêtes avec distribution de certificats
Exécution de requêtes avec distribution de certificats à l'aide d'un moteur de calcul externe

Avec la distribution de certificats, les entreprises peuvent lire, écrire et créer des tables gérées et externes dans Unity Catalog à partir de n'importe quel moteur ou outil compatible. Ces certificats sont de courte durée, limités à la ressource demandée et régis par les privilèges UC. Cela signifie que votre équipe de plateforme conserve le contrôle total sur les principaux qui peuvent accéder aux données en externe et sur ce qu'ils peuvent en faire.

Avec les API ouvertes de Unity Catalog, nous avons permis à nos équipes d'utiliser leurs outils préférés tout en maintenant la gouvernance et la cohérence des données. Nous pouvons tirer parti des avantages des tables gérées au sein d'une plateforme de données et d'IA véritablement interopérable qui fonctionne sur plusieurs moteurs de calcul.— Sudipta Das, Directeur des opérations de données d'entreprise chez PepsiCo

Distribution de certificats pour les volumes

La distribution de certificats s'étend non seulement aux tables, mais aussi aux données non structurées. La distribution de certificats pour les volumes est maintenant en préversion publique, de sorte que les clients externes peuvent demander des certificats temporaires et limités pour accéder aux images, PDF et vidéos stockés dans des volumes avec la gouvernance Unity Catalog. Le même modèle de contrôle d'accès, la même piste d'audit et les mêmes certificats limités s'appliquent, que vous interrogiez une table ou traitiez un fichier vidéo brut en externe.

Et ensuite ?

Nous continuons d'investir pour rendre l'accès externe plus performant. La distribution de certificats régit aujourd'hui les contrôles d'accès généraux pour les moteurs externes. Nous avons également développé des fonctionnalités pour appliquer des contrôles d'accès basés sur les attributs (ABAC) pour les lectures externes, ce qui rend la gouvernance plus granulaire. Cela permet d'appliquer des politiques ABAC au niveau des lignes et des colonnes lorsque les tables gérées par UC sont lues à partir de moteurs externes.

Commencez dès aujourd'hui

Pour commencer avec la distribution de certificats, consultez notre documentation. Pour utiliser la bêta de l'accès externe aux tables Delta gérées :

  1. Inscrivez-vous à « Accès externe aux tables Delta gérées par Unity Catalog » dans le portail de préversion Databricks (voir Gérer les préversions Databricks)
  2. Activez l'accès aux données externes sur votre metastore et accordez EXTERNAL_USE_SCHEMA sur le schéma contenant les tables auxquelles vous souhaitez accéder.
  3. Créez une nouvelle table gérée par UC. Pour déplacer des données existantes, consultez le guide de migration pour convertir les tables externes en tables gérées.
  4. Utilisez Delta-Spark 4.2 avec Unity Catalog 0.4.1 pour créer, lire et écrire dans des tables gérées à partir d'un calcul externe. Consultez la documentation sur l'accès externe.

Rejoignez-nous au Data and AI Summit 2026

Le Data and AI Summit 2026 approche à grands pas ! Rejoignez-nous du 15 au 18 juin 2026 au Moscone Center de San Francisco, en Californie, pour découvrir comment les organisations leaders utilisent Unity Catalog pour gouverner les données et l'IA sur tous les moteurs. Inscrivez-vous dès aujourd'hui pour avoir un premier aperçu des nouveautés en matière de gouvernance ouverte et unifiée.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.