Créez, lisez et écrivez dans des tables Delta gérées à partir de moteurs externes.
par Alex Jiang et Tathagata Das
Unity Catalog a été conçu pour le lakehouse ouvert. Auparavant, les équipes de données étaient enfermées dans des silos, souvent obligées de dupliquer les données sur différentes plateformes juste pour utiliser les outils qu'elles souhaitaient. Chaque nouvelle plateforme ou outil impliquait la copie de jeux de données, la reconstruction des politiques d'accès à partir de zéro et la synchronisation de tout. Il en résultait une augmentation des coûts due au stockage redondant, des politiques qui perdaient leur synchronisation et une fragmentation de l'accès et de la découverte des données.
Lorsque nous avons rendu Unity Catalog open source et lancé les API ouvertes, nous avons brisé les silos qui enfermaient auparavant les clients. Les entreprises pouvaient enfin conserver une copie des données, utiliser n'importe quel moteur de calcul et tout gouverner depuis un seul endroit. L'écosystème UC a prospéré depuis. Aujourd'hui, des milliers de clients utilisent Unity Catalog pour gouverner et accéder aux tables Delta Lake et Apache Iceberg, avec des dizaines d'intégrations dans l'écosystème Unity Catalog en pleine croissance — d'Apache Spark et Trino à DuckDB et Confluent Tableflow.
Les tables gérées UC sont là où l'ouverture rencontre la performance. Ces tables avancées utilisent Predictive Optimization et Liquid Clustering pour ajuster automatiquement les dispositions des données, exécuter la compaction et le nettoyage, et maintenir les statistiques à jour — offrant des requêtes jusqu'à 20 fois plus rapides et des coûts de stockage réduits de 50 %, tout en restant entièrement accessibles via des API ouvertes.
Maintenant en bêta, les moteurs externes, tels que Apache Spark, Apache Flink et DuckDB, peuvent créer et écrire dans des tables Delta gérées par UC avec une gouvernance centralisée et des optimisations automatiques.
Avec la bêta, les moteurs externes peuvent :
Comme chaque opération passe par les tables gérées UC construites sur des catalog commits, vous bénéficiez de commits sérialisés qui empêchent la corruption des journaux et d'une auditabilité complète de chaque lecture et écriture. Predictive Optimization continue de fonctionner de manière transparente, même sur les tables accessibles par des moteurs externes. Les catalog commits préparent également le terrain pour des fonctionnalités telles que les transactions multi-instructions et multi-tables qui nécessitent un coordinateur de commit centralisé.
L'écosystème UC florissant continue de croître à mesure que les moteurs étendent leur prise en charge de l'accès externe aux tables gérées. Delta Kernel — la bibliothèque Java et Rust open source pour lire, écrire et commiter des tables Delta — abstrait les détails du protocole de bas niveau afin que les développeurs de connecteurs puissent se concentrer sur l'intégration UC, et non sur l'implémentation Delta. Les connecteurs Delta pour Apache Spark, Apache Flink et DuckDB ont tous tiré parti de Delta Kernel pour prendre en charge les écritures externes dans les tables gérées par UC et s'intégrer aux commits gérés par le catalogue, et l'écosystème continue de croître. En gérant la complexité du protocole de bas niveau, Delta Kernel permet à n'importe quel moteur de s'intégrer facilement à Unity Catalog, ce qui contribue à un écosystème croissant de connecteurs.
Pour qu'un moteur externe accède aux données dans UC, il a besoin d'un moyen sécurisé d'authentification et d'obtention d'un accès limité au stockage cloud sans nécessiter d'autorisations larges et statiques ou de certificats liés à un compte spécifique. Unity Catalog gère cela via la distribution de certificats, qui est maintenant généralement disponible (GA) : UC émet des certificats de courte durée et limités aux moteurs externes à la demande, avec des politiques d'accès appliquées de manière centralisée.
Des milliers de clients ont utilisé les API ouvertes UC et deux ajouts les rendent prêts pour la production à l'échelle de l'entreprise. Les moteurs externes peuvent désormais s'authentifier auprès d'UC en utilisant OAuth machine à machine (M2M), répondant aux exigences de sécurité de l'entreprise sans dépendre de jetons d'accès personnalisés (PAT), qui sont par utilisateur, de longue durée et difficiles à faire pivoter. Et les certificats sont automatiquement actualisés par les moteurs via les API de distribution de certificats UC, de sorte que les pipelines qui s'exécutent pendant des heures se terminent de manière fiable sans que les jetons n'expirent en cours de travail.
Avec la distribution de certificats, les entreprises peuvent lire, écrire et créer des tables gérées et externes dans Unity Catalog à partir de n'importe quel moteur ou outil compatible. Ces certificats sont de courte durée, limités à la ressource demandée et régis par les privilèges UC. Cela signifie que votre équipe de plateforme conserve le contrôle total sur les principaux qui peuvent accéder aux données en externe et sur ce qu'ils peuvent en faire.
Avec les API ouvertes de Unity Catalog, nous avons permis à nos équipes d'utiliser leurs outils préférés tout en maintenant la gouvernance et la cohérence des données. Nous pouvons tirer parti des avantages des tables gérées au sein d'une plateforme de données et d'IA véritablement interopérable qui fonctionne sur plusieurs moteurs de calcul.— Sudipta Das, Directeur des opérations de données d'entreprise chez PepsiCo
La distribution de certificats s'étend non seulement aux tables, mais aussi aux données non structurées. La distribution de certificats pour les volumes est maintenant en préversion publique, de sorte que les clients externes peuvent demander des certificats temporaires et limités pour accéder aux images, PDF et vidéos stockés dans des volumes avec la gouvernance Unity Catalog. Le même modèle de contrôle d'accès, la même piste d'audit et les mêmes certificats limités s'appliquent, que vous interrogiez une table ou traitiez un fichier vidéo brut en externe.
Nous continuons d'investir pour rendre l'accès externe plus performant. La distribution de certificats régit aujourd'hui les contrôles d'accès généraux pour les moteurs externes. Nous avons également développé des fonctionnalités pour appliquer des contrôles d'accès basés sur les attributs (ABAC) pour les lectures externes, ce qui rend la gouvernance plus granulaire. Cela permet d'appliquer des politiques ABAC au niveau des lignes et des colonnes lorsque les tables gérées par UC sont lues à partir de moteurs externes.
Pour commencer avec la distribution de certificats, consultez notre documentation. Pour utiliser la bêta de l'accès externe aux tables Delta gérées :
Le Data and AI Summit 2026 approche à grands pas ! Rejoignez-nous du 15 au 18 juin 2026 au Moscone Center de San Francisco, en Californie, pour découvrir comment les organisations leaders utilisent Unity Catalog pour gouverner les données et l'IA sur tous les moteurs. Inscrivez-vous dès aujourd'hui pour avoir un premier aperçu des nouveautés en matière de gouvernance ouverte et unifiée.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.