Revenir au contenu principal

Nouveautés de Databricks Unity Catalog au Data + AI Summit 2025

Unification de la gouvernance des données et de l’IA à travers les formats, les clouds et les équipes

What's new in UC at DAIS

Publié: 12 juin 2025

Produit11 min de lecture

Summary

• Unity Catalog unifie Delta Lake et Apache Iceberg™, éliminant ainsi les silos de formats pour fournir une gouvernance et une interopérabilité transparentes entre les clouds et les moteurs.
• Databricks étend Unity Catalog aux travailleurs du savoir en faisant des indicateurs de performance clés des actifs de données de premier ordre avec Unity Catalog Metrics et en introduisant une marketplace interne organisée qui aide les équipes à découvrir facilement les données à forte valeur ajoutée et les actifs d’IA organisés par domaine.
• Des contrôles de gouvernance améliorés, tels que le contrôle d’accès basé sur les attributs et la surveillance de la qualité des données, permettent de mettre à l’échelle la gestion sécurisée des données dans toute l’entreprise.

Il y a quatre ans, Databricks a constaté une complexité énorme dans le paysage des données : des catalogues distincts pour chaque plateforme, des outils de gouvernance cloisonnés dans les différents clouds et aucune manière unifiée de sécuriser les actifs d’IA. Nous avons été les pionniers de la Gouvernance unifiée en lançant Unity Catalog, une couche de catalogue ouverte et flexible permettant de gérer l’accès, la traçabilité, l’audit et la découverte dans l’ensemble des données et des actifs d’IA.

Aujourd’hui, Unity Catalog est devenu la base de la Databricks Data Intelligence Platform et la seule solution de gouvernance unifiée du secteur pour les données et l’IA dans tous les formats, clouds et moteurs. Du partage ouvert des données à la sécurité affinée et à la gouvernance des connaissances, Unity Catalog aide les organisations à apporter contexte, contrôle et confiance à leur patrimoine de données.

Lors du Data + AI Summit de cette année, nous annonçons des innovations majeures dans Unity Catalog, offrant le meilleur catalogue pour Apache Iceberg™, de nouvelles expériences utilisateur métier et une gouvernance intelligente pour protéger les données sensibles et garantir une qualité des données fiable à grande échelle.

Voici les nouveautés.

Le meilleur catalogue pour Apache Iceberg™

Les organisations qui adoptent un lakehouse sont souvent obligées de choisir entre Delta Lake et Apache Iceberg™. Ce choix crée des silos artificiels, limitant l’accès aux données et aux outils d’IA que les équipes peuvent utiliser, fragmentant la gouvernance et verrouillant les métadonnées dans des catalogues spécifiques au format.

Unity Catalog élimine la nécessité de choisir. Basé sur des normes ouvertes, Unity Catalog est le seul catalogue unifié qui fonctionne de manière transparente sur tous les formats, moteurs et clouds, ce qui en fait la base du lakehouse ouvert. Au cours de l’année écoulée, suite à l’acquisition de Tabular, nous avons investi massivement dans Apache Iceberg pour étendre cette vision. Nous sommes ravis d’annoncer :

  • La prise en charge complète de l’API Iceberg REST Catalog, permettant aux moteurs externes de lire (disponibilité générale) et d’écrire (préversion publique) dans les tables Iceberg gérées par Unity Catalog. Il s’agit d’un différenciateur majeur sur le marché, éliminant le verrouillage de format et permettant une interopérabilité totale inégalée par toute autre solution. 
  • Les tables gérées Iceberg sont désormais en préversion publique, offrant le meilleur prix et les meilleures performances de sa catégorie, le clustering liquide, l’optimisation prédictive et l’intégration complète avec Databricks et sur les moteurs externes, notamment Trino, Snowflake et Amazon EMR.
  • La fédération de catalogues Iceberg est en préversion publique, ce qui vous permet de gouverner et d’interroger les tables Iceberg gérées dans AWS Glue, Hive Metastore et Snowflake Horizon sans copier les données.
  • Delta Sharing pour Iceberg est désormais en préversion privée, ce qui vous permet de partager des tables Unity Catalog et des tables Delta avec n’importe quel destinataire à l’aide de Delta Sharing et de les consommer dans n’importe quel client qui prend en charge l’API Iceberg REST Catalog.

Ensemble, ces fonctionnalités brisent les silos de format et distinguent Unity Catalog comme le seul catalogue qui offre une gouvernance et une interopérabilité véritablement ouvertes et unifiées. Consultez notre blog sur la prise en charge d’Iceberg pour en savoir plus sur ces annonces. 

Unity Catalog open integrations

Extension de Unity Catalog aux utilisateurs métier

Les plateformes de données ne doivent pas s’arrêter à l’utilisateur technique. Les utilisateurs métier ont besoin d’un moyen clair et cohérent de trouver, de faire confiance et d’utiliser les données. Unity Catalog offre désormais une base unifiée pour le contexte métier afin de combler le fossé entre les équipes de données et les équipes métier. 

Métriques Unity Catalog : Une couche sémantique pour toutes les charges de travail de données et d’IA

Les définitions de métriques incohérentes entre les outils et les équipes sont depuis longtemps une source de confusion, de désalignement et de manque de confiance dans les données. Les métriques Unity Catalog, désormais en préversion publique sur AWS, Azure et GCP et en disponibilité générale plus tard cet été, résolvent ce problème en faisant des métriques métier des actifs de première classe dans le lakehouse. Contrairement aux métriques définies uniquement dans la couche BI, qui limitent la réutilisation et l’intégration, la définition des métriques au niveau de la couche de données rend la sémantique métier réutilisable dans toutes les charges de travail, telles que les tableaux de bord, les modèles d’IA et les tâches d’ingénierie des données. Les métriques Unity Catalog sont également entièrement adressables via SQL pour garantir que tous les membres de l’organisation ont la même vue des métriques, quel que soit l’outil qu’ils choisissent.

  • Définir une fois, utiliser partout : Créez des métriques une seule fois dans Unity Catalog et utilisez-les dans les tableaux de bord AI/BI, Genie, les notebooks, SQL et les tâches Lakeflow. Les intégrations à venir étendront la prise en charge aux outils BI tels que Tableau, Hex, Sigma, ThoughtSpot, Omni et aux outils d’observabilité tels que Anomalo et Monte Carlo.
  • Gouvernance et auditabilité par défaut : Les métriques certifiées sont fournies avec l’audit et la traçabilité prêtes à l’emploi, ce qui permet d’obtenir des informations fiables et conformes dans toutes les équipes.

Unity Catalog Metrics Partners

« Les métriques Unity Catalog nous offrent un emplacement central pour définir les indicateurs clés de performance métier et normaliser la sémantique entre les équipes, garantissant que chacun travaille à partir des mêmes définitions fiables dans les tableaux de bord, SQL et les applications d’IA. » — Richard Masters, vice-président, Data & AI, Virgin Atlantic
« Les métriques Unity Catalog représentent une opportunité passionnante pour les clients de Tableau de tirer parti de la valeur de la gouvernance centralisée avec Databricks Unity Catalog. Grâce à notre intégration approfondie et à notre feuille de route en expansion avec Databricks, nous sommes ravis d’aider à supprimer les frictions pour nos clients en tirant parti de Databricks pour définir leurs métriques métier de base. » — Nicolas Brisoux, directeur principal de la gestion des produits, Tableau

Nouvelles expériences de découverte organisées avec des informations intelligentes

Pour responsabiliser pleinement les utilisateurs métier, vous devez faire en sorte que les données fiables soient faciles à trouver, à comprendre et à utiliser. Unity Catalog étend sa gouvernance axée sur les entreprises avec une nouvelle expérience Discover, désormais en préversion privée, une place de marché interne organisée de produits de données certifiés organisés par domaines d’activité tels que les ventes, le marketing ou la finance. 

Les recommandations basées sur l’IA et la conservation des responsables des données aident à faire remonter les actifs les plus précieux, tels que les métriques, les tableaux de bord, les tables, les agents d’IA et les espaces Genie qui sont enrichis de documentation, de propriété et d’informations sur l’utilisation. De nouveaux signaux intelligents mettent en évidence la qualité des données, les modèles d’utilisation, les relations et l’état de certification, aidant les utilisateurs à évaluer rapidement la confiance et la pertinence. De plus, avec l’Assistant Databricks intégré, les utilisateurs peuvent poser des questions en langage naturel et obtenir des réponses claires et contextuelles basées sur des métriques gouvernées.

Unity Catalog Discover UI

Nous introduisons également de nouvelles fonctionnalités intelligentes dans Databricks pour rendre la découverte de données plus facile et plus intuitive, quel que soit l’endroit où les utilisateurs travaillent dans la plateforme. Optimisées par Unity Catalog, ces fonctionnalités aident les équipes à trouver plus rapidement des données fiables et à comprendre leur contexte en un coup d’œil.

  • Domaines (bientôt disponibles) : Organisez les données par domaine d’activité pour aligner la découverte sur les opérations de l’organisation.
  • Certifications et balises de dépréciation (bêta) : Signalez la confiance des données et la pertinence métier dans les jeux de données, les métriques et les tableaux de bord. Les actifs balisés affichent bien en évidence leur état dans les surfaces de création telles que l’éditeur SQL, ce qui permet de maintenir les signaux de qualité des données visibles tout au long du flux de travail de l’utilisateur. Les certifications et les balises de dépréciation sont disponibles dans le cadre de Tag Policies Beta. 
  • Demande d’accès (préversion privée) : Pour rationaliser la livraison, les utilisateurs peuvent demander instantanément l’accès aux données directement à l’actif.
UN LEADER 5X

Gartner® : Databricks, leader des bases de données cloud

Fonctionnalités de gouvernance avancées supplémentaires désormais disponibles 

Gouvernance à fort effet de levier avec des contrôles évolutifs basés sur les attributs

La mise à l’échelle de la gouvernance des données devient de plus en plus difficile à mesure que les organisations se développent, avec davantage d’utilisateurs, d’équipes et d’actifs de données à gérer. Les stratégies statiques et les contrôles manuels ne peuvent pas suivre, ce qui entraîne des lacunes en matière de gouvernance, des risques de sécurité et des goulots d’étranglement opérationnels. 

Pour relever ces défis, Unity Catalog fournit désormais une automatisation intelligente et des contrôles flexibles et évolutifs pour classer les données sensibles, appliquer la stratégie de manière cohérente et accélérer l’accès sécurisé aux données dans l’ensemble du lakehouse. 

  • Contrôle d’accès basé sur les attributs (ABAC) : Définissez des stratégies d’accès flexibles à l’aide de balises qui peuvent être appliquées au niveau du catalogue, du schéma ou de la table. ABAC est disponible en version bêta pour la sécurité au niveau des lignes et des colonnes sur AWS, Azure et GCP

  • Stratégies de balises : Les stratégies de balises appliquent une couche de gouvernance pour la façon dont les balises sont créées, attribuées et utilisées dans Databricks. Ces stratégies au niveau du compte garantissent que les balises restent cohérentes et fiables, prenant en charge tout, de la classification des données à l’attribution des coûts. Les stratégies de balises sont disponibles en version bêta sur AWS, Azure et GCP

  • Classification des données : Détectez et balisez intelligemment les données sensibles dans Unity Catalog. Les nouvelles données sont analysées dans les 24 heures pour détecter automatiquement les nouvelles informations d’identification personnelle, ce qui minimise les efforts manuels et permet aux équipes de rester au fait de l’accès aux données. Lorsqu’elle est utilisée avec ABAC, la classification des données protège automatiquement les données sensibles en fonction de vos stratégies de contrôle d’accès. La classification des données est disponible en version bêta sur AWS, Azure et GCP

« La mise en œuvre du masquage de colonnes dans plus de 5 000 tables nécessitait auparavant un énorme effort manuel. Avec ABAC, nous sommes en mesure d’appliquer des stratégies cohérentes de manière dynamique, ce qui améliore considérablement la vitesse et la gouvernance. » — Ramesh Balasubramanyan, administrateur Databricks, SAIF
« Databricks Data Classification a changé la donne dans notre stratégie de confidentialité et de sécurité des données. Associé à ABAC, il nous permet de sécuriser automatiquement les données sensibles sans restreindre les données dont nos analystes ont besoin. Le plus grand avantage a été la vitesse, avec une classification et un masquage automatisés réduisant considérablement les frais généraux manuels, libérant nos ressources et permettant à notre équipe de gagner d’innombrables heures chaque semaine. » — Mary Tesfay, responsable des données et de l’analyse, Corp IT, Navitas

Surveillance automatisée de la qualité des données à grande échelle

Unity Catalog détecte désormais intelligemment et aide à résoudre les problèmes de qualité des données dans toutes vos tables grâce à la surveillance de la qualité des données, disponible en version bêta sur AWS, Azure et GCP. La surveillance de la qualité des données vérifie la fraîcheur (la date de la dernière mise à jour des données) et l’exhaustivité (si les volumes de données sont conformes aux attentes) à l’aide de l’intelligence des données dans l’ensemble des schémas. Les consommateurs sont en mesure de comprendre l’état des données en un coup d’œil grâce à des indicateurs d’état, tandis que les propriétaires des données peuvent comprendre la priorité des problèmes en fonction de la traçabilité en aval, découvrir la cause première et définir des alertes à l’aide de la journalisation et des tableaux de bord intégrés. 

Data quality monitoring UI

Commencez à utiliser Unity Catalog, la base de Data Intelligence

Unity Catalog continue d’évoluer en tant que seule couche de gouvernance unifiée du secteur, la base de plateformes de données sécurisées, intelligentes et axées sur les entreprises. Que vous créiez des agents d’IA, que vous fournissiez des tableaux de bord BI ou que vous partagiez des données entre les organisations, Unity Catalog connecte tout via un catalogue unique et ouvert.

Pour commencer, suivez les guides Unity Catalog pour AWS, Azure et GCP

Regardez le discours d’ouverture du Data + AI Summit 2025 de Matei Zaharia, cofondateur et directeur de la technologie chez Databricks, pour en savoir plus sur ces récentes annonces. 

Inscrivez-vous à Data + AI Summit et explorez le parcours de gouvernance des données et de l’IA

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Ne manquez jamais un article Databricks

Abonnez-vous à notre blog et recevez les derniers articles dans votre boîte mail.