Revenir au contenu principal

Annonce de la disponibilité générale et de l'ouverture du code source des sémantiques métier d'Unity Catalog

Sémantiques métier ouvertes et unifiées pour la BI et l'IA

Unity Catalog Business Semantics

Summary

  • Les sémantiques métier de Unity Catalog sont maintenant disponibles en GA. Définissez des métriques, des dimensions et des règles gouvernées une seule fois au niveau de la couche de données pour que chaque tableau de bord, requête SQL, notebook et agent IA utilise les mêmes définitions de confiance.
  • L'implémentation principale est en cours d'open source dans Apache Spark, étendant les sémantiques métier au-delà d'une seule plateforme et renforçant un engagement envers l'ouverture et l'interopérabilité.
  • Les vues de métriques fournissent des KPI métier cohérents avec la lignée, les autorisations et les contrôles de performance, ainsi que des métadonnées sémantiques telles que les noms d'affichage, les formats et les synonymes.

Alors que les données et l'IA deviennent centrales pour chaque entreprise, une compréhension cohérente des concepts métier est essentielle. Les analystes, les ingénieurs, les cadres et maintenant les agents IA interprètent souvent les mêmes données différemment, ce qui entraîne une dérive des métriques, des rapports contradictoires et une perte de confiance.

Pendant des années, ces concepts métier ont vécu dans des outils de BI et des tableaux de bord. À l'ère de l'IA agentique, où les agents raisonnent sur les données et agissent de manière autonome, les définitions fragmentées ne font pas que créer de la confusion, elles la multiplient. Les entreprises ont besoin d'une fondation sémantique unifiée, définie au cœur de la plateforme de données et d'IA, gouvernée une fois et appliquée partout. Et elle doit être ouverte. La sémantique métier définit comment les organisations mesurent les revenus, la croissance, la valeur client et le risque. Ces définitions sont des actifs stratégiques qui ne peuvent pas être enfermés dans des systèmes propriétaires ou confinés à une seule couche d'application.

Aujourd'hui, nous changeons cela avec la disponibilité générale de Unity Catalog Business Semantics, une fondation sémantique unifiée et ouverte qui offre un contexte cohérent et fiable à travers les tableaux de bord de BI, les flux de travail des développeurs et les agents IA. Pour rendre cette fondation véritablement portable, nous rendons également open source son implémentation principale dans Apache Spark, avec un support dans Unity Catalog OSS v0.5 bientôt disponible.

Pourquoi les approches traditionnelles de la sémantique métier échouent

Les clients ont longtemps utilisé des couches sémantiques spécifiques aux outils de BI qui offrent une cohérence au sein de cet outil, mais cette approche a des limites :

  • Propriétaire et fragmenté : Dans un monde multi-outils et multi-agents, chaque modèle de BI parle son propre langage. Par conséquent, les définitions sont enfermées dans des tableaux de bord, des modèles et des feuilles de calcul, ce qui rend pratiquement impossible la gouvernance, l'application des politiques d'accès ou le traçage de la lignée à travers l'organisation.
  • Définitions trop en aval : Comme ces couches se situent au niveau de la présentation plutôt qu'à la base de données, les équipes redéfinissent à plusieurs reprises les mêmes métriques pour différents tableaux de bord et rapports. Cette approche en aval rend la sémantique fragile, incohérente et difficile à adapter.
  • Inflexible pour l'IA : Les couches traditionnelles reposent sur une modélisation lourde et préalable qui ne peut pas suivre le rythme des questions métier qui évoluent rapidement ou des requêtes ouvertes des agents IA. Chaque changement nécessite une intervention d'expert, ce qui ralentit la réponse et érode la confiance.

Ces limitations ont longtemps frustré les équipes de données et d'IA. Dans le paysage actuel axé sur l'IA, où l'agilité et les réponses fiables sont non négociables, elles sont devenues un obstacle critique au progrès.

Unity Catalog Business Semantics : une approche unifiée et ouverte de la sémantique métier

Unity Catalog Business Semantics représente un changement fondamental car la sémantique est désormais unifiée et gouvernée au cœur de la plateforme Databricks Data Intelligence Platform. Intégrées directement dans Unity Catalog, elles étendent la gouvernance, la sécurité et la lignée sur lesquelles vous comptez déjà et rendent ces définitions disponibles partout où vous travaillez.

Cette approche offre trois avantages clés :

  1. Ouvert et réutilisable : Accessible via SQL et les API, la sémantique métier peut être interrogée à travers les tableaux de bord, les notebooks, les applications et les agents IA. Stockées dans un format ouvert, elles sont entièrement portables et ne sont pas confinées à des outils propriétaires.
  2. Gouverné au cœur : Hérite des mêmes politiques de gouvernance que les données sous-jacentes. Cette approche en amont garantit une utilisation, une gouvernance, une lignée et un contrôle d'accès cohérents pour fournir une source unique de vérité pour les données et la signification métier.
  3. Conçu pour l'IA : Les métadonnées sémantiques riches fournissent le contexte dont les agents ont besoin pour répondre avec précision aux nouvelles questions et s'adapter à l'évolution des concepts métier, sans modélisation préalable lourde.
Unity Catalog Business Semantics
Metric Views nous a aidés à standardiser nos métriques et a considérablement réduit la charge de travail de l'entreprise pour la réconciliation des chiffres. Les requêtes sont nettement plus rapides, dans certains cas jusqu'à 10 fois plus rapides, les tableaux de bord sont plus faciles à construire, et nous avons constaté des améliorations significatives dans la précision de Genie grâce à des données plus cohérentes et pré-agrégées. — Pedro Alves, Data Manager, Tech Growth, iFood
Unity Catalog Business Semantics présente une opportunité passionnante d'établir la cohérence, la confiance et le contrôle dans la manière dont les métriques métier sont définies et consommées chez Zalando. C'est une contribution prometteuse à des décisions alignées et basées sur les données à travers nos tableaux de bord BI, nos notebooks et d'autres outils. — Timur Yüre, Engineering Manager, Zalando

Fondation open source pour la sémantique métier

L'un des objectifs clés de Unity Catalog Business Semantics est de garantir que les clients puissent définir le sens métier d'une manière ouverte, portable et conçue pour fonctionner dans leur écosystème existant, sans verrouillage. Les définitions sémantiques doivent s'intégrer de manière transparente aux outils de BI, aux charges de travail SQL et aux agents IA, et rester durables à mesure que les plateformes et les modèles de consommation évoluent.

Pour y parvenir, nous rendons open source l'implémentation principale de Metric View dans Apache Spark OSS, en ciblant la prochaine version d'Apache Spark (vous pouvez suivre les progrès dans SPARK-54119), avec un support dans Unity Catalog OSS v0.5 bientôt disponible. Cela permet aux clients de définir la sémantique métier en utilisant SQL standard dans des systèmes ouverts, gouvernés à la base de données plutôt qu'intégrés dans des outils en aval, et réutilisés de manière cohérente sur les surfaces d'analyse et d'IA.

Databricks soutient également les efforts plus larges de l'industrie pour améliorer l'interopérabilité autour de la sémantique métier. L'entreprise a rejoint l'initiative Open Semantic Interchange (OSI) et y contribue activement. Nous considérons des initiatives comme OSI comme une étape importante vers l'alignement de l'écosystème et nous y contribuerons en conséquence, tout en continuant à nous concentrer sur la construction d'une fondation sémantique ouverte et gouvernée sur laquelle les clients peuvent compter à grande échelle.

Détails de la nouvelle version GA

Vues Métriques : KPIs fiables et cohérents

Au cœur de cette version GA se trouvent les Metric Views, qui établissent des définitions fiables et cohérentes des KPIs métier avec des métadonnées sémantiques telles que les noms d'affichage, les formats et les synonymes qui aident les humains et l'IA à interpréter et appliquer ces définitions en toute confiance. Les Metric Views vous permettent de définir les mappages de données, les mesures et les dimensions centralement en SQL et de les gouverner directement dans Unity Catalog. Les définitions deviennent alors portables sur toutes les surfaces : tableaux de bord IA/BI, Genie, Notebooks, applications SQL et outils tiers connectés à Databricks. Comme chaque métrique est définie de manière déclarative, le moteur compile et exécute le SQL sous-jacent de manière déterministe au moment de la requête, garantissant que chaque consommateur, qu'il soit humain ou agent IA, obtient le même résultat à partir de la même définition, quelle que soit la manière ou l'endroit où il y accède.

Nouveautés :

Matérialisation pour les performances des requêtes :  Unity Catalog Business Semantics associe des définitions gouvernées à des performances à grande échelle grâce aux matérialisations. Plutôt que de forcer les équipes à décider quelle table d'agrégation utiliser, à dupliquer la logique pour différents niveaux de performance, ou à construire des pipelines séparés pour différentes charges de travail, la couche sémantique gère les performances automatiquement. Voici comment :

  • Pré-agrégation automatique : Lorsque vous définissez des matérialisations pour une métrique, la plateforme conserve des résultats optimisés et pré-agrégés sans intervention manuelle
  • Actualisation incrémentielle : Les résultats matérialisés restent à jour grâce aux mises à jour incrémentielles, de sorte que les métriques ne deviennent jamais obsolètes et que les recalculs complets sont rarement nécessaires
  • Réécriture intelligente des requêtes : Au moment de l'exécution de la requête, le moteur réécrit les requêtes pour exploiter la meilleure matérialisation disponible
  • Routage transparent : Les utilisateurs interrogent les métriques de la même manière qu'ils le font toujours, tandis que le système achemine chaque requête vers le chemin le plus rapide en coulisses

La matérialisation est en aperçu et pour en savoir plus, veuillez consulter la documentation (AWSAzureGCP).

Création avec la nouvelle interface utilisateur et les expériences d'IA agentives : Désormais, en aperçu public, vous pouvez créer et gérer des vues de métriques via une nouvelle interface utilisateur en point-clic dans Unity Catalog Explorer, rendant la modélisation sémantique accessible aux utilisateurs techniques et non techniques sans nécessiter de SQL complexe ni d'expertise approfondie en modélisation de données. L'interface utilisateur vous permet de définir visuellement les relations entre les tables, de représenter graphiquement les métriques en ligne et de tout tester de bout en bout avant la publication, le tout sans quitter le navigateur. Pour en savoir plus sur la création basée sur l'interface utilisateur, veuillez consulter la documentation (AWSAzureGCP).

Genie Code accélère davantage le processus de création en apportant l'IA agentive directement dans le flux de travail de création. Plutôt que de partir d'une page blanche, Genie Code peut :

  • Accélérer le démarrage des modèles sémantiques : Suggérer des mesures, des dimensions, des synonymes et de la documentation afin que les équipes démarrent en quelques minutes au lieu de quelques semaines
  • Affiner et refactoriser : Identifier les problèmes dans les définitions existantes et recommander des améliorations à mesure que la logique métier évolue
  • Valider les modifications : Tester les modifications proposées par rapport aux données réelles afin de pouvoir détecter les erreurs avant qu'elles ne se propagent
  • Permettre une gestion granulaire des modifications : Examiner et approuver les modifications individuelles des métriques avec une visibilité complète sur ce qui a changé et pourquoi
Agentic Authoring of Metric Views

Les vues de métriques vont au-delà de la définition des KPI. Chaque vue de métrique contient des métadonnées sémantiques riches, des noms d'affichage, des formats et des synonymes, ce qui la rend compréhensible et utilisable par les humains et l'IA, garantissant une présentation cohérente sur les tableaux de bord et les interfaces utilisateur conversationnelles tout en aidant l'IA à interpréter correctement la terminologie métier et les requêtes en langage naturel.

Comment la sémantique métier alimente l'IA/BI de Databricks

Avec cette version GA, les tableaux de bord IA/BI et Genie sont désormais entièrement intégrés aux sémantiques métier d'Unity Catalog. En pratique, cela débloque trois avantages clés :

En pratique, cela débloque trois avantages clés :

  1. Tableaux de bord IA/BI alimentés par des métriques gouvernées : Vous pouvez désormais créer des tableaux de bord directement sur des vues de métriques dans Unity Catalog. Chaque visuel, filtre, ventilation et comparaison utilise le même ensemble certifié de mesures et de dimensions, garantissant des chiffres cohérents entre les équipes et les outils.
  2. Genie ancré dans votre langage métier : Les espaces Genie peuvent être créés directement au-dessus des vues de métriques, ce qui signifie que chaque requête en langage naturel à laquelle Genie répond est ancrée dans des définitions gouvernées et déterministes, et non dans une logique inférée. Étant donné que les vues de métriques sont compilées en requêtes logiques au moment de l'exécution, les utilisateurs obtiennent toujours des résultats corrects et cohérents. Genie ne génère plus de métriques fantaisistes ; il les résout à partir d'une source unique de vérité.
  3. Promouvoir la logique du tableau de bord vers votre couche sémantique : Lors de la création d'un nouveau tableau de bord IA/BI sans vue de métrique existante, toutes les jointures de tables, filtres ou champs calculés que vous créez peuvent désormais être promus vers une nouvelle vue de métrique dans Unity Catalog en une seule action. Elle devient instantanément partie de la couche sémantique de votre organisation, disponible dans Genie, SQL, les notebooks et les outils BI externes. De plus, votre tableau de bord bénéficiera automatiquement de la matérialisation des vues de métriques, améliorant considérablement les performances de ses requêtes sous-jacentes.

Étendez vos sémantiques à vos outils préférés

Une base sémantique solide devient encore plus précieuse lorsqu'elle dépasse une seule plateforme. C'est pourquoi nous travaillons en étroite collaboration avec un riche écosystème de partenaires technologiques qui s'intègrent directement aux sémantiques métier d'Unity Catalog.

Unity Catalog Business Semantics Partner Ecosystem
  • Tableau : Tableau prévoit d'ajouter la prise en charge des sémantiques déléguées des fournisseurs de métriques externes, y compris les sémantiques métier d'Unity Catalog de Databricks, au sein de son modèle de données relationnelles. Cela garantira aux analystes que les métriques sont définies de manière cohérente et agrégées avec précision par la couche sémantique sous-jacente. L'intégration est prévue pour fin 2026.

    Tableau est ravi d'intégrer les sémantiques métier d'Unity Catalog dans notre modèle de données relationnelles, donnant aux analystes et aux organisations la possibilité de définir une seule fois les métriques et les métadonnées et de faire appliquer automatiquement par Tableau les bonnes sémantiques pour des informations cohérentes et fiables. — Nicolas Brisoux, Directeur principal de la gestion des produits, Tableau
  • Sigma Computing : Sigma s'intègre directement aux sémantiques métier d'Unity Catalog de Databricks en interrogeant les vues de métriques en temps réel, garantissant que les définitions les plus récentes sont instantanément reflétées sans déplacement de données. Cette architecture permet à Sigma de fonctionner comme une extension transparente de votre Lakehouse, en héritant strictement des protocoles de sécurité et de gouvernance d'Unity Catalog au point d'exécution.

    Chez Sigma, nous travaillons dur pour nous intégrer aux sémantiques métier d'Unity Catalog car cela permet à nos clients d'associer l'expérience de type feuille de calcul de Sigma à des définitions métier gouvernées, garantissant des analyses rapides, cohérentes et fiables pour tous. — Jordan Stein, Chef de produit, Sigma
  • ThoughtSpot: Plus tard cette année, ThoughtSpot ajoutera la prise en charge native des vues de métriques Unity Catalog, permettant aux utilisateurs de Spotter d'interroger instantanément les métriques gouvernées Databricks en langage naturel. Cela élimine le SQL personnalisé et offre aux organisations un accès flexible, précis et rapide à des métriques métier fiables sur l'ensemble de leur pile de données.

    ThoughtSpot est ravi d'approfondir notre partenariat avec Databricks grâce aux sémantiques métier d'Unity Catalog, offrant à nos clients beaucoup plus de flexibilité dans la manière et l'endroit où ils gèrent leurs sémantiques métier. — Francois Lopitaux, SVP Produit, ThoughtSpot
  • Hex: Les vues de métriques Unity Catalog sont maintenant intégrées à Hex. Les utilisateurs peuvent parcourir les vues de métriques directement depuis leurs connexions Databricks, les interroger avec SQL dans les notebooks Hex et créer des applications de données basées sur des définitions gouvernées. Cela facilite le passage de l'exploration aux applications de production sans redéfinir les métriques.
Avec les vues de métriques Unity Catalog de Databricks dans Hex, les équipes travaillent à partir de métriques fiables et gouvernées, ce qui réduit les incohérences et permet d'avancer plus rapidement avec des insights fiables. — Armin Efendic, Partner Engineer, Hex
  • Omni: Avec Omni, les équipes peuvent analyser les vues de métriques via des expériences familières telles que les feuilles de calcul, SQL ou le chat piloté par l'IA.  Omni permet également aux utilisateurs métier de définir de nouvelles métriques et dimensions lors de l'exploration des données, puis de renvoyer ces mises à jour vers Unity Catalog via API. Cela crée une source unique de vérité dans Unity Catalog tout en permettant aux experts métier de contribuer directement au modèle sémantique de l'organisation. Cela permet aux équipes de données et aux experts métier de contribuer directement au modèle sémantique.

    Ancrer l'IA dans le contexte métier est le seul moyen de la rendre fiable. Notre intégration avec les vues de métriques Unity Catalog apporte des définitions gouvernées dans chaque interface : IA, feuilles de calcul, tableaux de bord et SQL. Avec la synchronisation bidirectionnelle entre Omni et Databricks, les équipes peuvent définir et mettre à jour les métriques dans l'un ou l'autre système tout en maintenant tout aligné. Cette cohérence aide les clients à passer à l'échelle en libre-service, à accélérer l'adoption de l'IA et à alimenter des produits de données fiables destinés aux clients. — Jamie Davidson, Co-fondateur, Omni
  • Atlan: L'intégration native d'Atlan avec les vues de métriques UC apporte vos métriques les plus critiques directement dans le graphe de contexte Atlan, les liant à la lignée, aux propriétaires et aux définitions métier sans ajouter de surcharge de permissions. Cela donne aux équipes une vue unique et fiable des métriques dans le flux de travail, permettant un dépannage plus rapide, une meilleure prise de décision et des données prêtes pour l'IA à grande échelle.

    Les métriques sont le pouls de la plateforme Data & AI de chaque entreprise. En intégrant les métriques UC dans le graphe de contexte d'Atlan - avec la lignée, le contexte métier et zéro permission supplémentaire - nos clients obtiennent une intelligence opérationnelle qui était auparavant hors de portée. C'est une étape significative vers des données prêtes pour l'IA à grande échelle. — Chandru, Product Leader, Atlan
  • Monte Carlo: Monte Carlo prend désormais en charge les vues de métriques dans Unity Catalog, vous offrant une observabilité de bout en bout sur vos métriques métier standardisées et les pipelines qui les alimentent.

    Des données et une IA fiables commencent par des métriques métier gouvernées. Les métriques Unity Catalog facilitent la standardisation des KPI à grande échelle, et avec Monte Carlo, les responsables des données peuvent faire confiance à ces insights pour générer un réel impact commercial. — Lior Gavish, Co-fondateur et CTO, Monte Carlo
  • Collibra: Collibra apporte une visibilité fiable sur vos métriques Databricks afin que les humains et les agents IA puissent facilement les découvrir et les utiliser pour les décisions métier. L'intégration améliorée améliore la visualisation des métriques, permet aux métriques approuvées par Collibra de circuler directement dans Databricks et ajoute une synchronisation bidirectionnelle pour garantir des métriques cohérentes et fiables dans l'ensemble de votre patrimoine de données.

    Des métriques gouvernées et cohérentes sont nécessaires pour que les agents IA et les utilisateurs de données comprennent, fassent confiance et automatisent les flux de travail. Nos clients communs continuent de souhaiter une collaboration étroite entre Databricks et Collibra. — Tom Dejonghe, VP, Product Management, Data Governance, Collibra
  • Domo: S'intègre désormais aux vues de métriques Unity Catalog, permettant aux métriques Databricks gouvernées de circuler directement dans les tableaux de bord, l'analytique et les flux de travail pilotés par l'IA de Domo. Cela réduit la duplication, renforce la gouvernance et accélère le temps de compréhension sur les KPI de confiance.

    L'intégration des métriques gouvernées de Databricks avec Domo aide les clients à réduire la duplication, à améliorer la gouvernance et à accélérer la compréhension des KPI de confiance. — Matthew Payne, VP Engineering, Domo
  • Anomalo: Anomalo rejoint en tant que partenaire de lancement pour les métriques gouvernées Unity Catalog, associant la couche sémantique unifiée de Databricks à la surveillance automatisée des métriques d'Anomalo. Cette intégration aide les entreprises à détecter tôt les dérives et les problèmes de qualité des données, garantissant des métriques précises et fiables pour les décisions critiques.

    En combinant la couche sémantique unifiée de Databricks avec la surveillance des métriques d'Anomalo, nous aidons les clients à détecter les dérives tôt et à maintenir leurs métriques précises et fiables à grande échelle. — Amy Reams, Vice-présidente du développement commercial et du marketing, Anomalo

Ensemble, ces intégrations et celles à venir garantissent que les sémantiques cohérentes et gouvernées circulent dans l'écosystème analytique et IA plus large, allant bien au-delà de Databricks.

Démarrer avec les sémantiques métier Unity Catalog

Nous sommes incroyablement enthousiastes à propos de ce lancement. Les sémantiques étant désormais un élément central de votre plateforme de données, le contexte de l'entreprise circule partout, des tableaux de bord et agents IA aux notebooks et outils BI externes, éliminant les silos de métriques, le verrouillage propriétaire et les incohérences entre les outils. Construit sur une base ouverte, votre couche sémantique fonctionne partout où vos données le font.
Explorez la  documentation  (AWSAzureGCP) pour un guide détaillé sur la façon de commencer à définir les sémantiques métier, contrôler les permissions et les différentes méthodes de consommation. 
Explorez les démos produit pour voir les sémantiques métier en action avec les tableaux de bord IA/BI et les espaces Genie.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Ne manquez jamais un article Databricks

Abonnez-vous à notre blog et recevez les derniers articles dans votre boîte mail.