Qu'est-ce qu'un catalogue de données ?

Inventaire consultable des actifs de données avec métadonnées, schémas, propriété, traçabilité et indicateurs de qualité, facilitant la découverte et la gouvernance par la documentation.

par Équipe Databricks

Les métadonnées collectées comprennent les métadonnées techniques (schémas, types de données), les métadonnées métier (descriptions, propriétaires), les métadonnées opérationnelles (planifications d'actualisation, dépendances) et les métadonnées qualité (statistiques de profilage, règles de validation).
Les fonctionnalités offrent une fonction de recherche avec filtres et facettes, la collecte automatisée des métadonnées à partir des systèmes sources, l'annotation manuelle pour le contexte métier, le balisage collaboratif et les glossaires, ainsi que des flux de travail pour les demandes d'accès.
Les avantages comprennent une meilleure découverte des données, réduisant le temps de recherche des jeux de données pertinents, une meilleure compréhension des données grâce à la documentation et à la traçabilité, une collaboration renforcée entre les équipes et une gouvernance plus solide grâce à la visibilité sur l'utilisation et la propriété des données.

Qu'est-ce qu'un data catalog ?

Un data catalog, ou catalogue de données, est un système centralisé d'inventaire et de gestion qui sert de « carte au trésor » pour tous les assets de données de votre organisation. Il fournit aux professionnels des données et aux utilisateurs métier un référentiel de métadonnées complet et accessible pour découvrir, comprendre et utiliser efficacement les données de l'ensemble de leur écosystème. Vous pouvez le voir comme un fichier de bibliothèque sophistiqué pour les données : il organise les informations sur les datasets, leur structure, leur lineage, leur qualité et leurs usages types afin de rendre les données plus accessibles et plus fiables.

L'importance d'un data catalog

Dans le paysage data-driven qui est le nôtre, les organisations sont inondées d'informations dispersées dans une pluralité de systèmes, de plateformes et de formats. Les entreprises modernes sont confrontées à un défi sans précédent : toutes ou presque sont complètement submergées par les données, et les nouvelles technologies – grands modèles de langage et agents d'IA en tête – ne font qu'ajouter à la complexité.

Le data catalog répond à plusieurs problèmes critiques des environnements de données modernes. Parmi eux, les silos de données occupent une place de choix. Des informations précieuses se retrouvent piégées dans les systèmes internes des services et inaccessibles aux autres équipes qui pourraient en bénéficier. Les difficultés de découvrabilité contraignent les analystes à passer des heures à chercher les bons datasets, et à recréer des choses qui existent déjà ailleurs dans l'organisation.

Le catalogue s'attaque également au problème de la prolifération des données, qui entraîne souvent la coexistence de versions dupliquées et incohérentes des mêmes informations à travers les systèmes. Sans une gouvernance et une organisation appropriées, les équipes perdent confiance en leurs données et peuvent être tentées de prendre des décisions basées sur des « intuitions » plutôt que sur des informations fiables. Un data catalog bien implémenté transforme ce paysage chaotique en socle gouverné et fiable pour la prise de décision data-driven.

Principales fonctionnalités d'un data catalog

Un data catalog remplit plusieurs fonctions essentielles :

Gestion des métadonnées : c'est l'épine dorsale de tout data catalog efficace. Elle vise à organiser et à gérer les « données sur les données », ces informations qui fournissent un contexte crucial sur les datasets, leur structure, leur signification et leurs relations. Les métadonnées combinent des détails techniques (noms de colonnes, types de données, etc.) et du contexte métier, sous forme de définitions de données, d'informations de propriété et de directives d'utilisation. Une gestion efficace des métadonnées doit permettre de taguer, de décrire et d'annoter les datasets pour aider les utilisateurs à comprendre l'intérêt des données et ce que l'organisation a à dire à leur sujet.
Recherche et découverte : cette fonction permet aux utilisateurs de localiser rapidement les assets utiles dans l'ensemble de l'écosystème de l'organisation. Les data catalogs modernes offrent des fonctionnalités de recherche sophistiquées qui vont au-delà de la simple reconnaissance de mots-clés et proposent des outils de recherche sémantique, de filtrage multifacettes et de recommandations intelligentes. Les utilisateurs ont ainsi la possibilité de parcourir et mettre au jour des données précieuses et des artefacts liés à l'IA généralement dispersés sur une multiplicité de systèmes, de bases de données et de plateformes.
Traçabilité : le data lineage permet de suivre les données tout au long de leur parcours de transformation, de nettoyage et d'agrégation. Cette fonctionnalité crée un itinéraire numérique qui détaille l'origine des données, la manière dont elles ont été modifiées et leur parcours au sein de l'organisation. La traçabilité est essentielle pour l'analyse d'impact, qui vise à déterminer quels systèmes et rapports en aval peuvent être affectés par des modifications apportées aux sources de données en amont. Il ne suffit pas de savoir où se trouvent vos données, vous devez aussi comprendre d'où elles proviennent et comment elles ont été transformées.
Intégration de la gouvernance des données : le catalogue doit tenir compte des politiques et procédures de l'organisation en matière de gestion de données. Cette fonction s'appuie sur des workflows d'intendance des données, ou data stewardship, des processus d'approbation pour l'accès aux données et l'intégration des cadres de conformité. Le catalogue devient une plateforme centrale pour l'application des politiques de données, la gestion des règles de qualité et le respect des exigences réglementaires.
Classification et balisage des données : les organisations doivent pouvoir catégoriser et étiqueter leurs assets de données selon divers critères : degré de sensibilité, domaine d'activité, qualité des données, exigences réglementaires, etc. Cette approche systématique de l'organisation facilite l'application cohérente des politiques, la découverte de datasets connexes et le maintien de contrôles de sécurité appropriés sur l'ensemble du paysage de données.
Outils de collaboration et glossaires métier : ils facilitent la communication et le partage de connaissances parmi les utilisateurs des données. Les glossaires métier donnent des définitions normalisées aux termes et concepts métier clés, pour que tout le monde puisse parler des données dans une langue commune. Grâce aux outils de collaboration, les utilisateurs partagent des insights, posent des questions et font des commentaires sur les assets, cultivant ainsi une approche communautaire du data stewardship.

Types de data catalogs

Les data catalogs se répartissent généralement en deux grandes catégories, chacune répondant à des besoins et à des cas d'utilisation différents au sein de l'organisation.

Les catalogues opérationnels se chargent principalement de la gouvernance de l'accès aux assets et de la gestion des aspects techniques de l'infrastructure de données. Ils excellent dans l'enregistrement et l'audit des tendances d'utilisation, la gestion de contrôles d'accès granulaires et la mise en œuvre des politiques de sécurité. Étroitement intégrés aux plateformes de données, ils offrent des fonctionnalités robustes de masquage des colonnes de filtrage à l'échelle des lignes. Les catalogues opérationnels sont conçus pour gérer les besoins quotidiens de gouvernance des plateformes de données, et garantir un accès sécurisé et conforme aux ressources.

Les catalogues métier ou de référence mettent l'accent sur l'expérience utilisateur et le contexte métier des assets. Ces solutions proposent souvent des fonctionnalités sophistiquées pour la gestion des glossaires métier, des workflows d'approbation, d'organisation de contenu et de data stewardship collaboratif. Elles ont pour grand intérêt d'apporter un contexte métier riche, de faciliter la découverte des données du point de vue de l'utilisateur métier et de fluidifier la collaboration interfonctionnelle autour des assets de données.

Certaines solutions modernes, Unity Catalog notamment, tentent de faire le pont entre les deux catégories en combinant les capacités de gouvernance technique des catalogues opérationnels avec les fonctionnalités métier conviviales des catalogues de référence, offrant ainsi aux organisations une approche unifiée du catalogage des données.

Les avantages d'un data catalog

La mise en place d'un data catalog complet offre d'importants avantages commerciaux et techniques qui transforment la façon dont les organisations travaillent avec les données à plusieurs titres :

Il offre un accès plus rapide aux données et aux insights en facilitant la découverte et en réduisant le temps passé à rechercher les datasets utiles. Au lieu de passer des heures à chercher des données, les data analysts les localisent et les comprennent rapidement, et peuvent commencer à travailler sans attendre. Cette accélération a un impact positif direct sur le délai d'obtention des insights et l'agilité du processus de prise de décision.
Il améliore la qualité des données et renforce la confiance en offrant une visibilité plus détaillée sur le data lineage, les métriques de qualité et les tendances d'utilisation. Lorsque les utilisateurs peuvent voir d'où viennent les données, quelles transformations elles ont subies et qui d'autre les utilise, ils acquièrent une plus grande confiance dans les informations. Le catalogue facilite également une approche collaborative du data stewardship, qui fait participer différents acteurs au maintien et à l'amélioration de la qualité des données au fil du temps.
Il rationalise la conformité grâce à des pistes d'audit complètes, à la classification des données et aux fonctions d'application des politiques. Les organisations peuvent apporter la preuve de leurs pratiques de gouvernance aux organismes de régulation, suivre la conformité de l'utilisation des données aux règles de confidentialité et mettre en œuvre des politiques de sécurité cohérentes sur l'ensemble de leur paysage de données.
L'analytique en libre-service allège la charge des équipes IT et de data engineering, tout en permettant aux utilisateurs métier de découvrir et de travailler avec les données de manière indépendante. Cette démocratisation de l'accès aux données appuie une adoption plus large des pratiques data-driven dans toute l'organisation.
La part d'efforts redondants est réduite, car les équipes retrouvent facilement les datasets, les rapports et les analyses existants, au lieu de recréer un travail qui a déjà été fait dans d'autres services. Ce gain d'efficacité libère des ressources précieuses qui peuvent être consacrées à de nouvelles initiatives et à l'innovation.

Comment fonctionne un data catalog

Un data catalog connecte plusieurs processus pour créer une vue complète des assets de données d'une organisation.

Le processus commence par importer les métadonnées de diverses sources dans l'écosystème de données (bases de données, data warehouses, systèmes de stockage cloud, outils de business intelligence et applications). Le catalogue découvre et extrait automatiquement les métadonnées telles que les informations de schéma, tout en capturant les métadonnées métier grâce aux contributions des utilisateurs et aux intégrations avec d'autres systèmes.

Vient ensuite l'étape essentielle de l'indexation et de l'enrichissement des données, au cours de laquelle le catalogue traite et organise les métadonnées collectées pour les rendre consultables et pertinentes. Il va notamment établir des relations entre les différents assets de données, appliquer des algorithmes de classification automatisés et enrichir les métadonnées en ajoutant du contexte tel que des scores de qualité des données, des statistiques d'utilisation et des indicateurs de pertinence métier.

La fonctionnalité de recherche s'appuie sur les métadonnées indexées pour fournir les capacités de découverte. Les utilisateurs peuvent ainsi effectuer des recherches selon divers critères, dont les termes métier, les spécifications techniques, les informations sur le propriétaire des données ou les types d'utilisation. Les catalogues les plus sophistiqués emploient des algorithmes de machine learning pour améliorer la pertinence de la recherche et fournir des recommandations intelligentes basées sur le comportement de l'utilisateur et les relations entre les données.

Les rôles et autorisations des utilisateurs garantissent que le catalogue respecte les politiques de sécurité de l'organisation et les exigences de gouvernance des données. Les utilisateurs peuvent en effet avoir différents niveaux d'accès aux métadonnées et aux assets sous-jacents ; le catalogue va appliquer ces restrictions tout en offrant à chaque utilisateur des capacités de découverte précieuses dans son périmètre autorisé.

Data catalog et concepts connexes

Faisons le point sur ce qui distingue les catalogues de données des concepts connexes pour clarifier la spécificité de leur intérêt et de leurs cas d'utilisation.

Data catalog et dictionnaire de données
Un dictionnaire de données est un dépôt plus limité et statique qui a principalement pour objet de définir la structure et la signification des éléments de données au sein de systèmes ou de bases de données spécifiques. Il contient généralement des spécifications techniques : noms de champs, types de données, contraintes et définitions de base. En revanche, un data catalog offre une vue beaucoup plus large et dynamique qui englobe plusieurs systèmes, inclut le contexte métier, assure la traçabilité des données et prend en charge des fonctionnalités collaboratives. Si un dictionnaire de données vous indique quels champs contient une table spécifique, un data catalog vous aide à comprendre les liens que cette table entretient avec d'autres assets de données, qui l'utilise, d'où elle vient et dans quelle mesure elle est fiable.

Data catalog et dépôt de métadonnées
Un dépôt de métadonnées est un système de stockage technique pour les métadonnées. Il se concentre principalement sur les aspects de collecte et de stockage des données sur les données. Il s'agit souvent d'un système de back-end auquel d'autres outils accèdent par programmation. Un data catalog, en revanche, s'appuie sur les capacités d'un dépôt de métadonnées pour fournir des interfaces conviviales, des fonctionnalités de recherche et de découverte, des outils de collaboration et des workflows de gouvernance. Le catalogue transforme les métadonnées brutes en insights et en outils conviviaux, à la portée des utilisateurs techniques et métier. Si le dépôt de métadonnées constitue le socle, le data catalog est l'application utilisateur qui met les métadonnées au service de la prise de décision.

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.

Voir tous les blogs