Revenir au contenu principal

Qu'est-ce que l'observabilité des données ?

L'observabilité des données est la pratique et l'ensemble des processus consistant à faire du monitoring continu de la santé, la qualité, la fiabilité et les performances sur l'ensemble des systèmes de données — des pipelines d'ingestion aux couches de stockage jusqu'à l'analytique en aval — afin que les organisations puissent détecter, diagnostiquer et prévenir les problèmes de données avant qu'ils n'aient un impact sur l'activité. Il vise à comprendre l'état des données tout au long de leur cycle de vie grâce à des activités telles que le monitoring automatisé, la détection d'anomalies, l'analyse des causes profondes et le suivi du data lineage. Ces activités aident les organisations à prévenir l'indisponibilité des données et à garantir des données exactes, fiables et de haute qualité.

Poursuivez votre exploration

Le Grand Livre du Data Engineering

Votre guide indispensable des bonnes pratiques en data engineering.

Lire la suite

Apprenez à créer des pipelines ETL en SQL

Maîtrisez les transformations de données sans l'aide du data engineering.

Lire la suite

Apprenez le data engineering

Enrichissez vos compétences et obtenez un certificat de réussite.

Démarrer maintenant

Pourquoi l'observabilité des données est importante

L'observabilité des données vous aide à construire des pipelines de données fiables. C'est important pour les organisations actuelles data-driven en raison de la complexité croissante de leurs pipelines de données, qui s'appuient sur des sources de données distribuées internes et externes. Les environnements de données actuels peuvent utiliser plusieurs outils d'ingestion au sein de plusieurs équipes et stocker des données dans des lacs de données, des entrepôts et des lakehouses. L'observabilité des données a un impact majeur sur la qualité des données, en aidant à détecter rapidement les problèmes tels que les données obsolètes, les enregistrements manquants, les changements de schéma, les augmentations de volume inattendues et les transformations incorrectes.

La détection précoce des problèmes de données et la visibilité de bout en bout du lignage peuvent améliorer l'analytique en aval, les opérations et la prise de décision, et éviter les problèmes de confiance dans les données avant qu'ils n'atteignent les utilisateurs ou les consommateurs. L'observabilité aide non seulement à garantir que les données restent fiables, mais peut également générer des revenus, améliorer l'expérience client et accélérer l'innovation.

Les cinq piliers de l'observabilité des données

L'industrie décrit souvent l'observabilité en s'appuyant sur cinq piliers :

  • Fraîcheur : les données sont-elles à jour ? Les pipelines s'exécutent-ils comme prévu ? L'observabilité peut détecter si les tables sont obsolètes, s'il y a des jobs qui ont échoué ou si l'ingestion est retardée.
  • Volume : les données se situent-elles dans les limites de taille de données attendues ? L'observabilité peut détecter des anomalies telles que des enregistrements manquants, des données en double et des pics ou des baisses de volume inattendus.
  • Distribution : Peut-on identifier les changements dans les propriétés statistiques ? Les valeurs semblent-elles normales ? L'observabilité peut détecter les valeurs aberrantes, les variations du taux de valeurs nulles, la drift et toutes les anomalies dans les métriques métier.
  • Schéma : Y a-t-il des changements structurels inattendus ? L'observabilité peut détecter les ajouts ou suppressions de colonnes, les changements de type et les changements qui affectent les tables ou les tableaux de bord en aval.
  • Lignage : Comment les données circulent-elles à travers et entre les systèmes ? L'observabilité peut aider à comprendre les dépendances en amont et en aval, à déterminer quels tableaux de bord ou modèles de machine learning seront défaillants et à identifier les causes profondes des défaillances de données.

Comment fonctionne l'observabilité des données

L'observabilité des données fonctionne en utilisant le monitoring des systèmes de données à l'aide de vérifications statistiques automatisées, d'analyses de métadonnées et de mappage du lignage pour détecter et diagnostiquer les problèmes de données en temps réel. Il collecte des signaux et des données de télémétrie utilisés pour surveiller les cinq dimensions clés de la santé des données (fraîcheur, volume, schéma, distribution, lignage). Elle collecte et analyse des signaux tels que les mises à jour des tables, les logs de query, l'état des job, les alertes, les métadonnées de schémas, le nombre de lignes et l'information du Graphe de dépendances.

Il effectue des contrôles automatisés de la qualité des données à l'aide de schémas historiques, de modèles statistiques, de machine learning et d'algorithmes de détection pour une visibilité de bout en bout sur les pipelines, les warehouses et les applications. En cas d'anomalie dans les données, les outils d'observabilité peuvent analyser les défaillances de pipeline, les changements de schéma, les baisses de volume, les déploiements de code et les pannes en amont, puis identifier automatiquement la cause la plus probable et envoyer des alertes.

Les tableaux de bord et le monitoring peuvent permettre d'établir et de faire respecter des accords de niveau de service pour les données et de maintenir la confiance dans les données au sein de l'organisation.

Observabilité des données vs. monitoring des données vs. Qualité des données

L'observabilité et le monitoring traditionnel sont liées, mais les outils de monitoring traditionnels se concentrent sur les défaillances connues, tandis que l'observabilité offre une visibilité sur le comportement du système pour aider à identifier et à diagnostiquer de nouveaux types de défaillances et permettre l'analyse des causes profondes. En d'autres termes, le monitoring détecte les symptômes et l'observabilité fournit un insight plus approfondi pour donner du contexte, et pas seulement des signaux bruts pour montrer l'origine des pannes.

Le monitoring traditionnel est réactif, suit les métriques connues et fournit des vérifications basées sur des règles. Par conséquent, il fonctionne mieux lorsque le système est prévisible. L'observabilité des données effectue des requêtes de profilage, de détection d'anomalies et d'alerte (PPA) sur trois dimensions principales :

  • Portée – Dans quelle mesure le système d'observabilité peut comprendre les problèmes de données dans l'ensemble de l'écosystème de données.
  • Profondeur – Le niveau de détail avec lequel le système analyse les données, les métadonnées et le comportement des pipelines.
  • Automatisation – Volume du travail que le système effectue automatiquement, avec rédaction manuelle de règles ou intervention.

L'observabilité des données est proactive et va au-delà des tests ou des règles de qualité des données, avec un profilage statistique et une détection basée sur le ML pour fournir automatiquement des insights et des alertes granulaires en temps réel avant que les utilisateurs finaux ne constatent des problèmes.

Les outils d'observabilité des données, de monitoring des données et de qualité des données servent des objectifs différents, mais fonctionnent ensemble de manière holistique pour garantir des données dignes de confiance, fiables et de haute qualité. Le monitoring est nécessaire pour détecter les problèmes connus. Les outils de qualité des données valident le contenu des données en utilisant des règles pour garantir que les données sont correctes, complètes, précises et valides. L'observabilité des données peut détecter les problèmes inconnus et diagnostiquer leurs causes profondes. Ainsi, le monitoring détecte les problèmes, l'observabilité offre une visibilité plus approfondie et la qualité des données garantit la conformité avec les règles métier.

Composants principaux d'un système d'observabilité des données

Un système d'observabilité des données combine le monitoring des métadonnées, l'analyse statistique, la détection d'anomalies, le lignage, les alertes, l'analyse des causes profondes et l'intégration des flux de travail pour garantir une visibilité continue sur la santé et la fiabilité des données dans l'ensemble de l'écosystème. Les composants principaux du système comprennent :

  • Collecte de métadonnées pour recueillir les signaux de tous les systèmes de données.
  • Profilage et lignes de base pour comprendre le comportement normal des données.
  • Détection d'anomalies pour identifier automatiquement les problèmes inattendus.
  • Schema change monitoring pour détecter la drift avant qu'elle ne casse les pipelines.
  • Suivi du lignage pour comprendre les dépendances et diagnostiquer les problèmes.
  • Alertes et notifications pour signaler les problèmes aux bonnes personnes.
  • Analyse de la cause racine pour déterminer pourquoi des problèmes sont survenus.
  • Analyse d'impact pour identifier les assets en aval affectés.
  • Gestion des incidents pour prendre en charge la réponse, les SLA et les workflows.
  • Qualité des données pour combiner les règles avec des vérifications statistiques.
  • Tableaux de bord et visualisation pour surveiller la santé globale des données.
  • Intégration de la gouvernance pour améliorer la propriété, la documentation et la conformité.
  • Remédiation automatisée pour réduire les temps d'arrêt grâce à l'auto-réparation.

Problèmes de données courants que l'observabilité des données aide à identifier

L'observabilité des données aide à identifier un large éventail de problèmes de données qui peuvent passer inaperçus dans le cadre d'un monitoring traditionnel. Elle peut détecter les problèmes attendus et inattendus dans les pipelines, les systèmes de stockage, les Transformations et les analytique en aval.

Elle peut révéler des problèmes de fraîcheur des données lorsque celles-ci n'arrivent pas au moment prévu en raison d'erreurs de pipeline, de Jobs interrompus et de workflows retardés.

L'observabilité détecte des problèmes de volume tels que des données manquantes ou incomplètes, une baisse soudaine du nombre de lignes, des partitions ou des fichiers manquants et des lignes en double.

Le drift de schéma et les changements de champs inattendus sont une cause majeure de rupture de pipeline, impactant les Jobs en aval.

Des valeurs aberrantes, des changements de distribution et des enregistrements inexacts qui créent des anomalies statistiques peuvent se produire lorsque le contenu des données s'écarte des modèles historiques.

L'observabilité peut détecter des sources en amont peu fiables ou incohérentes et des défaillances opérationnelles du pipeline qui dégradent la fiabilité de l'ensemble du pipeline de données.

Cas d'usage concrets de l'observabilité des données

Les entreprises utilisent l'observabilité des données pour prévenir les temps d'arrêt des données, améliorer la confiance dans l'analytique, protéger les pipelines critiques et réduire les coûts et les efforts de dépannage. Voici quelques exemples concrets :

  • Garantir la fiabilité de l'analytique et du reporting – Lorsque les équipes créent leurs propres tableaux de bord, de nouveaux tableaux de bord peuvent rompre les dépendances, les requêtes répétées peuvent ralentir les pipelines et les utilisateurs peuvent extraire des données obsolètes ou erronées. L'observabilité offre une visibilité en aval, suit l'état des datasets partagés et peut garantir la fiabilité des sources de données tierces. Il peut détecter immédiatement les problèmes de fraîcheur des données et les échecs des Jobs en amont, et envoyer des alertes avant que les utilisateurs ne s'en rendent compte.
  • Détection et prévention des incidents de qualité des données – Lorsque les tableaux de bord et les rapports affichent soudainement des anomalies, l'observabilité des données peut aider à identifier la drift, les pics de valeurs nulles, les problèmes d'intégrité et à identifier les défaillances en amont. Dans certains cas, les pipelines peuvent s'exécuter avec succès mais produire des résultats incorrects. L'observabilité peut surveiller le volume de lignes, suivre les jointures et les relations, et envoyer des alertes en cas d'anomalies de distribution.
  • Améliorer la confiance dans les modèles de ML et les systèmes d'IA – Les modèles de ML et d'IA sont extrêmement sensibles à la drift des données et aux fonctionnalités manquantes, ce qui entraîne de mauvaises décisions. L'observabilité peut suivre la santé des fonctionnalités, détecter le drift, identifier les défaillances en amont causées par des données manquantes ou retardées et des catégories inattendues.
  • Soutenir les efforts de gouvernance des données – La confiance dans les données est essentielle pour les secteurs réglementés tels que la santé et la finance. L'observabilité améliore la confiance en suivant les SLA des données, en fournissant le lignage, en affichant l'historique de l'état des données, en documentant la propriété et en faisant remonter les anomalies avant que les utilisateurs finaux ne puissent les voir.
  • Réduction des temps d'arrêt et des coûts opérationnels : l'observabilité des données peut jouer un rôle clé dans la détection précoce des problèmes, la réduction du temps de résolution et la prévention de la propagation de données de mauvaise qualité, ce qui peut contribuer à des temps d'arrêt dans toute l'organisation et à une augmentation des coûts.

Outils et plateformes d'observabilité des données

Les outils et plates-formes d'observabilité des données peuvent être regroupés en plusieurs catégories en fonction de leur orientation, de leurs capacités et de leur place dans la pile de données. De plus, il existe des options commerciales, open-source et cloud-natives qui diffèrent en termes de capacités, de coût, de déploiement, de scalabilité, de facilité d'utilisation et de cas d'utilisation idéaux.

  • Les plateformes d'observabilité des données de bout en bout offrent une observabilité complète du système. Les fonctionnalités communes des principales plateformes incluent le monitoring de la fraîcheur des données, le lignage automatisé, des métriques, des tableaux de bord, le monitoring des métadonnées, le lignage automatisé en amont et en aval, des alertes d'incident, des insights sur la fiabilité du pipeline et l'analyse des causes profondes sur l'ensemble du cycle de vie des données. Elles sont développées par des fournisseurs avec des fonctionnalités complètes, un support et une automatisation ; il s'agit des plateformes d'observabilité les plus complètes couvrant les cinq piliers de l'observabilité. En tant que Software as a Service (SaaS) entièrement géré, aucune infrastructure n'est requise, ce qui permet un déploiement et une intégration plus rapides.
  • Les outils de qualité et d'observabilité des données associent la qualité des données traditionnelle basée sur des règles à des capacités d'observabilité modernes, offrant des tests de données personnalisés, la détection automatisée des anomalies, le profilage et la validation, le monitoring basé sur les métadonnées et l'orchestration des tests. Ces plateformes sont utilisées lorsque les entreprises souhaitent un mélange de règles de qualité manuelles et d'observabilité automatisée.
  • Les outils d'observabilité de l'orchestration des pipelines se concentrent sur la surveillance de la couche de calcul, les performances du pipeline et la fiabilité des tâches. Les fonctionnalités clés incluent la détection des défaillances au niveau des tâches, le monitoring de la latence, l'analyse des tentatives, le suivi des dépendances et l'intégration avec les outils d'orchestration. Ces outils sont performants pour la santé du pipeline, mais peuvent manquer de deep data-level insights.
  • Les outils axés sur le lignage cartographient le flux de données de bout en bout, permettant l'analyse des causes profondes et des impacts. Ils peuvent exceller dans le lignage, en intégrant souvent des signaux d'observabilité dans le flux.
  • Les frameworks d'observabilité open-source offrent une flexibilité pour l'auto-hébergement et la personnalisation, et permettent l'extensibilité et l'intégration dans des piles de données personnalisées. Ces frameworks communautaires sont gratuits mais doivent être gérés en interne et nécessitent souvent une intégration, une configuration manuelle et la création de règles, ce qui requiert des ressources d'ingénierie et des frais opérationnels plus élevés.
  • Les outils de monitoring cloud natif avec des extensions d'observabilité des données sont parfois utilisés lorsque les équipes souhaitent une observabilité à la fois sur l'infrastructure et sur les données. Il n'y a pas de déploiement et ils ont l'empreinte opérationnelle la plus simple, car les fonctionnalités sont incluses dans la plate-forme de données, généralement axées sur l'observabilité spécifique au warehouse et au data lake. Généralement, le coût est basé sur l'utilisation et pris en charge par le fournisseur de cloud, et convient mieux aux équipes disposant de budgets plus restreints et à celles qui ont déjà acheté un warehouse.

Implémentation de l'observabilité des données

La mise en place des processus, des outils, de l'architecture et de la culture nécessaires à l'observabilité des données implique une stratégie, des bonnes pratiques et une sélection d'outils. Voici quelques étapes fondamentales pour les organisations qui adoptent des pratiques d'observabilité :

  • Mettez-vous d'accord sur vos objectifs pour la mise en œuvre de l'observabilité et sur ce qui doit être priorisé.
  • Identifiez les actifs de données critiques, en commençant par les tables et pipelines à fort impact/haut risque.
  • Choisissez votre modèle (open-source, commercial ou cloud-native).
  • Intégrer les sources de métadonnées (tous les signaux, y compris les pipelines, les warehouses et les lacs de données, l'orchestration, les frameworks de transformations, les outils de BI et les systèmes de streaming)
  • Mettez en œuvre un monitoring continu sur les cinq piliers de l'observabilité (fraîcheur, volume, schéma, distribution, lignage).
  • Déployer la détection d'anomalies automatisée à l'aide de modèles de ML et de modèles statistiques.
  • Créer une culture DataOps autour de l'observabilité pour des pratiques durables.
  • Les métriques clés et les indicateurs de santé généralement suivis incluent les métriques pour les cinq piliers, ainsi que les métriques d'intégrité des données, les métriques opérationnelles du pipeline, les métriques de qualité des données, les métriques de coût et d'utilisation des ressources et la santé des fonctionnalités et des modèles de ML.

Défis et considérations

Les principaux défis et considérations techniques, culturels et opérationnels que les équipes doivent comprendre avant et pendant l'adoption de l'observabilité des données comprennent :

  • La complexité et la prolifération des écosystèmes de données à grande échelle rendent plus difficile l'atteinte d'une observabilité complète. Différents stacks de données nécessitent souvent différentes approches d'intégration. Concentrez-vous d'abord sur les pipelines à fort impact. Investissez dans le lignage des données pour comprendre les dépendances et établir la propriété entre les domaines.
  • La gestion des dépendances et des impacts en amont/aval peut représenter un défi. Même de petits changements dans une partie du pipeline peuvent créer des défaillances en cascade dans les tableaux de bord, les modèles de ML et les systèmes opérationnels. Lorsque les organisations ne disposent pas d'une carte complète du data lineage et de la propriété des données, les dépendances relèvent souvent de la connaissance tribale.
  • Le coût du monitoring de grands volumes de données peut augmenter lors du monitoring de grands warehouses et lacs de données. Les métadonnées peuvent augmenter, ce qui accroît les coûts de stockage des métadonnées et des logs. Et chaque table supplémentaire ajoute un coût de monitoring supplémentaire. Classifier les actifs par criticité et appliquer un monitoring plus approfondi sur les actifs critiques pour l'entreprise.
  • Équilibrer la granularité avec la surcharge opérationnelle est essentiel pour réduire les coûts. Toutes les données n'ont pas besoin d'une observabilité approfondie. Le monitoring à haute fréquence d'assets de faible valeur peut entraîner des coûts de compute élevés. Une plateforme unique dotée de multiples fonctionnalités coûte souvent moins cher que 3 à 4 outils plus petits aux fonctionnalités redondantes.

Résumé

Les données sont devenues un actif essentiel et les systèmes de données sont de plus en plus complexes, distribués et en évolution rapide. Les organisations ne peuvent plus se permettre d'avoir des pipelines non fiables, des tableaux de bord défaillants, des métriques inexactes ou des modèles de ML à la dérive. L'observabilité des données – les pratiques et processus consistant à monitoring la santé, la qualité, la fiabilité et la performance des données à travers les systèmes de données, des pipelines d'ingestion aux couches de stockage jusqu'à l'analytique en aval – est essentielle pour que les organisations puissent détecter, diagnostiquer et prévenir les problèmes de données dans l'ensemble de l'écosystème de données avant qu'ils n'aient un impact sur l'activité.

L'observabilité des données peut aider à détecter les problèmes de manière précoce pour améliorer l'analytique en aval, les opérations et la prise de décision, et éviter les problèmes de confiance dans les données avant qu'ils n'atteignent les utilisateurs ou les consommateurs. L'observabilité n'aide pas seulement à garantir que les données restent fiables, mais elle peut également générer des revenus, améliorer l'expérience client et accélérer l'innovation.

    Retour au glossaire