• La qualité des données manuelle et basée sur des règles ne monte pas en charge à mesure que les patrimoines de données se développent pour l'analytique et l'IA.
• L'agentic data quality monitoring apprend les modèles de données attendus et détecte les problèmes dans les datasets critiques.
• Les signaux natifs de la plateforme, tels que le lignage de Unity Catalog, aident les équipes à résoudre les problèmes plus rapidement à l'échelle de l'entreprise.
À mesure que les organisations développent davantage de produits de données et d'IA, le maintien de la qualité des données devient plus difficile. Les données alimentent tout, des tableaux de bord pour les dirigeants aux bots Q&A à l'échelle de l'entreprise. Une table obsolète entraîne des réponses dépassées, voire incorrectes, ce qui affecte directement les résultats de l'entreprise.
La plupart des approches en matière de qualité des données ne montent pas en charge pour cette réalité. Les équipes data s'appuient sur des règles définies manuellement et appliquées à un petit ensemble de tables. À mesure que les parcs de données se développent, ils créent des angles morts et limitent la visibilité sur leur état de santé général.
Les équipes ajoutent continuellement de nouvelles tables, chacune avec ses propres modèles de données. La maintenance de vérifications personnalisées pour chaque dataset n'est pas viable. En pratique, seule une poignée de tables critiques sont surveillées, tandis que la plupart du patrimoine de données reste non vérifié.
Par conséquent, les organisations disposent de plus de données que jamais, mais ont moins confiance pour les utiliser.
Aujourd'hui, Databricks annonce la préversion publique du monitoring de la qualité des données sur AWS, Azure Databricks et GCP.
Le monitoring de la qualité des données remplace les vérifications manuelles et fragmentées par une approche agentique conçue pour la montée en charge. Au lieu de seuils statiques, les agents d'IA apprennent les modèles de données normaux, s'adaptent au changement et surveillent le patrimoine de données en continu.
L'intégration profonde avec la plateforme Databricks permet plus que de la détection.
Grâce au monitoring natif de la plateforme, les équipes détectent les problèmes plus tôt, se concentrent sur ce qui est le plus important et résolvent les problèmes plus rapidement à l'échelle de l'entreprise.
« Notre objectif a toujours été que nos données nous indiquent quand il y a un problème. La fonctionnalité Data Quality Monitoring de Databricks y parvient enfin grâce à son approche basée sur l'IA. Elle est parfaitement intégrée à l'UI, monitoring toutes nos tables avec une approche sans intervention et sans configuration, ce qui a toujours été un facteur limitant avec d'autres produits. Au lieu que ce soient les utilisateurs qui signalent les problèmes, nos données les signalent en premier, améliorant ainsi la qualité, la confiance et l'intégrité de notre plateforme. » — Jake Roussis, data engineer principal chez Alinta Energy
Le monitoring de la qualité des données fournit des insights exploitables grâce à deux méthodes complémentaires.
Activée au niveau du schéma, la détection d'anomalies surveille toutes les tables critiques sans configuration manuelle. Les agents d'IA apprennent les modèles historiques et les comportements saisonniers pour identifier les changements inattendus.
Activé au niveau de la table, le profilage des données capture des statistiques récapitulatives et suit leurs évolutions au fil du temps. Ces métriques fournissent un contexte historique et seront fournies à la détection d'anomalies afin que vous puissiez détecter facilement les problèmes.

« Chez OnePay, notre mission est d'aider les gens à réaliser des progrès financiers, en leur donnant les moyens d'épargner, de dépenser, d'emprunter et de faire fructifier leur argent. Des données de haute qualité sur l'ensemble de nos datasets sont essentielles pour mener à bien cette mission. Grâce au monitoring de la qualité des données, nous pouvons détecter les problèmes à un stade précoce et prendre rapidement des mesures. Nous sommes en mesure de garantir l'exactitude de nos analytique, de nos rapports et du développement de modèles de ML robustes, ce qui contribue à mieux servir nos clients. » — Nameet Pai, responsable de la plateforme et de l'ingénierie des données chez OnePay
Avec un monitoring automatisé de la qualité en place, les équipes de la plateforme de données peuvent suivre l'état de santé général de leurs données et garantir la résolution rapide de tout problème.
monitoring agentique en un clic : Surveillez des schémas entiers sans avoir à écrire de règles manuelles ni à configurer de seuils. Le suivi de la qualité des données apprend les modèles historiques et les comportements saisonniers (par ex., baisses de volume le week-end, période des impôts, etc.) pour détecter intelligemment les anomalies dans toutes vos tables.
Vue d'ensemble de l'état de santé des données : Suivez facilement l'état de santé de toutes les tables dans une vue consolidée et assurez-vous que les problèmes sont résolus.

Indicateur de santé : Des signaux de qualité cohérents sont propagés depuis les pipelines en amont vers les surfaces métier en aval. Les équipes Data Engineering sont les premières informées en cas de problème et les consommateurs peuvent instantanément déterminer si les données sont fiables.

Voici notre feuille de route pour les mois à venir :
Découvrez le monitoring intelligent à grande échelle et construisez une plateforme de données fiable et en libre-service. Essayez la préversion publique dès aujourd'hui :
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Produto
June 12, 2024/11 min de leitura

