Gouvernance des données
Qu'est-ce que la gouvernance des données ?
La gouvernance des données est une pratique de supervision qui vise à garantir la valeur des données et leur capacité à soutenir la stratégie de l'entreprise. La gouvernance des données n'est pas simplement un outil ou un processus. Elle aligne les critères régissant les données sur la stratégie de l'entreprise. Elle utilise pour cela un cadre englobant les personnes, les processus, les technologies et les données. Elle s'efforce aussi de créer une culture qui appuie les objectifs et les ambitions de l'entreprise.
Quels sont les avantages commerciaux de la gouvernance des données ?
Face à la croissance du volume et de la complexité des données, de plus en plus d'organisations misent sur la gouvernance des données pour atteindre plusieurs objectifs stratégiques :
- Des données de qualité constante et élevée comme fondement de l'analytique et du machine learning
- Réduction du délai d'obtention des insights
- Gestion des risques et de la conformité vis-à-vis des réglementations industrielles comme la HIPPA, FedRAMP, le RGPD ou la CCPA.
- Démocratisation des données, afin de permettre à tous les membres d'une organisation de prendre des décisions axées sur les données
- Optimisation des coûts, en évitant par exemple que les utilisateurs ne créent de vastes clusters, ou en empêchant l'utilisation d'instances de GPU particulièrement chères.
Qu'est-ce qu'une bonne solution de gouvernance des données ?
Les entreprises orientées données utilisent le lakehouse comme fondement de leur architecture de données pour l'analytique. Un data lakehouse est une architecture qui permet de réaliser des opérations de data engineering, de machine learning, d'entreposage et de business intelligence directement sur les grandes quantités de données stockées dans les data lakes. Dans un data lakehouse, la gouvernance des données remplit plusieurs fonctions essentielles :
- Unified Catalog : un catalogue unifié conserve l'ensemble de vos données, modèles ML et artefacts d'analytique, ainsi que les métadonnées de chaque objet. Le catalogue unifié peut également intégrer les données d'autres catalogues, comme celui d'un metastore Hive.
- Unification des contrôles d'accès aux données : un modèle de permission unique et unifié, englobant tous les actifs de données et tous les clouds. Cela inclut notamment le contrôle d'accès basé sur les attributs (ABAC) pour les données personnelles sensibles.
- Audit des données : l'accès aux données fait l'objet de vérifications centralisées et de capacités de surveillance qui favorisent la responsabilisation.
- Gestion de la qualité des données : une gestion robuste de la qualité des données, qui intègre des contrôles de qualité, des tests, de la surveillance et des mécanismes d'application pour veiller à ce que les données exploitées en aval par la BI, l'analytique et le machine learning soient exactes et utiles.
- Data lineage : le data lineage offre une visibilité de bout en bout sur la circulation des données dans le lakehouse, de la source à la consommation.
- Découverte des données : une découverte des données plus simple pour permettre aux data scientists, aux analystes et aux ingénieurs de découvrir et référencer rapidement les données pertinentes, afin d'accélérer la création de valeur
- Partage des données : les données peuvent être partagées entre différents clouds et plateformes.
Quelle est la différence entre la gestion et la gouvernance des données ?
La gestion des données exécute les activités en conformité avec les politiques, les principes et les normes de la gouvernance des données pour fournir des données fiables. Ces activités sont généralement axées sur un projet et de courte durée. La gouvernance des données est traitée comme un programme conçu pour délivrer des bienfaits à long terme. Un outil centralisé joue un rôle décisif dans la mise en œuvre de la gouvernance.
Approfondissez le thème de la gouvernance et du partage des données sur Databricks
- Databricks Unity Catalog
- Databricks Delta Sharing