Qu'est-ce que Data Mesh ?

Architecture décentralisée traitant les données comme un produit appartenant aux équipes de domaine, mettant l'accent sur l'infrastructure en libre-service, la gouvernance fédérée et l'interopérabilité.

par Équipe Databricks

La propriété du domaine attribue la responsabilité des produits de données aux équipes les plus proches de la création des données, leur conférant l'autonomie nécessaire en matière de schémas, de qualité, de documentation et de SLA, tout en traitant les jeux de données comme des produits dotés d'interfaces claires.
L'infrastructure en libre-service fournit aux équipes de domaine des fonctionnalités de plateforme pour le stockage, le traitement, le catalogage et la gouvernance des données grâce à des outils standardisés, réduisant ainsi la dépendance vis-à-vis des équipes de données centrales.
La gouvernance fédérée établit des normes globales d'interopérabilité, de sécurité et de conformité, tout en permettant des politiques spécifiques à chaque domaine. La gouvernance informatique automatise l'application des politiques grâce aux fonctionnalités de la plateforme.

Les données sont essentielles pour les entreprises : elles sont la matière première de l'innovation et du progrès. En raison de leur rôle croissant dans les activités et dans la prise de décision, elles sont à l'origine de défis majeurs pour les organisations qui veulent rester compétitives. Parce qu'ils créent des silos, réduisent la visibilité des données et compliquent leur traitement, les data lakes et les data warehouses traditionnels tendent à aggraver le problème. Ces obstacles et ces goulets d'étranglement entravent la collaboration et nuisent à l'exploitation de ressources pourtant précieuses. Les entreprises ont besoin d'une nouvelle architecture pour exploiter tout le potentiel de leurs données. Le data mesh est une architecture de données moderne à la hauteur des enjeux actuels.

Qu'est-ce qu'un data mesh ?

Le data mesh est une architecture conçue pour gérer les données organisationnelles à grande échelle et en extraire davantage de valeur.

La décentralisation est la clé du data mesh. Les données sont encadrées et gérées de façon indépendante par les différents domaines de l'entreprise et non par une même équipe en charge de tous les datasets de l'organisation. Mais cette décentralisation est régie par des règles communes de gouvernance qui assurent l'interopérabilité, la sécurité et la cohérence sémantique des données.

Les gestionnaires de données de chaque domaine ont pour mission de fournir des produits de données de haute qualité et d'en garantir la sécurité. Comme ils ne sont responsables que des données métier de leur domaine, et non de toutes les données de l'organisation, ils sont en mesure de fournir des données plus pertinentes, avec davantage de rapidité et d'efficacité, tout en leur appliquant des règles strictes de gouvernance.

Les principes du data mesh offrent un équilibre idéal entre l'autonomie des fonctions et l'interopérabilité globale. Cette architecture limite le recours à des équipes centralisées et évite la formation de silos tout en créant un environnement propice à la collaboration. Les équipes ont ainsi la possibilité de développer en commun et de partager des produits de données qui génèrent une valeur commerciale pour l'organisation.

Principes de l'architecture data mesh

Une architecture logique data mesh repose sur quatre principes :

Propriété du domaine : le data mesh utilise une architecture distribuée au sein de laquelle chaque équipe du domaine conserve une responsabilité et une autonomie totales vis-à-vis de ses données, tout au long de leur cycle de vie. Les équipes de domaine représentent différents départements ou services d'une organisation, tels que les ventes ou la comptabilité, chacun produisant ses propres données. Le concept de propriété du domaine veille à ce que les données soient encadrées par les utilisateurs qui les connaissent le mieux.
Données en tant que produit : les données sont traitées comme un produit ; les équipes et les départements de l'organisation sont considérés comme des clients. L'organisation applique des principes de gestion de produit au cycle de vie de l'analyse des données, afin de garantir la qualité des données fournies aux consommateurs. Les produits de données doivent être faciles à découvrir, fiables, explicites, adressables et interopérables. Outre les données et les métadonnées, ces produits peuvent contenir du code, des tableaux de bord, des fonctionnalités, des modèles et d'autres assets nécessaires à leur création et leur maintenance.
Plateforme d'infrastructure en libre-service : si les équipes de domaine gèrent indépendamment leurs propres produits de données, l'organisation utilise une plateforme automatisée et unifiée pour développer, exécuter et maintenir des produits de données interopérables. Les outils standard fournis par la plateforme en libre-service assurent l'évolutivité de l'architecture data mesh.
Gouvernance fédérée : ce principe met en place une gouvernance centrale et cohérente des données sur l'ensemble des domaines. Le suivi et la gestion de la conformité sont centralisés à l'aide d'un catalogue de données, d'outils de gouvernance des données et de politiques appliquées automatiquement. On obtient ainsi un écosystème de données qui respecte à la fois les règles de l'organisation et les réglementations de l'industrie.

Les avantages du data mesh

Traditionnellement, les organisations confient la gestion des données à une équipe data centralisée, qui prend en charge le stockage, le formatage, le traitement et l'analyse des données pour toute l'entreprise. Cette pratique garantit une gestion et une gouvernance cohérentes des données, mais crée également des goulets d'étranglement. Les équipes tentent souvent de contourner cette centralisation en créant involontairement des silos visant à accélérer la prise de décisions data-driven. Mais ces usages ont l'inconvénient d'empêche les utilisateurs d'obtenir des données pertinentes et précises au moment voulu. Autre problème, les équipes de données et d'IA centralisées ont rarement une véritable maîtrise du contexte propre aux datasets de chaque domaine. Elles risquent donc de passer à côté de possibilités de création de produits de données utiles.

Face à l'augmentation constante du volume et de la valeur des données, les équipes centralisées de données et d'IA sont souvent incapables de suivre la demande. Les conséquences sont lourdes : l'équipe est débordée, les utilisateurs métier ne peuvent pas accéder aux données dont ils ont besoin et l'organisation ne peut pas concrétiser le potentiel de ses données.

Dans un data mesh, la gestion des données est décentralisée et confiée à des experts du domaine qui comprennent les données avec lesquelles ils travaillent. Cette approche a plusieurs avantages :

Vitesse et simplicité : les utilisateurs ont rapidement accès aux bonnes données parce qu'ils peuvent contacter directement les gestionnaires de domaine pour les demandes, les modifications et les approbations.
Qualité des produits de données : les gestionnaires de données spécialisés créent des produits plus pertinents et de meilleure qualité, qui ont une valeur tangible pour les utilisateurs métier.
Facilité de découverte : si la gestion et l'accès sont décentralisés, l'enregistrement et la gouvernance de toutes les données sont centralisés afin d'éviter la formation de silos et de faciliter les recherches.
Rentabilité et performance : l'architecture de données distribuées favorise l'adoption du streaming de données en temps réel. En offrant une meilleure visibilité sur l'affectation des ressources et le stockage, elle permet des optimisations qui facilitent la planification financière et réduisent les coûts.
Une gouvernance plus robuste : les politiques de sécurité et de conformité fédérées sont autant appliquées au sein des domaines qu'entre les domaines. La surveillance et l'audit sont centralisés pour garantir le respect des règles en permanence.

Composants de base du data mesh

Pour créer un data mesh, les organisations doivent avoir mis en place un certain nombre d'éléments :

Une stratégie complète de produits de données, établissant des normes et des processus communs : un modèle global pour les contrats de produits de données, une plateforme de publication pour la découverte de données et des processus de gouvernance centralisés et l'autorité ; cette stratégie doit se doubler d'une expérience libre-service pour les utilisateurs.
Une plateforme unifiée hébergeant toutes les données et capable de prendre en charge tous les types de tâches analytiques, à l'instar d'une data intelligence platform.
Une plateforme flexible pour faciliter la collaboration entre différents profils d'utilisateurs, garantir la qualité des données et assurer l'interopérabilité et la productivité de toutes les charges de travail de données et d'IA.
Des services de gouvernance des données centralisés et axés sur le contrôle d'accès et le catalogage des données, afin de faciliter la collaboration inter-domaines et de mettre l'analyse en libre-service.
Une couche de partage fédérée pour partager des données entre les domaines de façon transparente.
Dans de nombreuses organisations, il faut également envisager les modalités d'un partage sécurisé des données avec des parties externes.

Mettre en place une architecture data mesh avec la Databricks Data Intelligence Platform

La Databricks Data Intelligence Platform fournit un socle technologique aux organisations qui souhaitent adopter une architecture data mesh et moderniser leur approche de gestion des données. Plateforme native cloud pour les données, l'analytique et l'IA, Databricks combine les performances et les fonctionnalités d'un data warehouse avec la flexibilité, la rentabilité et l'évolutivité d'un data lake moderne. Son architecture ouverte apporte de la souplesse dans l'organisation et la structuration des données, tout en fournissant une infrastructure de gestion unifiée pour les charges de travail de données et d'analytique.

La plateforme Databricks est organisée en unités appelées espaces de travail et idéales pour mettre en place un data mesh articulé en domaines. En effet, Databricks prend en charge une multiplicité d'espaces de travail qui peuvent correspondre respectivement à un ou plusieurs domaines. Chaque espace est encadré et géré localement, et sert de lieu de collaboration. Au sein d'un espace de travail, les peuvent gérer les produits de données en s'appuyant sur une infrastructure en libre-service couvrant l'ensemble de l'organisation.

Databricks fournit des outils pour la gestion et le traitement des données tout au long de leur cycle de vie. Les données en batch et en streaming sont prises en charge pour permettre aux utilisateurs de créer et de gérer des produits de données plus efficacement. La plateforme peut également unifier les formats de stockage des tables pour que chaque domaine puisse utiliser le format de son choix, sans compromettre l'unification de la gestion des données et des métadonnées.

Unity Catalog de Databricks, seule solution de gouvernance unifiée et ouverte de l'industrie pour les données et l'IA, joue un rôle décisif dans le data mesh. Unity Catalog centralise la gestion en intégrant la gouvernance, la sécurité, la gestion des utilisateurs et les métadonnées des différents espaces de travail. Outre ses fonctions de catalogue (aide à la découverte, traçabilité), il applique des contrôles d'accès détaillés et maintient des journaux d'audit. La sécurité et les contrôles d'accès ne sont gérés qu'à un seul endroit pour simplifier la gouvernance. Et comme Unity Catalog organise les données en catalogues, chaque domaine peut gérer ses produits de données selon ses besoins.

Databricks fournit également des outils de partage de données avec un haut niveau d'interopérabilité pour faciliter la collaboration entre les domaines internes et externes. Delta Sharing permet en effet de partager en toute sécurité des données sans les copier, quelles que soient la plateforme informatique et la région du cloud. Delta Sharing sert de base à un large éventail d'activités de partage de données externes, et notamment la publication et l'acquisition de données via une marketplace de données.

Avec Unity Catalog et Delta Sharing, Databricks permet aux organisations d'organiser et de gérer librement les données et l'analytique à grande échelle. Les données peuvent être organisées selon une architecture data mesh ou multi-tenant pour prendre en charge aussi bien les solutions de gestion de données centralisées que distribuées.

L'architecture data mesh met à la disposition des entreprises une nouvelle façon d'aborder les données et d'exploiter pleinement leur valeur. Databricks fournit une base ouverte et évolutive pour concrétiser cette vision, en offrant des garanties d'interopérabilité, de rentabilité, de gouvernance et de simplicité.

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.

Voir tous les blogs