Les données sont essentielles pour les entreprises : elles sont la matière première de l'innovation et du progrès. En raison de leur rôle croissant dans les activités et dans la prise de décision, elles sont à l'origine de défis majeurs pour les organisations qui veulent rester compétitives. Parce qu'ils créent des silos, réduisent la visibilité des données et compliquent leur traitement, les data lakes et les data warehouses traditionnels tendent à aggraver le problème. Ces obstacles et ces goulets d'étranglement entravent la collaboration et nuisent à l'exploitation de ressources pourtant précieuses. Les entreprises ont besoin d'une nouvelle architecture pour exploiter tout le potentiel de leurs données. Le data mesh est une architecture de données moderne à la hauteur des enjeux actuels.
Le data mesh est une architecture conçue pour gérer les données organisationnelles à grande échelle et en extraire davantage de valeur.
La décentralisation est la clé du data mesh. Les données sont encadrées et gérées de façon indépendante par les différents domaines de l'entreprise et non par une même équipe en charge de tous les datasets de l'organisation. Mais cette décentralisation est régie par des règles communes de gouvernance qui assurent l'interopérabilité, la sécurité et la cohérence sémantique des données.
Les gestionnaires de données de chaque domaine ont pour mission de fournir des produits de données de haute qualité et d'en garantir la sécurité. Comme ils ne sont responsables que des données métier de leur domaine, et non de toutes les données de l'organisation, ils sont en mesure de fournir des données plus pertinentes, avec davantage de rapidité et d'efficacité, tout en leur appliquant des règles strictes de gouvernance.
Les principes du data mesh offrent un équilibre idéal entre l'autonomie des fonctions et l'interopérabilité globale. Cette architecture limite le recours à des équipes centralisées et évite la formation de silos tout en créant un environnement propice à la collaboration. Les équipes ont ainsi la possibilité de développer en commun et de partager des produits de données qui génèrent une valeur commerciale pour l'organisation.
Une architecture logique data mesh repose sur quatre principes :
Traditionnellement, les organisations confient la gestion des données à une équipe data centralisée, qui prend en charge le stockage, le formatage, le traitement et l'analyse des données pour toute l'entreprise. Cette pratique garantit une gestion et une gouvernance cohérentes des données, mais crée également des goulets d'étranglement. Les équipes tentent souvent de contourner cette centralisation en créant involontairement des silos visant à accélérer la prise de décisions data-driven. Mais ces usages ont l'inconvénient d'empêche les utilisateurs d'obtenir des données pertinentes et précises au moment voulu. Autre problème, les équipes de données et d'IA centralisées ont rarement une véritable maîtrise du contexte propre aux datasets de chaque domaine. Elles risquent donc de passer à côté de possibilités de création de produits de données utiles.
Face à l'augmentation constante du volume et de la valeur des données, les équipes centralisées de données et d'IA sont souvent incapables de suivre la demande. Les conséquences sont lourdes : l'équipe est débordée, les utilisateurs métier ne peuvent pas accéder aux données dont ils ont besoin et l'organisation ne peut pas concrétiser le potentiel de ses données.
Dans un data mesh, la gestion des données est décentralisée et confiée à des experts du domaine qui comprennent les données avec lesquelles ils travaillent. Cette approche a plusieurs avantages :
Pour créer un data mesh, les organisations doivent avoir mis en place un certain nombre d'éléments :
La Databricks Data Intelligence Platform fournit un socle technologique aux organisations qui souhaitent adopter une architecture data mesh et moderniser leur approche de gestion des données. Plateforme native cloud pour les données, l'analytique et l'IA, Databricks combine les performances et les fonctionnalités d'un data warehouse avec la flexibilité, la rentabilité et l'évolutivité d'un data lake moderne. Son architecture ouverte apporte de la souplesse dans l'organisation et la structuration des données, tout en fournissant une infrastructure de gestion unifiée pour les charges de travail de données et d'analytique.
La plateforme Databricks est organisée en unités appelées espaces de travail et idéales pour mettre en place un data mesh articulé en domaines. En effet, Databricks prend en charge une multiplicité d'espaces de travail qui peuvent correspondre respectivement à un ou plusieurs domaines. Chaque espace est encadré et géré localement, et sert de lieu de collaboration. Au sein d'un espace de travail, les peuvent gérer les produits de données en s'appuyant sur une infrastructure en libre-service couvrant l'ensemble de l'organisation.
Databricks fournit des outils pour la gestion et le traitement des données tout au long de leur cycle de vie. Les données en batch et en streaming sont prises en charge pour permettre aux utilisateurs de créer et de gérer des produits de données plus efficacement. La plateforme peut également unifier les formats de stockage des tables pour que chaque domaine puisse utiliser le format de son choix, sans compromettre l'unification de la gestion des données et des métadonnées.
Unity Catalog de Databricks, seule solution de gouvernance unifiée et ouverte de l'industrie pour les données et l'IA, joue un rôle décisif dans le data mesh. Unity Catalog centralise la gestion en intégrant la gouvernance, la sécurité, la gestion des utilisateurs et les métadonnées des différents espaces de travail. Outre ses fonctions de catalogue (aide à la découverte, traçabilité), il applique des contrôles d'accès détaillés et maintient des journaux d'audit. La sécurité et les contrôles d'accès ne sont gérés qu'à un seul endroit pour simplifier la gouvernance. Et comme Unity Catalog organise les données en catalogues, chaque domaine peut gérer ses produits de données selon ses besoins.
Databricks fournit également des outils de partage de données avec un haut niveau d'interopérabilité pour faciliter la collaboration entre les domaines internes et externes. Delta Sharing permet en effet de partager en toute sécurité des données sans les copier, quelles que soient la plateforme informatique et la région du cloud. Delta Sharing sert de base à un large éventail d'activités de partage de données externes, et notamment la publication et l'acquisition de données via une marketplace de données.
Avec Unity Catalog et Delta Sharing, Databricks permet aux organisations d'organiser et de gérer librement les données et l'analytique à grande échelle. Les données peuvent être organisées selon une architecture data mesh ou multi-tenant pour prendre en charge aussi bien les solutions de gestion de données centralisées que distribuées.
L'architecture data mesh met à la disposition des entreprises une nouvelle façon d'aborder les données et d'exploiter pleinement leur valeur. Databricks fournit une base ouverte et évolutive pour concrétiser cette vision, en offrant des garanties d'interopérabilité, de rentabilité, de gouvernance et de simplicité.
