11 novembre 2024

Les silos de données expliqués : problèmes qu’ils causent et solutions

Qu'est-ce qu'un silo de données ?

Les données sont l'un des atouts les plus précieux d'une entreprise, mais leur valeur dépend de la capacité de l'entreprise à les exploiter pour prendre des décisions commerciales qui génèrent un impact et des revenus. Les silos de données empêchent les entreprises d'avoir une vision complète de leurs données, et ces lacunes peuvent nuire à la capacité d'un dirigeant à prendre des décisions basées sur les données.

Le terme « silo » peut évoquer des images de silos dans une ferme, où différents grains sont stockés dans des conteneurs séparés. Les silos de données font référence à cette même séparation des données au sein des entreprises. Différentes équipes collectent, gèrent et stockent souvent leurs données séparément les unes des autres, avec un accès limité à ceux qui font partie de certains groupes. Parfois, la séparation est conçue autour des unités de produits ou des fonctions de travail, mais parfois les silos de données sont créés par des acquisitions.

Dans de nombreuses organisations, les données sont cloisonnées par type. Dans ce cas, les données structurées sont stockées dans plusieurs entrepôts de données, à la fois sur site et dans le cloud. Pendant ce temps, les données non structurées et en flux continu sont stockées séparément dans un lac de données. Cette séparation complique la gestion des données et limite la valeur que les organisations peuvent extraire de leurs données.

Pourquoi les silos de données sont-ils un problème ?

Les silos de données posent problème car ils entravent la visibilité et l'accès aux données, augmentent l'inefficacité et les coûts, nuisent à une gouvernance efficace et conduisent les organisations à laisser des informations importantes sur la table.

Lorsque les données d'une entreprise sont réparties sur plusieurs systèmes indépendants contrôlés par des groupes distincts, l'accès à toutes les données est difficile, voire impossible. L'analyse des données agrégées est également difficile. Les équipes sont souvent confrontées à des données dupliquées difficiles à concilier ou à des données manquantes qui laissent des lacunes. Et le stockage des données structurées et non structurées à des endroits différents rend difficile la mise en œuvre de capacités avancées d'apprentissage automatique et d'initiatives GenAI. Les organisations ont également besoin de plusieurs modèles de gouvernance pour gérer les données cloisonnées, ce qui augmente les risques de sécurité et de conformité.

La suppression des silos de données aide les dirigeants à obtenir une vue complète de leur entreprise, à réduire les doublons et l'inefficacité, à rationaliser la gouvernance et à tirer pleinement parti des capacités de l'IA pour prendre des décisions basées sur les données.

Coûts commerciaux des silos de données

Passer d'une architecture traditionnelle avec des silos de données à un lac de données moderne permet aux entreprises d'avoir une visibilité sur leurs données et peut également réduire les coûts. Lorsque les données sont cloisonnées entre plusieurs équipes, chaque équipe doit supporter le coût de l'infrastructure et du personnel informatique pour répondre à ses besoins uniques en matière de données. La centralisation des données permet aux entreprises de consolider leur pile technologique et de réduire les coûts d'administration et de maintenance.

Les architectures de données modernes, telles que le lac de données, offrent une flexibilité et une évolutivité accrues pour aider les entreprises à contrôler les coûts de calcul. La préparation des données et l'analyse ad hoc dans une solution cloud comme Databricks, qui s'adapte dynamiquement en fonction des clusters de calcul nécessaires, garantit que les entreprises ne paient pas pour des ressources de calcul inutilisées. Par exemple, le passage à Delta Lake et Databricks a aidé Relogix à réduire ses coûts d'infrastructure de 80 %.

Comment les silos de données apparaissent-ils ?

Les silos de données ressemblent souvent aux organigrammes des entreprises, les silos de données étant souvent créés lorsque les données sont séparées par différentes unités commerciales ou groupes de produits. Cette séparation peut être renforcée par des approches conflictuelles en matière de gestion des données ou par le désir de garder certaines données confidentielles. Cependant, la confidentialité des données est mieux assurée par des contrôles d'accès appropriés. Les données peuvent également être cloisonnées en fonction du type d'emploi, car des disciplines telles que l'ingénierie, le marketing et la finance ont des besoins et des priorités différents en matière de données.

Certaines équipes ne communiquent tout simplement pas assez pour se rendre compte qu'elles font des efforts redondants. Le manque de communication peut également entraîner des équipes qui ignorent les besoins des autres équipes et ne réalisent pas qu'elles disposent de données qu'une autre équipe pourrait bénéficier de voir. À mesure que les équipes développent indépendamment leurs propres approches pour gérer et collecter les données, les silos ne font que croître, et en stockant les données indépendamment, elles développent par inadvertance des systèmes incompatibles qui rendent le partage des données difficile.

Non seulement les silos de données font écho aux silos organisationnels, mais toutes ces données sont souvent stockées de manière cloisonnée par type. Alors que les données structurées sont stockées dans plusieurs entrepôts de données sur site et dans le cloud, les données non structurées utilisées pour l'IA sont stockées dans des lacs de données. Chacun de ces modèles architecturaux nécessite son propre modèle de gouvernance, ce qui limite la capacité d'une organisation à accéder en toute sécurité à ses données et à les utiliser pour des informations d'IA qui génèrent un avantage concurrentiel.

Comment identifier les silos de données

Les silos de données sont souvent identifiés de manière organique par des cas d'utilisation qui apparaissent dans les opérations commerciales quotidiennes. Les équipes réalisent qu'elles manquent d'accès à certaines données ou qu'elles ne peuvent pas les trouver. Les employés peuvent se plaindre du temps et des efforts manuels nécessaires pour compiler des rapports. Les dirigeants peuvent recevoir des rapports similaires de différentes équipes qui présentent des divergences, des doublons ou des lacunes. Les équipes peuvent commencer à stocker et à suivre les données en dehors des outils de données habituels afin d'avoir plus de contrôle ou un accès plus rapide à leurs données, ce qui entraîne des copies de données dupliquées et hors ligne.

Les entreprises peuvent identifier proactivement les silos de données en effectuant des audits de données. Le suivi et la documentation minutieux des diverses sources de données dans toute l'entreprise donnent aux dirigeants une compréhension claire de leur situation en matière de gestion et de stockage des données. Ils peuvent utiliser cela comme point de départ pour planifier la transition vers un modèle de données centralisé. Une fois les silos supprimés et une architecture centralisée en place, de petits audits de données peuvent être effectués régulièrement pour détecter tout nouveau silo et le réintégrer rapidement dans le référentiel de données central.

Comment briser les silos de données

Une fois les silos de données identifiés, une entreprise peut commencer à prendre des mesures pour les démanteler et passer à une solution de stockage partagé centralisée.

Les solutions de stockage cloud offrent un moyen évolutif de stocker des données centralisées en un seul endroit, mais les solutions cloud traditionnelles comme Amazon et Azure deviennent souvent un dépotoir de stockage – un emplacement partagé pour déposer des données sans structure organisationnelle ni compréhension partagée de la manière dont le stockage partagé doit être utilisé.

Les entrepôts de données cloud apportent une couche supplémentaire d'ordre et de compréhension grâce aux définitions de schéma. Avec des schémas définis, les données peuvent être classifiées et organisées pour permettre des informations analytiques plus approfondies. Cependant, la définition et la maintenance de ces schémas peuvent prendre du temps et il peut être difficile de prendre en charge tous les types de données requis par votre entreprise dans un seul schéma.

Les lacs de données sont plus flexibles que les entrepôts de données car ils ne nécessitent pas de schéma de données et peuvent prendre en charge tous les types de données, y compris les données non structurées et semi-structurées comme les images, la vidéo, l'audio et les documents. Cette flexibilité permet aux équipes de passer facilement à un emplacement de stockage unique et central sans avoir à modifier considérablement leurs pratiques de gestion des données. Les lacs de données permettent également l'analyse de divers formats et permettent aux utilisateurs de répondre aux préoccupations concernant le coût et le verrouillage propriétaire des entrepôts de données.

Les lacs de données ont permis à certaines entreprises de passer des logiciels coûteux et propriétaires d'entrepôts de données aux lacs de données. Les lacs de données ont également permis aux entreprises d'analyser de grandes quantités de données non structurées d'une manière qui n'était pas possible avec les entrepôts de données et ont également permis l'apprentissage automatique.

Cependant, les lacs de données ne prennent pas en charge les transactions et manquent des fonctionnalités de sécurité requises par de nombreuses entreprises. Ils peuvent également rencontrer des problèmes de performance à mesure que les données augmentent. Alors que les entrepôts de données sont plus fiables dans ces domaines fonctionnels, ils ne prennent en charge que les données structurées et ne sont pas disponibles dans des formats ouverts comme les lacs de données et les lacs de données.

Un lac de données combine l'échelle et la flexibilité des lacs de données avec la prise en charge des transactions et la gouvernance des entrepôts de données, permettant des scénarios avancés d'IA et d'analyse qui brisent véritablement les silos de données. Un lac de données permet aux utilisateurs de faire tout, de la BI, de l'analyse SQL, de la science des données et de l'IA sur une seule plateforme. Le lac de données adopte une approche opinionnée pour construire des lacs de données en ajoutant des attributs d'entrepôt de données — fiabilité, performance et qualité, tout en conservant l'ouverture et l'échelle des lacs de données.

Les lacs de données sont construits sur des formats de table open source, comme Delta Lake ou Apache Iceberg. Cela permet aux équipes de stocker des données structurées, semi-structurées et non structurées dans un lac de données, en utilisant un format portable qui empêche le verrouillage propriétaire. Ces formats offrent des transactions conformes ACID, l'application de schémas et la validation des données.

L'un des principaux défis auxquels les organisations sont confrontées lors de l'adoption du lac de données ouvert est la sélection du format optimal pour leurs données. Tout format ouvert est préférable à l'utilisation d'un format propriétaire pour vos données. Cependant, choisir un seul format de stockage pour se standardiser peut être une tâche ardue, ce qui peut entraîner une fatigue décisionnelle et la peur de conséquences irréversibles.

Delta UniForm (pour Delta Lake Universal Format) offre une unification simple, facile à mettre en œuvre et transparente des formats de table sans créer de copies de données ou de silos supplémentaires. Avec UniForm, les tables Delta Lake peuvent être lues comme des tables Iceberg, vous pouvez donc utiliser n'importe quel moteur de calcul qui fonctionne avec les écosystèmes Delta Lake ou Iceberg.

Un autre défi créé par les silos de données est la collaboration limitée, tant en interne qu'en externe, ce qui restreint le flux d'informations et d'innovation. En éliminant ces silos et en établissant une source de vérité unifiée pour les lacs de données, les bases de données, les entrepôts et les catalogues, les organisations peuvent faciliter un accès transparent aux données et aux actifs d'IA à partir de n'importe quel moteur de calcul ou outil utilisant des API ouvertes. C'est là que Databricks Unity Catalog intervient en tant que seule solution de gouvernance unifiée et ouverte de l'industrie pour les données et l'IA.

Avec Unity Catalog, les organisations peuvent gouverner de manière transparente les données et les actifs d'IA, y compris les données structurées et non structurées, les modèles d'IA et les fichiers, sur n'importe quel cloud ou plateforme. Il permet la découverte, l'accès et la collaboration sécurisés pour les scientifiques des données, les analystes et les ingénieurs, en augmentant la productivité grâce à l'IA. En favorisant l'interopérabilité et en accélérant les initiatives de données, Unity Catalog simplifie la conformité et stimule la collaboration à grande échelle, tout en évitant le verrouillage propriétaire.

Outils Extract, Transform, Load

Les processus Extract, Transform and Load (ETL) aident les équipes à standardiser et à partager les données. Les outils ETL peuvent être utilisés pour déplacer des données des silos existants vers un emplacement centralisé tel qu'un lakehouse de données. Les ingénieurs peuvent créer des pipelines ETL pour gérer l'ingestion continue en temps réel et maintenir le contrôle qualité des données entrant dans le stockage central partagé.

Changement culturel

Briser les silos de données et empêcher leur réapparition nécessite également un changement culturel et une planification réfléchie sur la manière de migrer les systèmes et les processus pour utiliser un stockage de données centralisé. Comprendre les lacunes ou les défis techniques qui empêchent les équipes d'adopter une nouvelle solution de stockage de données est essentiel pour obtenir l'adhésion de tous et éclairera les décisions de gestion du changement. Idéalement, les nouveaux processus seront également évolutifs et flexibles, et capables de s'adapter à l'évolution des exigences de l'entreprise et des besoins en données.

La mise en place de politiques supplémentaires de gouvernance et de gestion des données aidera à empêcher la création de nouveaux silos de données à l'avenir. Une documentation claire sur les politiques, les normes et les procédures est essentielle pour que les équipes adoptent et continuent de gérer leurs données dans un stockage central partagé. La réalisation d'audits de données réguliers peut rapidement identifier les lacunes dans les processus ou les domaines de l'entreprise qui n'ont pas effectué le changement culturel.

Le soutien de la direction et l'adhésion de la direction sont essentiels pour réaliser un changement culturel. L'articulation d'avantages clairs – à court et à long terme – aidera à obtenir le soutien d'un changement plus large. Cartographiez les tâches de données actuelles qui deviendront plus faciles ou moins coûteuses et mettez en évidence les nouvelles capacités que les architectures modernes permettent.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.

Voir tous les blogs