La pile de données moderne est conçue pour relever les difficultés de collecte, de stockage et d'analyse des données à mesure que le volume et la complexité des données augmentent. Alors que le succès des entreprises repose de plus en plus sur les informations tirées des données et l'IA, une gestion efficace et fiable des données est essentielle.
Alors, qu'est-ce qu'une pile de données moderne et comment est-elle conçue pour optimiser l'utilisation des données ? Lisez la suite pour comprendre les différences entre les piles de données modernes et leurs homologues héritées, les avantages qu'elles peuvent apporter aux entreprises de tous les secteurs, et les outils de pile de données modernes nécessaires pour réussir avec vos données. Pour savoir comment accélérer vos objectifs en matière de données et d'IA, consultez notre nouveau guide exécutif ici.
Le terme « pile de données » fait référence à un ensemble de technologies différentes qui traitent les données brutes. Une pile de données moderne se compose d'outils utilisés pour ingérer, organiser, stocker et transformer les données.
Ces outils sont essentiels pour transformer les données « immangeables » (données avec lesquelles il est impossible de travailler) en données « mangeables » (données avec lesquelles il est possible de travailler). Plus les données peuvent être accessibles, préparées et analysées rapidement, plus les organisations peuvent les utiliser rapidement pour la prise de décision. Une architecture de pile de données moderne efficace est donc cruciale pour toute organisation souhaitant extraire de la valeur de ses données et réagir plus rapidement aux changements.
Une pile de données moderne a quatre fonctions principales :
Les technologies de chargement sont responsables du déplacement des données d'un endroit à un autre. Par exemple, les données doivent être ingérées dans un pipeline de données afin d'être transformées en un état utilisable et analysées pour obtenir des informations précieuses.
Une fois les données ingérées via un pipeline de données, elles doivent être stockées quelque part. Les entrepôts de données et les lacs de données sont deux technologies de stockage de données couramment utilisées, mais toutes deux présentent certains inconvénients. Une différence est que les entrepôts de données sont plus adaptés au stockage de données structurées, tandis que les lacs de données sont meilleurs pour les données non structurées.
Les plateformes de type lakehouse offrent une solution moderne mieux adaptée à la gestion de différents types de données structurées et non structurées.
Les solutions de stockage de données basées sur le cloud, plutôt que les options sur site, sont essentielles aux piles de données modernes. Elles offrent un accès facile aux données dans des plateformes hautement évolutives qui peuvent s'adapter facilement aux besoins changeants.
Les piles de données modernes sont également utilisées pour transformer les données. Le processus de transformation convertit les données « brutes » en données « raffinées » adaptées aux cas d'utilisation analytiques. De nombreuses organisations utiliseront une plateforme de préparation de données pour la transformation des données.
La transformation des données peut impliquer la conversion des données d'un format, d'une structure ou d'un système de valeurs à un autre. C'est un processus essentiel pour l'analyse des données et la prise de décision basée sur les données.
Il existe un large éventail de transformations de données qui peuvent être appliquées aux données, notamment :
Une fois les données collectées et préparées, elles sont prêtes à être utilisées pour l'analyse. Les outils de pile de données modernes peuvent également gérer cette étape.
Les données peuvent être analysées à l'aide de modèles d'apprentissage automatique (ML) afin d'identifier des modèles et des tendances qui peuvent être utilisés pour la planification et la prise de décision. Alternativement, les données traitées peuvent servir de base à diverses applications.
La clé pour comprendre l'impact et l'importance de la pile de données moderne est de regarder en arrière aux piles de données héritées. Les piles de données précédentes ont ouvert la voie aux outils et technologies utilisés aujourd'hui, mais elles présentaient des limitations importantes que les piles de données modernes sont conçues pour surmonter.
Les entrepôts de données d'entreprise (EDW) ont été sans doute les premières piles de données couramment utilisées par les organisations pour la gestion des données.
Ils fournissent un référentiel centralisé pour les données accumulées à partir de diverses sources. Cela les rend utiles pour les organisations qui utilisent des plateformes de gestion de la relation client (CRM), des bases de données relationnelles ou des systèmes similaires qui accumulent de grandes quantités de données.
Un EDW repose généralement sur un mécanisme ETL (extract, transform, load) pour gérer les données. Dans ces cas, les données sont vérifiées par rapport à un schéma prédéfini (format de base de données interne) lors du téléchargement, ce qui est connu sous le nom d'approche schema-on-write.
Bien que les EDW aient sans aucun doute joué un rôle dans la rationalisation de la gestion et de l'analyse des données, ils sont devenus quelque peu obsolètes avec le passage croissant aux cas d'utilisation de l'intelligence artificielle (IA) et du ML.
C'est en grande partie parce que les entrepôts de données ont du mal à gérer les grandes quantités de données nécessaires à ces cas d'utilisation. À mesure que la quantité de données stockées augmente, les coûts des entrepôts de données, ainsi que leur inefficacité, augmentent également.
Les entrepôts de données ne peuvent pas non plus gérer les données non structurées, telles que l'audio, la vidéo, les documents texte ou les publications sur les réseaux sociaux, qui sont toutes devenues des informations vitales pour de nombreuses entreprises. De plus, la structure d'un EDW est généralement conçue pour stocker des données spécifiques à une tâche. Cela les rend inadaptés aux tâches de ML et de science des données, qui dépendent de la disponibilité de toutes les données collectées.
Les lacs de données ont été développés en partie en réponse aux insuffisances des entrepôts de données pour les tâches d'IA et de ML. Ces référentiels sont conçus pour stocker d'énormes quantités de données brutes dans leurs formats natifs. Comme ils sont capables de gérer des données structurées, non structurées et semi-structurées, ils sont plus adaptés aux cas d'utilisation de ML et de science des données que les EDW.
Contrairement aux entrepôts de données, les lacs de données ne nécessitent pas de transformation des données avant le chargement, car il n'y a pas de schéma auquel les données doivent correspondre. Le schéma est plutôt vérifié lors de l'interrogation des données, ce qui est connu sous le nom d'approche schema-on-read.
Pour cette raison, les lacs de données sont généralement considérés comme plus robustes et plus rentables que les entrepôts de données traditionnels. Cependant, cela ne signifie pas qu'ils n'ont pas d'autres limites.
La business intelligence et le reporting peuvent être difficiles lors de l'utilisation de lacs de données, car ils nécessitent des outils et des techniques supplémentaires pour prendre en charge les requêtes SQL.
Étant donné que les lacs de données stockent de grandes quantités de données de différents types et formats, une mauvaise qualité, fiabilité et intégrité des données sont également fréquemment un problème. Les données stockées dans les lacs peuvent facilement se retrouver désorganisées, entraînant d'autres problèmes de précision, de sécurité et de gouvernance des données.
Étant donné que les lacs de données et les entrepôts de données présentent des lacunes dans des domaines clés, de nombreuses organisations se retrouvent à utiliser les deux pour éviter leurs faiblesses respectives. Par exemple, une entreprise pourrait utiliser un grand lac de données pour stocker ses données non structurées, et plusieurs entrepôts de données spécialisés pour des cas d'utilisation spécifiques.
Dans la plupart des cas, cela entraîne des silos de données, une augmentation des coûts et de la complexité, la nécessité de maintenir la cohérence des données entre les deux systèmes posant un défi important. Afin de résoudre ce problème, une solution plus unifiée est nécessaire.
Entrez dans la pile de données moderne. Conçue pour résoudre les défis des piles de données héritées, il existe des composants spécifiques que toutes les piles de données modernes devraient inclure.
La différence la plus significative entre les piles de données modernes et héritées est probablement que la pile de données moderne est hébergée dans le cloud. Plutôt que de s'appuyer sur des serveurs physiques, les piles de données modernes s'appuient sur le cloud computing et sont souvent fournies sous un modèle SaaS (software as a Service).
Cela signifie qu'elles nécessitent généralement moins de configuration technique de la part de l'utilisateur. Au lieu de cela, la sécurité, la maintenance et les mises à jour sont fournies par les entreprises de piles de données modernes dans le cadre de leur service. Cela rend les piles de données modernes plus flexibles et plus efficaces que leurs homologues héritées.
Il en résulte également une promotion de l'accessibilité pour les utilisateurs finaux, ce qui signifie qu'un plus grand nombre de professionnels des données peuvent accéder aux données, quelle que soit leur localisation.
Une solution basée sur le cloud augmente également la scalabilité, car elle peut être rapidement ajustée pour répondre aux besoins changeants d'une organisation sans les temps d'arrêt coûteux et longs associés à la mise à l'échelle des serveurs locaux.
En plus de prendre en charge un large éventail de cas d'utilisation des données, les outils de la pile de données moderne permettent aux organisations de traiter d'énormes transactions de données. Ils se composent de composants qui exploitent des frameworks de calcul distribué - par exemple, des technologies comme Hadoop ou Spark permettent le traitement des données sur plusieurs nœuds ou clusters, ce qui permet le traitement parallèle de grands ensembles de données et de charges de travail complexes.
Cela signifie que les organisations peuvent effectuer des transactions de données complexes et gérer une plus grande variété de charges de travail, sans imposer de contraintes supplémentaires à leur infrastructure. L'utilisation de plusieurs nœuds et clusters permet également le partitionnement des données. Cela permet de répartir la charge de travail, permettant des requêtes et un traitement plus efficaces en divisant les données en morceaux plus petits et gérables.
Des techniques telles que la compression des donn ées, les formats de stockage colonnaires et l'indexation sont également utilisées dans la pile de données moderne pour aider à optimiser l'efficacité du stockage et du traitement. Ces techniques réduisent l'espace de stockage physique requis pour les grands ensembles de données et accélèrent les processus d'accès et de récupération des données.
Les piles de données modernes utilisent également des pipelines de données incroyablement efficaces, y compris des processus optimisés d'extraction, de transformation et de chargement (ETL) ou d'extraction, de chargement et de transformation (ELT). Cela garantit le mouvement fluide des données de la source à la destination, quel que soit le volume de données traité.
Les piles de données modernes sont bien équipées pour prendre en charge un large éventail de cas d'utilisation de la business intelligence, aidant les organisations à extraire le maximum de valeur de leurs données. Elles fournissent des outils robustes qui facilitent l'analyse efficace des données, la visualisation des données et la prise de décision basée sur les données.
Les entreprises peuvent également bénéficier d'une grande variété d'outils d'analyse et de reporting qui peuvent s'intégrer de manière transparente aux piles de données modernes. Cela permet aux plateformes de BI d'exploiter les requêtes SQL, les outils de visualisation de données, les tableaux de bord et les fonctionnalités de reporting pour analyser et présenter des informations à partir des données. Elles peuvent même intégrer des analyses prédictives ou des modèles ML pour permettre des analyses et une prise de décision plus sophistiquées.
Certaines architectures de piles de données modernes prennent même en charge le traitement et le streaming de données en temps réel. Cela permet aux outils de BI de fournir des informations à la minute et de prendre en charge la prise de décision en temps réel, augmentant ainsi l'agilité et la réactivité de l'organisation qui les utilise.
La gouvernance des données intégrée est un avantage majeur des piles technologiques de données modernes. Divers outils, processus et politiques sont mis en œuvre pour garantir la qualité, la conformité, la sécurité et l'accessibilité des données à chaque étape du cycle de vie des données. Ils intègrent également des outils sophistiqués de catalogage de données qui documentent et gèrent les métadonnées.
Disposer d'informations sur les sources de données, les structures, la lignée, la propriété et l'utilisation est essentiel pour maintenir un catalogue centralisé à jour. Cela rend les données plus découvrables et plus faciles à comprendre, tout en garantissant la transparence et la conformité.
En matière de sécurité, des mécanismes de contrôle d'accès basé sur les rôles (RBAC) sont utilisés pour gérer et contrôler quels utilisateurs ont accès aux différents ensembles de données. Ces mécanismes aident à appliquer les politiques de sécurité de l'organisation, en garantissant que seul le personnel autorisé peut accéder aux données sensibles.
Ceci est particulièrement important pour les entreprises opérant dans des secteurs tels que la banque et la santé, qui traitent beaucoup de données sensibles. Les piles de données modernes peuvent également aider à la conformité avec les réglementations sur les données telles que le RGPD et la HIPAA. Elles disposent de fonctionnalités qui aident à la conformité en permettant le chiffrement et l'audit des données, ainsi qu'en garantissant le respect des réglementations en matière de confidentialité et de sécurité.
De nombreuses piles de données modernes intègrent également des capacités de surveillance en temps réel qui aident à identifier les problèmes potentiels de gouvernance des données. Des mécanismes d'alerte peuvent informer les administrateurs des activités suspectes ou des écarts par rapport aux normes de gouvernance établies.
En général, les avantages de la pile de données moderne peuvent être organisés dans les quatre catégories suivantes.
Premièrement, une pile de données moderne offre de plus grands niveaux de flexibilité. Les divers outils peuvent être utilisés pour répondre aux besoins spécifiques de l'utilisateur, tandis que les services disponibles peuvent être ajoutés ou supprimés selon les besoins. Cette modularité permet de construire des piles couche par couche pour créer la pile de données moderne exacte dont une organisation a besoin.
De plus, la compatibilité avec une variété de formats de données, de bases de données et de services tiers garantit l'interopérabilité et la flexibilité lors de l'intégration de nouvelles technologies. Les piles de données modernes exploitent souvent des outils et des frameworks open-source, offrant aux organisations une plus grande flexibilité grâce à la personnalisation et aux améliorations pilotées par la communauté.
Elles offrent également des options pour le traitement en temps réel et par lots, ce qui offre une plus grande flexibilité aux organisations traitant différents types de charges de travail en leur permettant d'adapter leur traitement de données aux besoins variés de l'entreprise.
Parce que la pile de données moderne est une solution basée sur le cloud, la vitesse à laquelle les données peuvent être traitées a augmenté de façon exponentielle. De grands volumes de données peuvent être traités en quelques minutes, contre des heures dans une pile de données héritée.
Les piles de données modernes intègrent souvent des outils automatisés de traitement et de transformation des données. Ces outils rationalisent les tâches telles que le nettoyage, la normalisation et l'intégration des données, réduisant ainsi le besoin d'intervention manuelle. Non seulement cela rend le traitement des données plus efficace, mais cela contribue également à améliorer la précision des données.
L'intégration avec les outils de visualisation et de reporting des données accélère le processus de traduction des données en informations significatives. Beaucoup de ces outils offrent également l'avantage supplémentaire d'interfaces intuitives et de tableaux de bord personnalisables, qui permettent une compréhension plus rapide des modèles et des tendances des données.
La maintenance de grands volumes de données peut être coûteuse, mais les piles de données modernes peuvent aider à réduire les coûts opérationnels dans les organisations. Étant basées sur le cloud, il n'est pas nécessaire d'investir dans du matériel ou une infrastructure compliquée. En plus de réduire le montant de l'investissement initial requis, cela réduit également les coûts de maintenance et d'exploitation sur la durée de vie de la pile de données.
De nombreuses entreprises de piles de données modernes SaaS proposent une tarification basée sur la consommation, ce qui permet aux organisations de ne payer que pour les services qu'elles utilisent. Les services proposés sur un modèle de paiement à l'utilisation ne doivent être payés que lorsqu'ils sont activement utilisés, ce qui minimise les coûts pendant les périodes de faible ou d'aucune utilisation.
Les piles de données modernes optimisent également en permanence l'utilisation des ressources en automatisant le traitement des données, en minimisant les temps d'arrêt et en améliorant l'efficacité globale des pipelines de données. Tout cela se traduit par des ressources utilisées plus efficacement, ce qui réduit le temps d'inactivité et ses coûts associés.
En dehors de la pile elle-même, les capacités avancées d'analyse et de ML disponibles peuvent aider les utilisateurs à identifier les opportunités de réduction des coûts. En prévoyant la demande, en optimisant les ressources et en identifiant de manière proactive les opportunités de réduction des coûts, une organisation peut prendre le contrôle total de ses budgets.
Une pile de données moderne peut même jouer un rôle dans la minimisation des risques et des coûts associés aux violations de données. En mettant en œuvre des mesures de gouvernance des données robustes, les risques de violations de données sont réduits, tout comme les cas de non-conformité réglementaire. Cela aide les organisations à éviter les pénalités ou les problèmes juridiques associés à la non-conformité, ce qui contribue davantage aux économies.
La culture des données est un terme qui fait référence aux comportements, attitudes et pratiques au sein d'une organisation concernant ses données. Elle peut englober tout, des croyances et habitudes entourant la prise de décision basée sur les données à la valeur accordée aux données. Elle couvre également l'intégration globale des données dans les opérations quotidiennes et les processus de décision d'une organisation.
Une pile de données moderne peut aider à révolutionner la culture des données au sein d'une organisation.
Pour commencer, les outils de la pile de données moderne sont conçus pour être faciles à utiliser. Cela rend les données plus accessibles aux employés de tous niveaux techniques. La flexibilité offerte signifie même que les utilisateurs ne sont pas limités à l'utilisation d'un seul outil particulier, mais peuvent choisir l'outil qui répond le mieux à leurs besoins et à leur niveau d'expertise.
Pendant ce temps, les mesures de gouvernance des données robustes incluses dans la pile de données moderne travaillent à établir la confiance dans la précision des données. En fournissant des données fiables et bien gérées, ces piles encouragent l'utilisation des données dans les processus de prise de décision. Cela crée une culture de confiance autour des données d'une organisation.
Une fois cette confiance établie, la flexibilité et l'évolutivité offertes peuvent commencer à briller - offrant aux utilisateurs des moyens d'expérimenter de nouvelles sources de données, de nouveaux outils d'analyse et de nouvelles méthodologies. Cela contribue à bâtir une culture d'innovation et d'exploration.
Les piles de données modernes peuvent même aider à favoriser une meilleure communication et collaboration entre les équipes. Les catalogues de données intégrés, la gestion des métadonnées et les fonctionnalités collaboratives incluses y contribuent. Chaque partie prenante peut avoir une compréhension commune des actifs de données, alignant ses efforts sur des objectifs commerciaux communs liés aux données.
Des organisations de diverses industries ont utilisé des piles de données modernes pour révolutionner leur approche des données. Voici quelques exemples:
AT&T est l'un des principaux fournisseurs de télécommunications opérant aux États-Unis aujourd'hui. Par le passé, ils s'appuyaient sur une architecture de données traditionnelle sur site. Cependant, à mesure que les types et la quantité de données qu'ils traitaient commençaient à se multiplier, il est vite devenu évident qu'ils avaient besoin d'une meilleure solution et ont ainsi migré leur ancienne architecture vers une pile de données moderne fournie par Databricks.
Cela les a aidés à obtenir les informations en temps réel et l'automatisation nécessaires pour optimiser la répartition de leurs techniciens. Désormais, ils peuvent faire correspondre les compétences de dépannage de leurs techniciens au problème client qui doit être résolu, ainsi qu'à l'emplacement de ce client. Ce sont trois points de données qui ne pouvaient tout simplement pas être unifiés avec leur ancien système.
Cette nouvelle approche automatisée de la répartition des techniciens a aidé AT&T à offrir une excellente expérience de service client, tout en réduisant simultanément les coûts opérationnels en diminuant le nombre de tentatives nécessaires pour résoudre un problème.
HSBC est l'une des plus grandes banques internationales, desservant plus de 39 millions de clients dans le monde. Avec une base de clients aussi importante, les limitations d'évolutivité étaient inévitables. Ou elles l'étaient - jusqu'à ce que HSBC adopte une pile de données moderne.
Désormais, ils peuvent adapter l'analyse des données et le ML selon leurs besoins, leur donnant ainsi le pouvoir de piloter une gamme de cas d'utilisation centrés sur le client, y compris la personnalisation, les recommandations, la science des réseaux et la détection de fraude. Et tout cela à une vitesse qui répond à leurs besoins commerciaux.
"Nous avons constaté des améliorations majeures dans la rapidité avec laquelle nos données sont disponibles pour l'analyse. Nous avons un certain nombre de tâches qui prenaient auparavant 6 heures et qui ne prennent maintenant que 6 secondes." — Alessio Basso, Architecte en chef, HSBC
Une pile de données moderne a permis à USPS de servir efficacement les clients à travers les États-Unis. Le passage à une architecture lakehouse basée sur le cloud leur permet de répondre rapidement aux nouveaux défis des données et offre de nouvelles opportunités d'innovation.
De plus, USPS OIG est désormais mieux positionné pour enquêter, auditer et rechercher les opérations et les programmes postaux. Cela les aide dans leur lutte contre la fraude, le gaspillage et les abus, garantissant l'efficacité et l'intégrité du service postal pour les années à venir.
Une architecture de pile de données moderne est la prochaine étape dans l'évolution de la pile de données. L'évolutivité, l'efficacité et la gouvernance améliorée qu'elle offre permettent aux entreprises de toutes les industries de réaliser pleinement la valeur de leurs données de manière efficace et sécurisée.
La plateforme d'intelligence de données Databricks est construite sur une architecture lakehouse qui combine les meilleurs aspects des lacs de données et des entrepôts de données pour fournir une pile de données moderne qui vous aidera à réduire les coûts, à augmenter la productivité et à accélérer la mise en œuvre de vos initiatives de données et d'IA.
Databricks a concentré ses efforts d'ingénierie sur l'intégration d'une large gamme d'améliorations logicielles et matérielles leaders de l'industrie afin de mettre en œuvre la toute première plateforme d'intelligence de données.
Notre approche capitalise sur les avancées informatiques du framework Apache Spark™ et les dernières technologies réseau, de stockage et de CPU pour fournir les performances dont les clients ont besoin pour simplifier leur architecture.
Ces innovations se combinent pour fournir une architecture unique capable de stocker et de traiter tous les ensembles de données d'une organisation et de prendre en charge une large gamme d'analyses pour des informations vitales.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
