Qu'est-ce que Hadoop ?

Un framework open-source avec HDFS pour le stockage distribué et MapReduce pour le traitement parallèle de volumes massifs de données sur des clusters matériels standard.

par Équipe Databricks

HDFS divise les fichiers en blocs de 128 Mo répliqués sur les DataNodes pour assurer la tolérance aux pannes. Le NameNode gère les métadonnées dans une architecture maître-esclave optimisée pour le modèle « écriture unique, lecture multiple ».
MapReduce divise les tâches en une phase de mappage (traitement parallèle) et une phase de réduction (agrégation). Il est cependant largement supplanté par Spark, qui offre de meilleures performances pour les algorithmes itératifs.
L'écosystème comprend Hive pour les requêtes de type SQL, HBase pour le stockage NoSQL, Pig pour la modélisation des flux de données, YARN pour la gestion des ressources et s'intègre à Spark pour l'analyse de données moderne.

Apache Hadoop est une plateforme logicielle open source conçue en Java. Elle gère le traitement et le stockage des données pour les applications Big Data. Elle fonctionne en répartissant les jobs d’analytique et de Big Data Hadoop sur les nœuds d’un cluster de calcul. Elle les décompose en charges de travail plus petites qui peuvent être exécutées en parallèle. Parmi les principaux avantages de Hadoop figurent l’évolutivité, la résilience et la flexibilité. Le système de fichiers distribués Hadoop (HDFS) assure la fiabilité et la résilience en répliquant n’importe quel nœud du cluster vers d’autres nœuds. Le but est de se protéger contre les défaillances matérielles ou logicielles. La flexibilité de Hadoop permet de stocker n’importe quel format de données, y compris des données structurées et non structurées.

Cependant, avec le temps, les architectures Hadoop présentent une liste de défis à relever. Hadoop peut en effet se révéler très complexe et exiger beaucoup de ressources et de compétences pour être installé, maintenu et mis à niveau de manière optimale. Quant aux calculs, ils nécessitent des lectures et des écritures répétées, ce qui peut s'avérer chronophage et inefficace.Enfin, la viabilité à long terme de Hadoop diminue progressivement en raison de la désertion des principaux fournisseurs et de la nécessité croissante de numérisation qui pousse les entreprises à reconsidérer leur lien avec cette plateforme. La meilleure solution pour moderniser votre plateforme de données est de migrer de Hadoop vers la plateforme Databricks Lakehouse. Pour en savoir plus sur les défis posés par Hadoop et la migration vers des plateformes de données modernes, consultez notre blog.

Qu’est-ce que la programmation Hadoop ?

Le framework Hadoop est principalement écrit en Java, mais certains codes natifs sont basés sur le C. De plus, les utilitaires en ligne de commande sont couramment conçus sous forme de scripts Shell. Dans Hadoop MapReduce, Java est le langage de programmation le plus couramment utilisé. Toutefois, le module Hadoop streaming donne la possibilité aux utilisateurs d’opter pour le langage de programmation qui leur convient le mieux pour la création des fonctions map et reduce.

Qu’est-ce qu’une base de données Hadoop ?

Hadoop n’est pas conçu pour servir de solution de stockage de données ou de gestion de bases de données relationnelles. En tant que framework open source, sa fonction est de traiter simultanément de grandes quantités de données en temps réel.

Les données sont stockées dans le système HDFS. Toutefois, étant considérées comme non structurées, elles ne peuvent pas être assimilées à une base de données relationnelle. Hadoop offre la possibilité de stocker des données sous une variété de formats : non structuré, semi-structuré ou structuré. Cette flexibilité permet aux entreprises de mieux traiter de grands volumes de données en fonction de leurs exigences commerciales, et bien plus encore.

Quel type de base de données est Hadoop ?

Techniquement, Hadoop n’est pas en soi un type de base de données tel que SQL ou RDBMS. Au contraire, Hadoop propose aux utilisateurs une plateforme de traitement conçue pour prendre en charge plusieurs types de bases de données.

Hadoop est un écosystème logiciel qui permet aux entreprises de traiter d’énormes volumes de données en un temps record. Pour y parvenir, Hadoop simplifie l’utilisation de processus simultanés à grande échelle. Des bases de données telles qu’Apache HBase peuvent être distribuées parmi les nœuds de clusters répartis dans des centaines, voire des milliers, de serveurs ordinaires.

Quand Hadoop a-t-il été inventé ?

Apache Hadoop a été conçu dans le but de satisfaire au besoin croissant de traitement de données massives et de génération rapide de résultats Web, au moment où les géants des moteurs de recherche tels que Yahoo et Google commençaient à gagner du terrain.

S'inspirant de MapReduce, modèle de programmation conçu par Google qui divise une application en petites fractions à exécuter sur différents nœuds, Doug Cutting et Mike Cafarella ont créé Hadoop en 2002, alors qu’ils travaillaient sur le projet Apache Nutch. Selon un article du New York Times, Doug a baptisé Hadoop en référence à l’éléphant en jouet de son fils.

Quelques années plus tard, Hadoop s’est détaché de Nutch. Nutch s’est concentré sur l’élément d’exploration du Web (web crawler) et Hadoop est devenu le composant de calcul et de traitement distribués. Doug Cutting a rejoint Yahoo en 2006. Deux ans plus tard, Yahoo a lancé Hadoop en tant que projet open source. L'Apache Software Foundation (ASF) a mis Hadoop à la disposition du public en novembre 2012 sous le nom d’Apache Hadoop.

Quel est l’impact de Hadoop ?

Hadoop a constitué une avancée importante dans le domaine du Big Data. En fait, il est considéré comme le fondement du data lake cloud moderne. Hadoop a rendu la puissance de calcul accessible à tous, permettant ainsi aux entreprises d’analyser et d’interroger des ensembles de Big Data de manière évolutive à l’aide d’un logiciel libre et open source, ainsi que d’un matériel bon marché et prêt à l'emploi.

Il s’agit d’une évolution importante, car elle offre une alternative viable aux solutions de data warehouse (DW) propriétaires et aux formats de données fermés qui, jusqu’alors, régnaient en maître.

L’introduction de Hadoop a permis aux organisations de bénéficier rapidement d’une capacité de stockage et de traitement de données massives, d’une puissance de calcul supérieure, d’une meilleure tolérance aux pannes, d’une gestion des données plus flexible, de coûts réduits par rapport aux entrepôts traditionnels et d’une grande évolutivité. Enfin, Hadoop a ouvert la voie à d’autres avancées dans le domaine de l’analytique Big Data, comme l’introduction d’Apache Spark.

À quoi sert Hadoop ?

Les cas d’usage de Hadoop sont presque infinis.

Vente au détail

Les grandes entreprises possèdent plus de données client que jamais. Toutefois, établir des connexions entre de grandes quantités de données apparemment non liées peut s'avérer ardu. Lorsque le détaillant britannique M&S a déployé Cloudera Enterprise, optimisé par Hadoop, les résultats ont été plus qu’impressionnants.

Cloudera utilise un support et des services basés sur Hadoop pour la gestion et le traitement des données. Peu de temps après avoir développé sa plateforme cloud, M&S a constaté qu’il pouvait exploiter efficacement ses données pour améliorer de manière significative l’analytique prédictive.

L'entreprise a pu optimiser l’exploitation de ses entrepôts en évitant les ruptures de stock lors des pics de demande « inattendus », ce qui lui a donné un avantage considérable sur la concurrence.

Finance

Hadoop est peut-être plus adapté au secteur financier qu’à tout autre secteur. Très tôt, le framework a été considéré comme le principal outil pour traiter les algorithmes avancés impliqués dans la modélisation des risques. C’est exactement le type de gestion des risques qui aurait permis d’éviter le désastre des swaps de crédit ayant conduit à la récession de 2008.

Les banques ont également compris que cette logique s’appliquait à la gestion des risques liés aux portefeuilles de clients. Aujourd’hui, il est courant que les institutions financières mettent en œuvre Hadoop pour mieux gérer la sécurité financière et la performance des actifs de leurs clients. JPMorgan Chase n’est qu’un exemple parmi les géants du secteur ayant recours à Hadoop pour gérer des quantités exponentiellement croissantes de données clients provenant du monde entier.

Santé

Qu’ils soient publics ou privés, les prestataires de soins de santé de toute taille gèrent d’énormes volumes de données et d’informations sur les patients. Les frameworks Hadoop permettent aux médecins, infirmiers et soignants d’accéder facilement aux informations dont ils ont besoin, au moment opportun. Ils facilitent également l’agrégation de données fournissant des insights exploitables. Cela peut s’appliquer à des questions de santé publique, mais aussi à l'amélioration des diagnostics et traitements, entre autres.

Les institutions universitaires et de recherche peuvent également tirer parti du framework Hadoop pour développer leurs projets. Prenons par exemple le domaine des maladies génétiques, dont le cancer fait partie. Le génome humain est cartographié et compte près de trois milliards de paires de bases au total. En théorie, nous avons sous les yeux tout ce qu’il faut pour guérir une grande diversité de maladies.

Mais pour traiter une telle quantité d'informations et identifier des relations complexes, des systèmes comme Hadoop sont nécessaires.

Sécurité et application de la loi

Hadoop peut également contribuer à améliorer l’efficacité de la sécurité locale et nationale. Lorsqu’il s’agit de résoudre des crimes connexes répartis sur plusieurs régions, le framework Hadoop peut simplifier le processus pour les forces de l’ordre en reliant deux événements apparemment isolés. En réduisant le temps nécessaire pour établir des liens entre deux affaires, les autorités peuvent lancer des alertes internes et prévenir le public le plus rapidement possible.

En 2013, la NSA (National Security Agency) a établi que la solution open source Hadoop affichait des performances supérieures à celles de solutions onéreuses déjà déployées. La NSA utilise désormais ce framework pour optimiser la détection des menaces terroristes ou cybercriminelles, et bien d’autres encore.

Comment fonctionne Hadoop ?

Hadoop est un framework qui permet de répartir des datasets géants sur un cluster de matériel ordinaire. Le traitement Hadoop est effectué en parallèle sur plusieurs serveurs simultanément.

Les clients soumettent des données et des programmes à Hadoop. En termes simples, HDFS (un composant central de Hadoop) gère les métadonnées et le système de fichiers distribués. Ensuite, Hadoop MapReduce traite et convertit les données d’entrée et de sortie. Enfin, YARN répartit les tâches sur l’ensemble du cluster.

Avec Hadoop, les organisations peuvent bénéficier d’une utilisation optimisée et efficace de leurs ressources, associée à une haute disponibilité et une détection intégrée des points de défaillance. En outre, les clients peuvent s'attendre à des temps de réponse rapides lorsqu'ils effectuent des requêtes avec des systèmes d'entreprise connectés.

Dans l’ensemble, Hadoop est une solution simple pour les organisations qui cherchent à optimiser l’utilisation du Big Data.

Dans quel langage Hadoop est-il écrit ?

Le framework Hadoop lui-même est principalement développé en Java. Les autres langages de programmation comprennent du code natif en C et des scripts Shell pour les lignes de commande. Toutefois, les programmes Hadoop peuvent être écrits dans de nombreux autres langages, notamment Python ou C++. Les développeurs ont ainsi la possibilité de travailler avec les outils qui leur sont les plus familiers.

Comment utiliser Hadoop ?

Comme nous l’avons évoqué, Hadoop constitue une solution simple pour les organisations ayant besoin de gérer des Big Data. Mais cela ne veut pas dire qu’il est toujours simple à utiliser. Comme les cas d’usage ci-dessus nous le montrent, la façon dont vous choisissez de mettre en œuvre le framework Hadoop est assez flexible.

La manière dont vos analystes métier, vos data scientists et vos développeurs décident d’utiliser Hadoop dépend de votre organisation et de ses objectifs.

Hadoop ne convient pas à toutes les entreprises, mais beaucoup auraient tout à intérêt à réévaluer leurs relations avec Hadoop. Si votre entreprise traite de grandes quantités de données dans le cadre de ses processus « cœur de métier », Hadoop apporte une réponse flexible, évolutive et abordable à ses besoins. À partir de là, tout dépend de votre imagination et de vos capacités techniques, ainsi que de celles de votre équipe.

Exemple de solutions de requête pour Hadoop

Voici quelques solutions permettant d’exécuter des requêtes dans l’environnement Hadoop ;

Apache Hive

Apache Hive a été la première solution pour effectuer des requêtes SQL avec Hadoop. Ce module émule le comportement, la syntaxe et l’interface de MySQL pour simplifier la programmation. C’est une excellente option si vous utilisez déjà beaucoup d’applications Java, car elle est livrée avec une API Java intégrée et des pilotes JDBC. Hive offre une solution efficace aux développeurs, bien qu'elle souffre de certaines lenteurs et uniquement de capacités de lecture seule.

IBM BigSQL

Cette offre d’IBM est un moteur SQL de traitement massivement parallèle (MPP) haute performance pour Hadoop. Sa solution de requête s’adresse aux entreprises ayant besoin de facilité dans un environnement stable et sécurisé. Outre l’accès aux données HDFS, elle peut également tirer parti de RDBMS, de bases de données NoSQL, de WebHDFS et d’autres sources de données.

Qu’est-ce que l’écosystème Hadoop ?

Le terme Hadoop est un nom général qui peut faire référence à l’un des éléments suivants :

L’écosystème Hadoop dans son ensemble, qui englobe à la fois les modules de base et les sous-modules associés.
Les modules de base de Hadoop, notamment HDFS (Système de fichiers distribués Hadoop), YARN (Yet Another Resource Negotiator), MapReduce et Hadoop Common (voir ci-dessous). Ce sont les éléments de base d’un déploiement classique d’Hadoop.
Les sous-modules liés à Hadoop comprennent, entre autres, Apache Hive, Apache Impala, Apache Pig, Apache Zookeeper et Apache Flume. Ces solutions connexes peuvent être utilisées pour personnaliser, améliorer ou étendre les fonctionnalités du noyau Hadoop.

Quels sont les modules de base de Hadoop ?

HDFS (Système de fichiers distribués Hadoop) : HDFS est un système développé en Java qui permet de stocker de grands datasets entre les nœuds d’un cluster de manière tolérante aux pannes.
YARN (Yet Another Resource Negotiator) : YARN est utilisé pour la gestion des ressources du cluster, la planification des tâches et l’ordonnancement des jobs qui s’exécutent sur Hadoop.
MapReduce : MapReduce est à la fois un modèle de programmation et un moteur de traitement Big Data. Il est utilisé pour le traitement parallèle de grands datasets. À l’origine, MapReduce était le seul moteur d’exécution disponible dans Hadoop. Mais, par la suite, Hadoop a pris en charge d’autres moteurs, notamment Apache Tez et Apache Spark.
Hadoop Common : à travers des bibliothèques et des utilitaires, Hadoop Common fournit un ensemble de services pour soutenir les autres modules Hadoop.

Quels sont les composants de l’écosystème Hadoop ?

L’écosystème Hadoop se compose de plusieurs éléments fondamentaux.

HDFS

Le système de fichiers distribués Hadoop est le point de départ et d’arrivée du stockage des données. Ce composant gère de grands datasets dans différents nœuds de données structurées et non structurées. Dans le même temps, il conserve les métadonnées sous la forme de fichiers de logs. Il existe deux composants secondaires du HDFS : NameNode et DataNode.

NameNode

NameNode est le démon principal (master daemon) de Hadoop HDFS. Ce composant maintient l’espace de noms du système de fichiers et régule l’accès des clients à ces fichiers. Il est également connu sous le nom de nœud principal et stocke des métadonnées telles que le nombre de blocs et leur emplacement. Il se compose principalement de fichiers et de répertoires et exécute les opérations du système de fichiers telles que l’attribution de noms, la fermeture et l’ouverture de fichiers.

DataNode

Le deuxième composant, du nom de DataNode, est le démon esclave (slave Daemon). Ce composant HDFS stocke les données ou blocs réels en exécutant les fonctions de lecture et d’écriture demandées par le client. Cela signifie que DataNode est également responsable de la création, de la suppression et de la réplication des réplicas, conformément aux instructions du NameNode principal.

DataNode se compose de deux fichiers système, l’un pour les données et l’autre pour l’enregistrement des métadonnées des blocs. Au démarrage d’une application, les démons maître et esclave vérifient l’espace de noms et la version du logiciel. Toute incohérence entraîne automatiquement l’arrêt du DataNode.

MapReduce

Hadoop MapReduce est le composant de traitement central de l’écosystème Hadoop. Il fournit un framework très pratique pour l’écriture d’applications lorsqu’il s’agit de traiter des quantités massives de données structurées et non structurées. Pour ce faire, il facilite le traitement parallèle des données sur différents nœuds sur du matériel classique.

MapReduce gère la planification des jobs à partir du client. Les tâches demandées par l’utilisateur sont divisées en tâches et processus indépendants. Ensuite, ces jobs MapReduce sont subdivisés en sous-tâches et distribués à travers les clusters et les nœuds des serveurs classiques.

Cela se fait en deux phases : la phase Map et la phase Reduce. Au cours de la phase Map, le dataset est converti en un autre dataset décomposé en paires clé/valeur. Ensuite, la phase Reduce convertit la sortie selon les critères du développeur à l’aide de la classe InputFormat.

Les développeurs spécifient deux fonctions principales dans MapReduce. La fonction Map est la logique de traitement des données. La fonction Reduce produit un résumé et un agrégat des données intermédiaires issues de la fonction Map, produisant ainsi la sortie finale.

YARN

En termes simples, on peut voir Hadoop YARN comme une version améliorée et plus récente de MapReduce. Toutefois, cette vision est incomplète car YARN prend également en charge la planification, l’exécution et le traitement de séquences de jobs. En réalité, YARN constitue la couche de gestion des ressources de Hadoop, où chaque tâche s’exécute sur les données en tant qu’application Java indépendante.

YARN fonctionne comme le système d’exploitation du framework, offrant ainsi la capacité de traiter par batch et de gérer les données sur une même plateforme. Allant bien au-delà des capacités de MapReduce, YARN permet aux développeurs de créer des applications de streaming interactives et en temps réel.

YARN permet aux programmeurs d’exécuter autant d’applications que nécessaire sur le même cluster. Il fournit une base sûre et stable pour la gestion opérationnelle et le partage des ressources du système, pour une efficacité et une flexibilité maximales.

Quels sont les exemples de solutions populaires liées à Hadoop ?

Il existe d’autres packages populaires qui ne font pas strictement partie des modules Hadoop de base, mais qui sont fréquemment utilisés avec eux :

Apache Hive est une solution de data warehouse fonctionnant sur Hadoop. Elle permet aux utilisateurs de travailler avec des données dans HDFS à l’aide d’un langage de requêtage de type SQL appelé HiveQL.
Apache Impala est la base de données analytique native open source pour Apache Hadoop.
Apache Pig est un outil généralement utilisé avec Hadoop en tant qu’abstraction au-dessus de MapReduce. Il sert à analyser de grands ensembles de données représentés sous forme de flux de données. Pig permet d’effectuer des opérations telles que la jointure, le filtrage, le tri et le chargement.
Apache Zookeeper est un service centralisé permettant un traitement distribué extrêmement fiable.
Apache Sqoop est un outil conçu pour transférer efficacement des données en vrac entre Apache Hadoop et des bases de données structurées telles que les bases de données relationnelles.
Apache Oozie est un système de planification de flux de travail pour gérer les jobs d’Apache Hadoop. Les jobs de workflow d’Oozie sont des graphes orientés acycliques (DAG) d’actions.

Vous souhaitez en savoir plus ? Découvrez plus en détail l’écosystème Hadoop.

Comment utiliser Hadoop pour l’analytique ?

En fonction des sources de données et des besoins de votre entreprise, il existe trois façons principales d’utiliser le framework Hadoop pour l’analytique.

Le déployer dans le ou les datacenters de votre entreprise

Il s’agit souvent d’une option efficace en termes de temps et de budget pour les entreprises qui disposent des ressources nécessaires. Dans le cas contraire, la mise en place de l’équipement technique et du personnel informatique requis peut dépasser les ressources financières et humaines existantes. Cette option permet aux entreprises de mieux contrôler la sécurité et la confidentialité des données.

Opter pour le cloud

Les entreprises qui souhaitent bénéficier d’une mise en œuvre beaucoup plus rapide, de coûts de départ plus abordables ainsi que de faibles exigences de maintenance opteront pour des services cloud. Avec un fournisseur cloud, les données et les opérations d’analytique sont exécutées sur du matériel standard qui se trouve dans le cloud. Ces services simplifient le traitement Big Data et sont bon marché, mais ils présentent également certains inconvénients.

Premièrement, tout service accessible sur l’Internet public est vulnérable aux cyberattaques. Deuxièmement, les interruptions de service provenant d'Internet ou du fournisseur d’accès peuvent entraîner des dysfonctionnements critiques dans les systèmes de votre entreprise. Pour les utilisateurs actuels du framework, il peut s’agir d’une migration de Hadoop vers l’architecture Lakehow.

Fournisseurs on-premise

Les entreprises qui optent pour de meilleurs niveaux de disponibilité, de confidentialité et de sécurité trouveront ces trois éléments auprès d’un fournisseur Hadoop on-premise. Ces fournisseurs offrent le meilleur des deux mondes. Ils peuvent simplifier le processus en fournissant l’ensemble des équipements, des solutions et des services. Mais comme l’infrastructure est on-premise, vous bénéficiez de tous les avantages que les grandes entreprises retirent de leurs datacenters.

Quels sont les avantages de Hadoop ?

Évolutivité : contrairement aux systèmes classiques qui limitent le stockage des données, Hadoop fonctionne dans un environnement distribué. Il est donc évolutif. Cela a permis aux architectes de données de construire les premiers data lakes sur Hadoop. Découvrez l’histoire et l’évolution des data lakes.
Résilience : le système de fichiers distribués Hadoop (HDFS) est fondamentalement résilient. Les données stockées sur n’importe quel nœud d’un cluster Hadoop sont également répliquées sur d’autres nœuds, afin de parer à toute défaillance matérielle ou logicielle. Cette conception intentionnellement redondante garantit la tolérance aux pannes. Si un nœud tombe en panne, une sauvegarde des données est toujours disponible dans le cluster.
Flexibilité : contrairement aux systèmes de gestion de bases de données relationnelles, Hadoop permet de stocker des données dans n’importe quel format, notamment semi-structuré ou non structuré. Hadoop permet aux entreprises d’accéder facilement à de nouvelles sources de données et d’exploiter différents types de données.

Quels sont les défis posés par les architectures Hadoop ?

Complexité : Hadoop est un framework de bas niveau, basé sur Java, qui peut parfois être trop complexe et difficile à utiliser pour les utilisateurs finaux. Les architectures Hadoop peuvent également nécessiter une expertise et des ressources importantes pour leur mise en place, leur maintenance et leur mise à niveau.
Performance : Hadoop utilise des lectures et des écritures fréquentes sur disque pour effectuer des calculs. Cela peut être chronophage et inefficace par rapport aux frameworks visant à stocker et traiter les données en mémoire autant que possible, comme Apache Spark.
Viabilité à long terme : en 2019, le monde a assisté à un effondrement massif de la sphère Hadoop. Google, dont l’article fondateur de 2004 sur MapReduce a sous-tendu la création d’Apache Hadoop, a cessé d’utiliser MapReduce, comme l’a tweeté Urs Hölzle, vice-président de l’infrastructure technique de Google. Des fusions et acquisitions très médiatisées ont également eu lieu dans le monde Hadoop. En outre, en 2020, l’un des principaux fournisseurs de Hadoop a modifié sa gamme de produits pour ne plus être centré sur lui, le considérant désormais « davantage comme une philosophie qu’une technologie ». Enfin, 2021 a été une année de changements intéressants. En avril 2021, Apache Software Foundation a annoncé le retrait de dix projets de l’écosystème Hadoop. Puis en juin 2021, Cloudera a accepté de se privatiser. On ignore encore les répercussions de cette décision sur les utilisateurs de Hadoop. Cet ensemble croissant de préoccupations, associé au besoin accéléré de numérisation, a encouragé de nombreuses entreprises à réévaluer leur relation avec Hadoop.

Quelles sont les entreprises qui utilisent Hadoop ?

L’adoption de Hadoop est en train de devenir la norme pour les multinationales et les entreprises prospères. Voici une liste des entreprises qui utilisent Hadoop aujourd’hui :

Adobe : le fournisseur de logiciels et de services utilise Apache Hadoop et HBase pour le stockage des données et d’autres services.
eBay : utilise le framework pour l’optimisation des moteurs de recherche et la recherche.
A9 : cette filiale d’Amazon est responsable des technologies liées aux moteurs de recherche et à la publicité liée aux recherches.
LinkedIn : faisant partie des réseaux sociaux professionnels les plus populaires, l’entreprise utilise de nombreux modules Apache, notamment Hadoop, Hive, Kafka, Avro et DataFu.
Spotify : le mastodonte suédois du streaming musical a recours au framework Hadoop pour l’analytique et le reporting, mais également pour créer du contenu et proposer des recommandations d’écoute personnalisées.
Facebook : le leader des médias sociaux entretient le plus grand cluster Hadoop au monde, avec un ensemble de données qui croît d’un demi-pétaoctet par jour.
InMobi : la plateforme de marketing mobile utilise HDFS et Apache Pig/MRUnit pour des tâches d’analytique, de data science et de machine learning.

Combien coûte Hadoop ?

Le framework Hadoop lui-même est une application open source basée sur Java. Cela signifie que, contrairement à d’autres solutions de Big Data, il est gratuit. Bien entendu, le coût du logiciel de base requis dépend de la dimension du projet.

En ce qui concerne les services qui mettent en œuvre les frameworks Hadoop, vous avez plusieurs options de tarification :

par nœud (le plus courant) ;
par téraoctet (To) ;
produit freemium avec ou sans support technique sur abonnement ;
offre tout-en-un comprenant l’ensemble du matériel et des solutions ;
service cloud avec ses propres options de tarification. Vous pouvez payer pour ce dont vous avez besoin ou payer au fur et à mesure de votre utilisation.

Pour en savoir plus sur les défis posés par Hadoop et le passage à des plateformes de données modernes, consultez notre blog.

Ressources complémentaires

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.

Voir tous les blogs