Modèle de programmation pour le traitement parallèle de grands ensembles de données via les phases map et reduce, fondamental pour l'écosystème Hadoop pour les charges de travail par lots.
La phase de mappage traite les données d'entrée en parallèle sur les nœuds du cluster, en appliquant une fonction de mappage définie par l'utilisateur pour transformer les paires clé-valeur et émettre des résultats intermédiaires triés et partitionnés pour la phase de réduction.
La phase de réduction agrège les résultats intermédiaires partageant la même clé grâce à une fonction de réduction définie par l'utilisateur, produisant ainsi la sortie finale avec des optimisations intégrées de tri, de mélange et de combinaison minimisant les transferts réseau.
Le framework gère la tolérance aux pannes grâce à la réexécution des tâches en cas d'échec, au partitionnement automatique des données et à la coordination des tâches via JobTracker/TaskTracker (Hadoop 1.x) ou YARN ResourceManager (Hadoop 2.x+) pour le traitement par lots distribué.
Qu’est-ce que MapReduce ?
MapReduce est un framework d'exécution distribué en Java au sein de l'