Cluster Hadoop
Cos'è un cluster Hadoop?
Apache Hadoop è un framework software e un motore di elaborazione parallela open-source basato su Java. Consente di suddividere le attività di analisi dei Big Data in attività più piccole che possono essere eseguite in parallelo utilizzando un algoritmo (come l'algoritmo MapReduce) e distribuendole su un cluster Hadoop. Un cluster Hadoop è un insieme di computer, chiamati "nodi", collegati in rete per eseguire questo tipo di calcoli paralleli su set di Big Data. A differenza di altri cluster di computer, i cluster Hadoop sono progettati specificamente per archiviare e analizzare quantità enormi di dati strutturati e non strutturati in un ambiente di calcolo distribuito. Gli ecosistemi Hadoop si distinguono da altri cluster di computer anche per la loro struttura e architettura uniche. I cluster Hadoop consistono in una rete di nodi master e slave collegati tra loro che utilizzano hardware commerciali ad alta disponibilità e a basso costo. La capacità di scalare linearmente e di aggiungere o sottrarre rapidamente nodi in base ai volumi da gestire li rende adatti all'analisi di Big Data con set di dati di dimensioni molto variabili.
Ecco altre informazioni utili