
Per analisi dei Big Data si intende il processo, spesso complesso, con cui si esaminano set di dati grandi e variegati (detti appunto Big Data), generati dalle sorgenti più svariate, come commercio elettronico, dispositivi mobili, social media e Internet of Things (IoT). Questo processo richiede di integrare diverse sorgenti di dati, trasformare dati non strutturati in dati strutturati e ricavare informazioni dettagliate dai dati utilizzando strumenti e tecniche specifiche che estendono l'elaborazione dei dati a un'intera rete.
La quantità di dati digitali è in rapida crescita e raddoppia circa ogni due anni. L'analisi dei Big Data offre un approccio diverso per la gestione e l'analisi di tutte queste sorgenti di dati. In linea generale valgono ancora i principi dell'analisi dei dati tradizionale, ma l'entità e la complessità dell'analisi dei Big Data ha richiesto lo sviluppo di nuove modalità per immagazzinare ed elaborare petabyte di dati strutturati e non.
La domanda di velocità maggiori e capacità di archiviazione più elevate ha creato un vuoto tecnologico che è stato presto colmato da approcci, tra cui:
L'analisi dei Big Data sfrutta tecniche avanzate per analizzare set di dati veramente grandi che comprendono dati strutturati, semi-strutturati e non strutturati, provenienti da varie sorgenti, e in quantità variabili da terabyte a zettabyte.
Prima dell'invenzione di Hadoop, le tecnologie alla base dei moderni sistemi di storage e calcolo erano relativamente semplici e, di conseguenza, le aziende si dovevano limitare prevalentemente all'analisi di piccole quantità di dati. Anche questa forma di analitiche potrebbe essere difficile, soprattutto l'integrazione di nuove sorgenti di dati. Con le analitiche dei dati tradizionali, che si basa su database relazionali di dati strutturati, ogni byte di dati grezzi deve essere formattato in un modo specifico prima di poter essere inserito nel database per l'analisi. Questo processo spesso lungo, comunemente noto come Extract, Transform, Load (ETL), è necessario per ogni nuova sorgente di dati. Il problema principale di questo processo in tre fasi è che richiede tempi incredibilmente lunghi e molta manodopera, a volte occupando data scientist e data engineer per periodi fino a 18 mesi per implementazioni o modifiche.
Una volta che i dati venivano inseriti nel database, nella maggior parte dei casi gli analisti faticavano comunque a effettuare interrogazioni e analisi. Poi sono arrivati Internet, l'e-commerce, i social media, i dispositivi mobili, l'automazione del marketing, l'Internet of Things (IoT) ecc., e le dimensioni, il volume e la complessità dei dati grezzi sono diventati ingestibili per chiunque, tranne per poche organizzazioni.
L'analisi dei Big Data consente alle organizzazioni di sfruttare i loro dati e tecniche e metodologie avanzate di data science, come l'elaborazione del linguaggio naturale (NPL), il deep learning e il machine learning, scoprendo schemi nascosti, correlazioni ignote, tendenze di mercato e preferenze dei clienti, per individuare nuove opportunità e prendere decisioni più informate.
