
Als Big Data Analytics bezeichnet man den oft komplexen Prozess der Untersuchung großer und heterogener Datensets: die so genannten „Big Data“. Sie stammen aus verschiedenen Quellen wie dem E-Commerce, mobilen Geräten, den sozialen Medien und dem Internet der Dinge (IoT). Der Vorgang umfasst die Einbindung verschiedener Datenquellen, die Umwandlung unstrukturierter in strukturierte Daten und die Gewinnung von Erkenntnissen aus diesen Daten mithilfe spezialisierter Tools und Verfahren, die die Datenverarbeitung auf ein ganzes Netzwerk verteilen.
Die Menge an digitalen Daten wächst rasant und verdoppelt sich etwa alle zwei Jahre. Big Data Analytics bieten einen anderen Ansatz für die Verwaltung und Analyse all dieser Datenquellen. Zwar gelten die Prinzipien der traditionellen Datenanalyse im Allgemeinen weiterhin, doch Umfang und Komplexität von Big Data Analytics erforderten die Entwicklung neuartiger Methoden zur Speicherung und Verarbeitung strukturierter und unstrukturierter Daten im Petabyte-Bereich.
Die Nachfrage nach höheren Geschwindigkeiten und größeren Speicherkapazitäten schuf ein technologisches Vakuum, das bald durch Ansätze gefüllt wurde, darunter:
Big Data Analytics nutzt fortschrittliche Verfahren zur Analyse enorm großer Datenmengen, die strukturierte, halbstrukturierte und unstrukturierte Daten aus verschiedenen Quellen und in unterschiedlichen Volumina vom Terabyte- bis zum Zettabyte-Bereich umfassen.
Vor der Erfindung von Hadoop waren die Technologien, die den modernen Speicher- und Rechensystemen zugrunde liegen, relativ schlicht. Daher waren die Unternehmen meist auf die Analyse von „Small Data“ (also kleinen Datenbeständen) beschränkt. Auch diese Form der Analytics kann schwierig sein, insbesondere die Integration neuer Datenquellen. Bei der herkömmlichen Datenanalyse, die auf relationalen Datenbanken mit strukturierten Daten basiert, muss jedes Byte Rohdaten auf eine bestimmte Weise formatiert werden, bevor es zur Analyse in die Datenbank aufgenommen werden kann. Dieser oft langwierige Prozess, der gemeinhin als „Extract, Transform, Load“ (kurz „ETL”) bezeichnet wird, ist für jede neue Datenquelle erforderlich. Das Hauptproblem dieses dreiteiligen Prozesses und Ansatzes besteht darin, dass er äußerst zeit- und arbeitsintensiv ist und Data Scientists und Engineers manchmal bis zu 18 Monate brauchen, um ihn umzusetzen oder zu ändern.
Waren die Daten jedoch erst einmal in der Datenbank, dann war es für Datenanalysten in den meisten Fällen ein Leichtes, sie abzufragen und zu analysieren. Doch dann kamen Internet, E-Commerce, soziale Medien, mobile Geräte, Marketingautomatisierung, das Internet der Dinge (IoT) usw. auf, und Größe, Volumen und Komplexität der Rohdaten wurden für alle außer eine Handvoll Institutionen einfach zu groß, um sie im Rahmen des normalen Geschäftsbetriebs zu analysieren.
Big Data Analytics hilft Unternehmen dabei, ihre Daten zu nutzen und fortschrittliche Data-Science-Verfahren und -Methoden wie z. B. die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), Deep Learning und maschinelles Lernen einzusetzen, um verborgene Muster, unbekannte Zusammenhänge, Markttrends und Kundenvorlieben aufzuspüren und so neue Chancen zu erkennen und fundiertere Geschäftsentscheidungen zu treffen.
