Apache Spark ist ein schnelles und universelles Cluster-Computing-System für Big Data, das auf Geschwindigkeit, Benutzerfreundlichkeit und fortschrittliche Analysen ausgelegt ist und ursprünglich 2009 an der University of California, Berkeley entwickelt wurde. Spark implementiert hochwertige APIs für Scala, Java, Python und R sowie eine optimierte Engine, die allgemeine Berechnungsgraphen für die Datenanalyse unterstützt. Außerdem werden verschiedene weitere Tools wie Spark SQL für SQL und DataFrames, MLlib für maschinelles Lernen, GraphX für die Graphverarbeitung und Spark Streaming für die Stream-Verarbeitung unterstützt.
Zur Vereinfachung der Interaktion mit den Endbenutzern ist Spark auch auf einer einheitlichen gehosteten Datenplattform für Unternehmen erhältlich.Da es keinen direkten Zugriff auf Spark-Ressourcen durch Remote-Anwendungen gibt, mussten Benutzer bislang einen längeren Weg bis zur Produktion in Kauf nehmen. Zur Überwindung dieses Hindernisses wurden Dienste entwickelt, mit denen Remote-Anwendungen über eine REST-API ortsunabhängig eine effiziente Verbindung mit einem Spark-Cluster herstellen können. Diese Schnittstellen unterstützen die Ausführung von Codefragmenten oder Programmen in einem Spark-Kontext, der lokal oder in Apache Hadoop YARN läuft. Hosted Spark-Schnittstellen haben sich als gebrauchsfertige Lösungen bewährt, da sie die Interaktion zwischen Spark und Anwendungsservern erleichtern und die für interaktive Web- und Mobilanwendungen erforderliche Architektur optimieren.
Unternehmen können die vormaligen Engpässe, die sie an einer Operationalisierung von Spark gehindert haben, nun problemlos überwinden und stattdessen die von Big Data versprochene Wertschöpfung in Angriff nehmen.
