Apache Spark™

Apache Spark ist eine blitzschnelle Unified-Analytics-Engine, mit der die Arbeit mit Big Data und Machine Learning wesentlich erleichtert wird. Das Framework der Engine wurde 2009 an der UC Berkeley entwickelt.

Das größte Open-Source-Projekt in der Geschichte der Datenverarbeitung

Seit ihrer Freigabe hat die Unified-Analytics-Engine Apache Spark Einzug in Unternehmen der unterschiedlichsten Branchen gehalten. Online-Riesen, wie Netflix, Yahoo und eBay, haben Spark in massivem Umfang eingesetzt. Gemeinschaftlich haben sie bereits mehrere Petabyte an Daten auf Clustern mit mehr als 8.000 Knoten verarbeitet. Rasch hat sich das Projekt zur größten Open-Source-Community im Big Data-Bereich entwickelt – mit über 1.000 aktiv beitragenden Entwicklern aus mehr als 250 Unternehmen und Organisationen.

Dasselbe Team, dass das Forschungsprojekt ursprünglich ins Leben gerufen hatte, gründete 2013 Databricks.

Apache Spark ist zu 100 Prozent Open Source. Gehostet wird es bei der anbieterunabhängigen Apache Software Foundation. Databricks setzt sich für die Aufrechterhaltung dieses offenen Entwicklungsmodells ein. Gemeinsam mit der Spark-Community leistet Databricks deshalb auch weiterhin einen großen Beitrag zum Apache Spark-Projekt.

Video ansehen

What is Apache Spark - Benefits of Apache Spark

Speed

Engineered from the bottom-up for performance, Spark can be 100x faster than Hadoop for large scale data processing by exploiting in memory computing and other optimizations. Spark is also fast when data is stored on disk, and currently holds the world record for large-scale on-disk sorting.

Ease of Use

Spark has easy-to-use APIs for operating on large datasets. This includes a collection of over 100 operators for transforming data and familiar data frame APIs for manipulating semi-structured data.

A Unified Engine

Spark comes packaged with higher-level libraries, including support for SQL queries, streaming data, machine learning and graph processing. These standard libraries increase developer productivity and can be seamlessly combined to create complex workflows.

Testen Sie Apache Spark kostenlos in der Databricks-Cloud

Die Databricks Unified Analytics-Plattform bietet die 5-fache Performance der Open Source-Variante von Spark, gemeinschaftlich nutzbare Notebooks, integrierte Workflows und Sicherheit auf Enterprise-Niveau – dies alles, auf einer vollständig verwalteten Cloud-Plattform.

Databricks testen

Das Apache Spark-Projekt (Open Source) kann hier heruntergeladen werden.