Direkt zum Hauptinhalt

Was ist Hosted Spark?

Einheitliche Datenplattform mit REST-API-Zugriff auf Spark-Cluster für Remote-Anwendungen, die interaktive und Batch-Datenexploration in mehreren Sprachen ermöglicht

4 Personas Analytics AIBI 6

Summary

  • Unterstützt interaktive Scala-, Python- und R-Shells sowie Batch-Verarbeitung in Scala, Java und Python über REST-APIs. Dadurch können mehrere Benutzer Server gemeinsam nutzen und Jobs von überall aus ohne Codeänderungen einreichen.
  • Ermöglicht die nahtlose Interaktion zwischen Spark und Anwendungsservern und optimiert die Architektur interaktiver Web- und Mobilanwendungen durch Dienste, die Remote-Anwendungen effizient mit Spark-Clustern verbinden.
  • Bietet leistungsstarke APIs für verschiedene Programmiersprachen mit einer optimierten Engine, die allgemeine Berechnungsgraphen sowie Spark SQL, MLlib Machine Learning, GraphX-Graphverarbeitung und Spark Streaming für umfassende Datenanalysen unterstützt.

Was ist Hosted Spark?

Apache Spark ist ein schnelles und universelles Cluster-Computing-System für Big Data, das auf Geschwindigkeit, Benutzerfreundlichkeit und fortschrittliche Analysen ausgelegt ist und ursprünglich 2009 an der University of California, Berkeley entwickelt wurde. Spark implementiert hochwertige APIs für Scala, Java, Python und R sowie eine optimierte Engine, die allgemeine Berechnungsgraphen für die Datenanalyse unterstützt. Außerdem werden verschiedene weitere Tools wie Spark SQL für SQL und DataFrames, MLlib für maschinelles Lernen, GraphX für die Graphverarbeitung und Spark Streaming für die Stream-Verarbeitung unterstützt.

Spark bietet zwei Modi für die Datenexploration:

  • Interaktiv
  • Batch

Spark-Erkundungsmodi Zur Vereinfachung der Interaktion mit den Endbenutzern ist Spark auch auf einer einheitlichen gehosteten Datenplattform für Unternehmen erhältlich.Da es keinen direkten Zugriff auf Spark-Ressourcen durch Remote-Anwendungen gibt, mussten Benutzer bislang einen längeren Weg bis zur Produktion in Kauf nehmen. Zur Überwindung dieses Hindernisses wurden Dienste entwickelt, mit denen Remote-Anwendungen über eine REST-API ortsunabhängig eine effiziente Verbindung mit einem Spark-Cluster herstellen können. Diese Schnittstellen unterstützen die Ausführung von Codefragmenten oder Programmen in einem Spark-Kontext, der lokal oder in Apache Hadoop YARN läuft. Hosted Spark-Schnittstellen haben sich als gebrauchsfertige Lösungen bewährt, da sie die Interaktion zwischen Spark und Anwendungsservern erleichtern und die für interaktive Web- und Mobilanwendungen erforderliche Architektur optimieren.

5-FACHER LEADER

Gartner®: Databricks als Leader für Cloud-Datenbanken

Funktionen von Hosted Spark-Diensten:

  • Interaktive Anbindung an Scala, Python und R
  • Batch-Verarbeitung in Scala, Java und Python
  • Gleichzeitige Nutzung desselben Servers durch mehrere Benutzer
  • Ortsunabhängige Übermittlung von Jobs über REST
  • Keine Codeänderungen an Ihren Programmen erforderlich

Unternehmen können die vormaligen Engpässe, die sie an einer Operationalisierung von Spark gehindert haben, nun problemlos überwinden und stattdessen die von Big Data versprochene Wertschöpfung in Angriff nehmen.

Zusätzliche Ressourcen

Verpassen Sie keinen Beitrag von Databricks

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.