Revenir au contenu principal

Qu'est-ce que Spark hébergé ?

Plateforme de données unifiée avec accès API REST aux clusters Spark pour les applications distantes, permettant l'exploration interactive et par lots des données dans plusieurs langues

4 Personas Analytics AIBI 6

Summary

  • Prend en charge les shells interactifs Scala, Python et R, ainsi que les soumissions par lots en Scala, Java et Python via des API REST, permettant à plusieurs utilisateurs de partager des serveurs et de soumettre des tâches depuis n'importe où sans modification de code.
  • Facilite l'interaction simplifiée entre Spark et les serveurs d'applications, rationalisant l'architecture requise par les applications web et mobiles interactives grâce à des services connectant efficacement les applications distantes aux clusters Spark.
  • Fournit des API de haut niveau multilangages avec un moteur optimisé prenant en charge les graphes de calcul généraux, ainsi que Spark SQL, l'apprentissage automatique MLlib, le traitement de graphes GraphX ​​et Spark Streaming pour une analyse de données complète.

Qu'est-ce que Spark hébergé ?

Développé en 2009 à l'Université de Californie à Berkeley, Apache Spark est un système de calcul en cluster rapide et généraliste. Il est conçu pour le big data et axé sur la vitesse, la simplicité d'utilisation et l'analytique avancé. Il fournit des API de haut niveau en Scala, Java, Python et R, ainsi qu'un moteur optimisé qui prend en charge des graphes de calcul généraux pour l'analyse de données. Il fonctionne également avec d'autres outils, comme Spark SQL pour le SQL et les DataFrames, MLlib pour le machine learning, GraphX pour le traitement graphique et Spark Streaming pour le traitement de flux.

Spark propose deux modes pour l'exploration des données :

  • Un workspace
  • Batch

Modes d'exploration de Spark Pour simplifier les interactions de l'utilisateur final, Spark est proposé aux organisations sous la forme d'une plateforme de données unifiée hébergée. En l'absence d'accès direct aux ressources Spark au moyen d'applications distantes, l'utilisateur devait suivre un parcours plus long pour parvenir à la production. Afin de surmonter cet obstacle, des services ont été créés. Ils permettent à des applications distantes de se connecter à un cluster Spark via une API REST depuis n'importe où. Ces interfaces prennent en charge l'exécution de petits morceaux de code ou de programmes dans un contexte Spark exécuté localement ou dans Apache Hadoop YARN. Les interfaces de Spark hébergé sont des solutions prêtes à l'emploi. Elles facilitent l'interaction entre Spark et les services d'applications, afin de rationaliser l'architecture exigée par les applications web et mobiles interactives.

UN LEADER 5X

Gartner® : Databricks, leader des bases de données cloud

Les atouts des services Spark hébergés :

  • Interactions en Scala, Python et R
  • Soumissions batch en Scala, Java et Python
  • Partage d'un même serveur entre plusieurs utilisateurs
  • Permet aux utilisateurs de soumettre des jobs depuis n'importe où via REST
  • Aucune modification de code requise au niveau de vos programmes

Les organisations ont désormais un moyen de surmonter les goulets d'étranglement qui les empêchent d'opérationnaliser Spark. Elles peuvent se consacrer entièrement à extraire la valeur promise par le big data.

Ressources complémentaires

Ne manquez jamais un article Databricks

Abonnez-vous à notre blog et recevez les derniers articles dans votre boîte mail.