Ir al contenido principal

Spark hospedado

Prueba Databricks gratis

¿Qué es Hosted Spark (Spark hospedado)?

Apache Spark es un sistema de computación en clúster rápido y general para Big Data construido en torno a la velocidad, la facilidad de uso y el análisis avanzado que se creó originalmente en 2009 en UC Berkeley. Proporciona API de alto nivel en Scala, Java, Python y R, y un motor optimizado que admite gráficos de cálculo generales para el análisis de datos. Además, también es compatible con otras herramientas, como Spark SQL para SQL y DataFrames, MLlib para aprendizaje automático, GraphX para procesamiento de gráficos y Spark Streaming para procesamiento de flujos.

Spark ofrece dos modos para la exploración de datos:

  • Interactivo
  • Lote

Modos de exploración de Spark Para una interacción simplificada del usuario final, Spark también se ofrece a las organizaciones en una plataforma de datos unificada alojada.En ausencia de acceso directo a los recursos de Spark por parte de aplicaciones remotas, el usuario tenía que enfrentar un camino más largo hacia la producción. Para superar este obstáculo, se han creado servicios que permiten a las aplicaciones remotas conectarse eficientemente a un clúster de Spark a través de una API REST desde cualquier lugar. Estas interfaces admiten la ejecución de fragmentos de código o programas en un contexto de Spark que se ejecuta localmente o en Apache Hadoop YARN. Las interfaces alojadas de Spark demostraron ser soluciones llave en mano, ya que facilitan la interacción entre Spark y los servidores de aplicaciones, simplificando la arquitectura requerida por las aplicaciones web y móviles interactivas.

Los servicios de Spark hospedados ofrecen estas características:

  • Coberturas interactivas de Scala, Python y R.
  • Envíos por lotes en Scala, Java o Python.
  • Varios usuarios pueden compartir el mismo servidor.
  • Permite a los usuarios enviar trabajos desde cualquier lugar a través de REST
  • No se requiere ningún cambio de código en tus programas.

Las organizaciones ahora pueden superar fácilmente los cuellos de botella existentes que impiden su capacidad para operacionalizar Spark y, en su lugar, centrarse en capturar el valor prometido por los grandes datos.

Recursos adicionales

Volver al glosario