Ir para o conteúdo principal

Hosted Spark

Experimente o Databricks gratuitamente

O que é hosted Spark?

O Apache Spark é um sistema de computação de cluster rápido e de uso geral para big data construído em torno da velocidade, facilidade de uso e análise avançada. Foi criado na UC Berkeley em 2009. Ele fornece APIs de alto nível em Scala, Java, Python e R, e um mecanismo otimizado compatível com gráficos de computação gerais para análise de dados. Além disso, também é compatível com várias outras ferramentas como Spark SQL for SQL e DataFrames, MLlib para machine learning, GraphX para processamento de gráficos e Spark Streaming para processamento de stream.

O Spark inclui dois modos para exploração de dados:

  • Interativo
  • Batch

Modos de exploração do Spark Para simplificar a interação com o usuário final, o Spark também é fornecido às organizações em uma plataforma de dados hospedada e unificada. Na ausência de acesso direto aos recursos do Spark por aplicativos remotos, o usuário precisava atravessar um caminho mais longo até a produção. Para superar esse obstáculo, foram criados serviços que permitem a conexão de aplicativos remotos de forma eficiente a um cluster do Spark por meio de uma API REST de qualquer lugar. Essas interfaces permitem a execução de fragmentos de código ou programas em um contexto do Spark que é executado localmente ou no Apache Hadoop YARN. As interfaces do hosted Spark são soluções prontas para uso, pois facilitam a interação entre o Spark e os servidores de aplicativos, simplificando a arquitetura exigida por aplicativos interativos para web e dispositivos móveis.

Os serviços do hosted Spark incluem estes recursos:

  • Coberturas interativas para Scala, Python e R
  • Envios em batch no Scala, Java e Python
  • Vários usuários podem compartilhar o mesmo servidor
  • Permite que os usuários enviem trabalhos de qualquer lugar usando REST
  • Nenhuma alteração de código é necessária em seus programas

As organizações agora podem superar facilmente os gargalos existentes que impedem sua capacidade de operacionalizar o Spark e, em vez disso, manter o foco na captura do valor prometido pelo big data.  

Recursos adicionais

Voltar ao glossário