Ir para o conteúdo principal

O que são aplicações Spark?

Aprenda como os processos de driver e executor trabalham juntos para executar computações distribuídas em um cluster.

4 Personas Analytics AIBI 5a

Summary

  • Compreenda a arquitetura de aplicações Spark, incluindo como os processos de driver gerenciam a lógica da aplicação e coordenam o trabalho em todo o cluster.
  • Aprenda como os processos de executor executam as tarefas atribuídas e reportam o estado da computação de volta para o driver.
  • Explore como gerenciadores de cluster como YARN, Mesos e Spark standalone alocam recursos para múltiplas aplicações simultâneas.

Aplicativos Spark consistem em um processo de driver e um conjunto de processos executores. O processo de driver executa a função main() e é executado nos nós do cluster. Ele também tem três responsabilidades: gerenciar informações sobre o aplicativo Spark; responder aos programas e entradas do usuário; e analisar, distribuir e agendar tarefas entre os executores (definidos no momento). O processo de drive é essencial. É o coração do seu aplicativo Spark e contém todas as informações relevantes durante a vida útil do aplicativo. Os executores executam as tarefas atribuídas pelo driver. Cada executor tem duas responsabilidades: executar o código atribuído pelo driver e relatar o progresso dos cálculos nesse executor para o nó do driver.

UM LÍDER 5X

Gartner®: Databricks, líder em banco de dados em nuvem

Aplicativos Spark

O gerenciador de cluster controla máquinas físicas e aloca recursos para aplicativos Spark. Pode ser um dos vários gerenciadores de cluster principais: gerenciador de cluster independente do próprio Spark, YARN ou Mesos. Também é possível executar vários aplicativos Spark simultaneamente em um cluster. Os gerenciadores de cluster são abordados em detalhes em “Part IV: Production Applications” deste livro. A ilustração anterior mostra um driver à esquerda e quatro executores à direita, omitindo o conceito de nós de cluster. O usuário pode especificar o número de executores que devem ser atribuídos a cada nó por meio de configuração. [glossary-cta]

Recursos adicionais

Nunca perca uma postagem da Databricks

Inscreva-se nas categorias de seu interesse e receba as últimas postagens na sua caixa de entrada