Ir para o conteúdo principal

Conjunto de dados distribuído resiliente (RDD)

Experimente o Databricks gratuitamente

O que são conjuntos de dados distribuídos resilientes?

Os conjuntos de dados distribuídos resilientes (RDDs) têm sido a principal API voltada para o usuário do Spark desde seu lançamento. Um RDD é uma coleção imutável de elementos de dados localizados em vários nós em um cluster e pode ser usado juntamente com APIs subjacentes para transformações e outras operações.

Cinco motivos para usar RDDs

  1. Para executar transformações, ações e controle de baixo nível em conjuntos de dados;
  2. Quando seus dados não são estruturados, como streams de mídia ou de texto;
  3. Para trabalhar com dados em programação funcional em vez de linguagens específicas de domínio;
  4. Se você não se importar em especificar um esquema, como um formato em colunas, ao manipular ou acessar atributos de dados por nome ou coluna; e
  5. Se você não precisa dos recursos de otimização e desempenho de DataFrames e conjunto de dados para dados estruturados e semiestruturados.

Qual é a função dos RDDs no Apache Spark 2.0?

Os RDDs são considerados menos importantes? Eles estão ficando obsoletos? A resposta é um NÃO bem enfático! Além disso, você pode alternar perfeitamente entre DataFrames/conjunto de dados e RDDs chamando métodos simples de API, e DataFrames/conjunto de dados são baseados em RDDs.

Recursos adicionais

Voltar ao glossário