Entenda a estrutura de dados fundamental do Spark para processamento paralelo distribuído e tolerante a falhas.

Os conjuntos de dados distribuídos resilientes (RDDs) têm sido a principal API voltada para o usuário do Spark desde seu lançamento. Um RDD é uma coleção imutável de elementos de dados localizados em vários nós em um cluster e pode ser usado juntamente com APIs subjacentes para transformações e outras operações.
Os RDDs são considerados menos importantes? Eles estão ficando obsoletos? A resposta é um NÃO bem enfático! Além disso, você pode alternar perfeitamente entre DataFrames/conjunto de dados e RDDs chamando métodos simples de API, e DataFrames/conjunto de dados são baseados em RDDs.
Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.