Três interfaces — RDDs, DataFrames e Datasets — permitem que os desenvolvedores processem dados distribuídos em várias linguagens com desempenho otimizado.
Ao trabalhar com o Spark, você encontrará as três APIs: DataFrames, Datasets e RDDs.
Resilient Distributed Datasets (RDD) são uma coleção de registros que usam computação distribuída e é tolerante a falhas e imutável. Os RDDs podem operar em paralelo com APIs de baixo nível e seus recursos de atraso aceleram as operações do Spark. Além disso, os RDDs são compatíveis com duas operações:
