Comprenda la estructura de datos fundamental de Spark para el procesamiento paralelo distribuido y tolerante a fallas.

RDD fue la API principal para el usuario en Spark desde su creación. En esencia, un RDD es una colección distribuida inmutable de elementos de tus datos, particionada entre los nodos de tu clúster, que se puede operar en paralelo con una API de bajo nivel que ofrece transformaciones y acciones.
¿Se están relegando los RDD a un segundo plano? ¿Se van a discontinuar? ¡La respuesta es un rotundo NO! Además, puedes alternar sin problemas entre DataFrame o Dataset y los RDD a tu antojo —mediante simples llamadas a métodos de la API—, y los DataFrame y Dataset están construidos sobre los RDD.
Suscríbete a nuestro blog y recibe las últimas publicaciones directamente en tu bandeja de entrada.