Ir al contenido principal

¿Qué es un conjunto de datos distribuidos resilientes (RDD)?

Comprenda la estructura de datos fundamental de Spark para el procesamiento paralelo distribuido y tolerante a fallas.

4 Personas Analytics AIBI 6

Summary

  • Comprenda qué son los RDD y cómo funcionan como colecciones de datos particionadas e inmutables para el procesamiento paralelo en Apache Spark.
  • Aprenda los cinco escenarios clave en los que los RDD son la mejor opción, incluyendo datos no estructurados y control de transformación de bajo nivel.
  • Explore cómo se relacionan los RDD con los DataFrames y los DataSets, y cuándo usar cada API.

¿Qué es un conjunto de datos distribuido resiliente?

RDD fue la API principal para el usuario en Spark desde su creación. En esencia, un RDD es una colección distribuida inmutable de elementos de tus datos, particionada entre los nodos de tu clúster, que se puede operar en paralelo con una API de bajo nivel que ofrece transformaciones y acciones.

5 razones para usar RDD

  1. Quieres transformaciones y acciones de bajo nivel y control sobre tu conjunto de datos;
  2. Tus datos no están estructurados, como flujos de medios o flujos de texto;
  3. Quieres manipular tus datos con construcciones de programación funcional en lugar de expresiones específicas del dominio;
  4. No te importa imponer un esquema, como el formato columnar, al procesar o acceder a los atributos de datos por nombre o columna; y
  5. Puedes prescindir de algunos beneficios de optimización y rendimiento disponibles con DataFrames y Datasets para datos estructurados y semiestructurados.
LÍDER 5X

Gartner®: Databricks, líder en bases de datos en la nube

¿Qué sucede con los RDD en Apache Spark 2.0?

¿Se están relegando los RDD a un segundo plano? ¿Se van a discontinuar? ¡La respuesta es un rotundo NO! Además, puedes alternar sin problemas entre DataFrame o Dataset y los RDD a tu antojo —mediante simples llamadas a métodos de la API—, y los DataFrame y Dataset están construidos sobre los RDD.

Recursos adicionales

No te pierdas ninguna publicación de Databricks.

Suscríbete a nuestro blog y recibe las últimas publicaciones en tu bandeja de entrada.