Passa al contenuto principale

Set di dati distribuito resiliente (RDD)

Prova Databricks gratis

Cos'è un set di dati distribuito resiliente?

Fin dalla sua concezione, RDD è stata la principale API di Spark rivolta all'utente. In sostanza, un RDD è una raccolta distribuita e immutabile di elementi dei tuoi dati, partizionata tra i nodi di clusters, che può essere gestita in parallelo con un'API di basso livello che offre trasformazioni e azioni.

5 motivi per utilizzare gli RDD:

  1. vuoi eseguire trasformazioni e azioni di basso livello e controllare il tuo set di dati;
  2. vuoi operare con dati non strutturati, come flussi multimediali o flussi di testo;
  3. vuoi manipolare i dati con costrutti di programmazione funzionali anziché con espressioni specifiche del dominio;
  4. non ti interessa imporre uno schema, come ad esempio il formato a colonne, durante l'elaborazione o l'accesso agli attributi dei dati per nome o colonna;
  5. puoi a rinunciare ad alcuni dei vantaggi in termini di ottimizzazione e prestazioni disponibili con DataFrames e a set di dati per dati strutturati e semi-strutturati.

Cosa succede agli RDD in Apache Spark 2.0?

Gli RDD sono relegati a un ruolo secondario? Sono diventati obsoleti? Assolutamente no! La novità è che puoi passare da DataFrame o set di dati a RDD tramite semplici chiamate di metodo API, in qualunque momento ciò si renda necessario, e che DataFrame e set di dati sono basati su RDD.

Risorse aggiuntive

Torna al Glossario