Set di dati distribuito resiliente (RDD)

Cos'è un set di dati distribuito resiliente?

Fin dalla sua concezione, RDD è stata la principale API di Spark rivolta all'utente. In sostanza, un RDD è una raccolta distribuita e immutabile di elementi dei tuoi dati, partizionata tra i nodi di clusters, che può essere gestita in parallelo con un'API di basso livello che offre trasformazioni e azioni.

Ecco altre informazioni utili

Il grande libro dell'ingegneria dei dati

Sviluppa rapidamente le tue competenze con questa guida essenziale all'era dell'AI.

Leggi

O’Reilly technical guide about ETL pipelines

Introduzione all'ETL

Scopri come funzionano le pipeline ETL con questa guida tecnica di O'Reilly.

SCARICA

Impara subito l'ingegneria dei dati

Guarda 4 video e supera un quiz per guadagnare un badge.

Comincia

5 motivi per utilizzare gli RDD:

vuoi eseguire trasformazioni e azioni di basso livello e controllare il tuo set di dati;
vuoi operare con dati non strutturati, come flussi multimediali o flussi di testo;
vuoi manipolare i dati con costrutti di programmazione funzionali anziché con espressioni specifiche del dominio;
non ti interessa imporre uno schema, come ad esempio il formato a colonne, durante l'elaborazione o l'accesso agli attributi dei dati per nome o colonna;
puoi a rinunciare ad alcuni dei vantaggi in termini di ottimizzazione e prestazioni disponibili con DataFrames e a set di dati per dati strutturati e semi-strutturati.

Cosa succede agli RDD in Apache Spark 2.0?

Gli RDD sono relegati a un ruolo secondario? Sono diventati obsoleti? Assolutamente no! La novità è che puoi passare da DataFrame o set di dati a RDD tramite semplici chiamate di metodo API, in qualunque momento ciò si renda necessario, e che DataFrame e set di dati sono basati su RDD.

Risorse aggiuntive

Torna al Glossario