Verstehen Sie die grundlegende Datenstruktur von Spark für die verteilte, fehlertolerante Parallelverarbeitung.

Bei RDD war von Anfang an die wichtigste benutzerorientierte API in Spark. Im Kern stellt ein RDD eine unveränderliche, verteilte Sammlung von Elementen Ihrer Daten dar, die auf die Knoten in Ihrem Cluster verteilt sind. Sie können parallel mit einer Low-Level-API eingesetzt werden, die Transformationen und Aktionen bietet.
Werden RDDs zu Bürgern zweiter Klasse degradiert? Werden sie ausgemustert? Die Antwort lautet eindeutig NEIN! Außerdem können Sie nahtlos und nach Belieben zwischen DataFrame oder Dataset und RDDs wechseln – durch einfache API-Methodenaufrufe. Und: DataFrames und Datasets setzen auf RDDs auf.
Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.