Direkt zum Hauptinhalt

DataFrames

DATABRICKS KOSTENLOS TESTEN

Was ist ein DataFrame?

Ein DataFrame ist eine Datenstruktur, die Daten in einer zweidimensionalen Tabelle mit Zeilen und Spalten organisiert, ähnlich wie in einer Tabellenkalkulation. DataFrames zählen zu den am häufigsten verwendeten Datenstrukturen in der modernen Datenanalyse, da sie eine flexible und intuitive Möglichkeit zum Speichern und Arbeiten mit Daten darstellen.

Jedes DataFrame enthält einen Entwurf, ein sogenanntes Schema, das den Namen und den Datentyp jeder Spalte definiert. Spark DataFrames können sowohl universelle Datentypen wie StringType und IntegerType als auch Spark-spezifische Datentypen, wie StructType, enthalten. Fehlende oder unvollständige Werte werden als Null-Werte im DataFrame gespeichert.

Ein DataFrame entspricht im Wesentlichen einer Tabellenkalkulation mit benannten Spalten. Der Unterschied zwischen den beiden besteht jedoch darin, dass sich eine Kalkulationstabelle auf einem Computer an einem bestimmten Ort befindet, während ein DataFrame Tausende von Computern umfassen kann. Auf diese Weise ermöglichen DataFrames die Analyse großer Datenmengen unter Verwendung verteilter Computercluster.

Der Grund für die Verteilung der Daten auf mehrere Computer sollte auf der Hand liegen: Entweder sind die Daten zu groß, um auf einen einzigen Computer zu passen, oder es würde einfach zu lange dauern, die Berechnung auf einem einzigen Computer durchzuführen.

DataFrames

Das Konzept eines DataFrame findet sich in vielen verschiedenen Sprachen und Frameworks. DataFrames bilden den Hauptdatentyp in pandas, der gängigen Python-Bibliothek zur Datenanalyse, und werden auch in R, Scala und anderen Sprachen verwendet.

Zusätzliche Ressourcen

Zurück zum Glossar
Glossary-Overview-Sidebar

Erfahren Sie, was das Lakehouse-Muster antreibt.

JETZT REGISTRIEREN