Direkt zum Hauptinhalt

Was sind Dataframes?

Erfahren Sie, wie diese tabellarische Datenstruktur skalierbare Analysen in verteilten Rechenclustern ermöglicht.

4 Personas Analytics AIBI 5b

Summary

  • Verstehen Sie, was DataFrames sind und wie sie Daten in zweidimensionalen Tabellen mit definierten Schemata für Zeilen und Spalten organisieren.
  • Erfahren Sie, warum DataFrames für Big-Data-Analysen unerlässlich sind und wie sie verteiltes Rechnen auf mehreren Rechnern ermöglichen.
  • Entdecken Sie die Funktionsweise von DataFrames in verschiedenen Programmiersprachen wie Python, R, Scala und Apache Spark.

Was ist ein DataFrame?

Ein DataFrame ist eine Datenstruktur, die Daten in einer zweidimensionalen Tabelle mit Zeilen und Spalten organisiert, ähnlich wie in einer Tabellenkalkulation. DataFrames zählen zu den am häufigsten verwendeten Datenstrukturen in der modernen Datenanalyse, da sie eine flexible und intuitive Möglichkeit zum Speichern und Arbeiten mit Daten darstellen.

Jedes DataFrame enthält einen Entwurf, ein sogenanntes Schema, das den Namen und den Datentyp jeder Spalte definiert. Spark DataFrames können sowohl universelle Datentypen wie StringType und IntegerType als auch Spark-spezifische Datentypen, wie StructType, enthalten. Fehlende oder unvollständige Werte werden als Null-Werte im DataFrame gespeichert.

Ein DataFrame entspricht im Wesentlichen einer Tabellenkalkulation mit benannten Spalten. Der Unterschied zwischen den beiden besteht jedoch darin, dass sich eine Kalkulationstabelle auf einem Computer an einem bestimmten Ort befindet, während ein DataFrame Tausende von Computern umfassen kann. Auf diese Weise ermöglichen DataFrames die Analyse großer Datenmengen unter Verwendung verteilter Computercluster.

Der Grund für die Verteilung der Daten auf mehrere Computer sollte auf der Hand liegen: Entweder sind die Daten zu groß, um auf einen einzigen Computer zu passen, oder es würde einfach zu lange dauern, die Berechnung auf einem einzigen Computer durchzuführen.

DataFrames

Das Konzept eines DataFrame findet sich in vielen verschiedenen Sprachen und Frameworks. DataFrames bilden den Hauptdatentyp in pandas, der gängigen Python-Bibliothek zur Datenanalyse, und werden auch in R, Scala und anderen Sprachen verwendet.

5-FACHER LEADER

Gartner®: Databricks als Leader für Cloud-Datenbanken

Zusätzliche Ressourcen

Verpassen Sie keinen Beitrag von Databricks

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.