Revenir au contenu principal

Que sont les DataFrames ?

Découvrez comment cette structure de données tabulaires permet une analyse évolutive sur des clusters de calcul distribués.

4 Personas Analytics AIBI 5b

Summary

  • Comprenez ce que sont les DataFrames et comment ils organisent les données en tableaux bidimensionnels avec des schémas définis pour les lignes et les colonnes.
  • Apprenez pourquoi les DataFrames sont essentiels à l'analyse du Big Data et comment ils permettent le calcul distribué sur plusieurs machines.
  • Explorez le fonctionnement des DataFrames dans différents langages, notamment Python, R, Scala et Apache Spark.

Qu'est-ce qu'un DataFrame ?

Un DataFrame est une structure qui organise les données en tables bidimensionnelles de lignes et de colonnes, comparables à une feuille de calcul. Les DataFrames font partie des structures de données les plus couramment utilisées dans l'analytique de données parce qu'elles offrent un moyen à la fois flexible et intuitif de stocker et d'exploiter des données.

Chaque DataFrame contient un modèle appelé schéma qui définit le nom et le type de données de chaque colonne. Les DataFrames Spark peuvent contenir des types de données universels comme StringType et IntegerType, ainsi que les types de données spécifiques à Spark, comme StructType. Les valeurs manquantes ou incomplètes sont stockées sous la forme de valeurs null dans le DataFrame.

Pour prendre une analogie simple, un DataFrame est similaire à une feuille de calcul avec des colonnes nommées. Mais la comparaison s'arrête là : si une feuille de calcul se trouve à un emplacement spécifique sur un ordinateur, un DataFrame peut s'étendre sur des milliers de machines. De cette façon, les DataFrames permettent d'appliquer de l'analytique à des données Big Data au moyen de clusters de calcul distribués.

La raison pour laquelle les données sont dispersées sur plusieurs ordinateurs doit être intuitive : soit les données sont trop volumineuses, soit il faudrait trop de temps pour effectuer les calculs sur une même machine.

DataFrames

Le concept de DataFrame est commun à de nombreux langages et frameworks différents. Les DataFrames représentent le principal type de données utilisé dans pandas, la bibliothèque d'analyse de données Python, et ils sont également utilisés en R, en Scala et dans d'autres langages.

UN LEADER 5X

Gartner® : Databricks, leader des bases de données cloud

Ressources complémentaires

Ne manquez jamais un article Databricks

Abonnez-vous à notre blog et recevez les derniers articles dans votre boîte mail.