Ir para o conteúdo principal

DataFrames

Experimente o Databricks gratuitamente

O que é um DataFrame?

DataFrame é uma estrutura de dados que organiza os dados em uma tabela bidimensional de linhas e colunas, como uma planilha. Os DataFrames são uma das estruturas de dados mais comuns na análise de dados moderna, pois são uma maneira flexível e intuitiva de armazenar e trabalhar com dados.

Cada DataFrame contém um blueprint, conhecido como esquema, que define o nome e o tipo de dados de cada coluna. Os DataFrames do Spark podem conter tipos de dados universais, como StringType e IntegerType, bem como tipos de dados específicos do Spark, como StructType. Valores ausentes ou incompletos são armazenados como valores nulos no DataFrame.

Uma analogia simples é que um DataFrame é como uma planilha com colunas nomeadas. No entanto, a diferença entre eles é que, embora uma planilha esteja em um computador em um local específico, um DataFrame pode se estender por milhares de computadores. Dessa forma, os DataFrames possibilitam fazer análises em big data, usando clusters de compute distribuídos.

A razão para colocar os dados em mais de um computador deve ser intuitiva: os dados são muito grandes para caber em uma máquina, ou simplesmente levaria muito tempo para executar esse cálculo em uma máquina.

DataFrames

O conceito de DataFrame é comum em muitas linguagens e estruturas diferentes. Os DataFrames são o principal tipo de dados usado em pandas, a popular biblioteca de análise de dados Python, e os DataFrames também são usados em R, Scala e outras linguagens.

Recursos adicionais

Voltar ao glossário
Glossary-Overview-Sidebar

Saiba o que está impulsionando o padrão Lakehouse.

REGISTRAR AGORA