주요 컨텐츠로 이동

DataFrames

Databricks 무료로 시작하기

DataFrame이란 무엇입니까?

DataFrame이란 데이터를 행과 열로 구성된 2차원 표(스프레드시트와 비슷)로 정리하는 데이터 구조입니다. DataFrame은 최신 데이터 분석에서 가장 보편적으로 쓰이는 데이터 구조 중 하나입니다. 유연하고 직관적인 방식으로 데이터를 저장하고 작업이 가능하기 때문입니다.

각 DataFrame에는 스키마라고 하는 블루프린트가 있어서, 각 열의 이름과 데이터 유형을 정의합니다. Spark DataFrames는 StringType, IntegerType 등의 보편적 데이터 유형은 물론이고 Spark 고유의 데이터 유형(예: StructType)을 포함할 수 있습니다. 누락되거나 불완전한 값은 DataFrame에서 null 값으로 저장됩니다.

간단하게 비유하자면, DataFrame이란 이름이 지정된 열을 포함한 스프레드시트와 같습니다. 다만 둘의 차이가 있다면 스프레드시트는 특정 위치의 컴퓨터 한 대에 위치하지만, DataFrame은 컴퓨터 수천 대에 존재할 수 있다는 것입니다. 이 때문에 DataFrame을 이용하면 분산형 컴퓨팅 클러스터를 사용해 빅데이터를 분석할 수 있습니다.

데이터를 한 대 이상의 컴퓨터에 배치하는 이유는 쉽게 감을 잡을 수 있습니다. 데이터가 너무 커서 시스템 하나만으로는 역부족이거나, 아니면 컴퓨터 한 대에서 연산을 수행하기에는 너무 오래 걸리기 때문입니다.

DataFrames

DataFrame은 다양한 언어와 프레임워크에서 공통된 개념입니다. DataFrames는 인기 있는 Python 데이터 분석 라이브러리인 pandas에서 사용하는 주요 데이터 유형이며, R, Scala 등의 언어에서도 사용됩니다.

추가 자료

용어집으로 돌아가기