주요 컨텐츠로 이동

데이터프레임이란 무엇인가요?

이 표 형식 데이터 구조가 분산 컴퓨팅 클러스터 전반에 걸쳐 확장 가능한 분석을 가능하게 하는 방법을 알아보세요.

4 Personas Analytics AIBI 5b
데이터 + AI 기반Less than a minute

작성자: Databricks 직원

Summary

  • 데이터프레임이 무엇이며, 행과 열에 대한 정의된 스키마를 사용하여 데이터를 2차원 테이블로 구성하는 방법을 이해합니다.
  • 데이터프레임이 빅데이터 분석에 필수적인 이유와 여러 대의 머신에 걸친 분산 컴퓨팅을 가능하게 하는 방법을 알아봅니다.
  • Python, R, Scala, Apache Spark 등 다양한 언어에서 데이터프레임이 어떻게 작동하는지 살펴봅니다.

DataFrame이란 무엇입니까?

데이터프레임(DataFrame)이란 데이터를 행과 열로 구성된 2차원 표(스프레드시트와 비슷)로 정리하는 데이터 구조입니다. DataFrame은 최신 데이터 분석에서 가장 보편적으로 쓰이는 데이터 구조 중 하나입니다. 유연하고 직관적인 방식으로 데이터를 저장하고 작업이 가능하기 때문입니다.

각 데이터프레이임에는 스키마라고 하는 블루프린트가 있어서, 각 열의 이름과 데이터 유형을 정의합니다. Spark DataFrames는 StringType, IntegerType 등의 보편적 데이터 유형은 물론이고 Spark 고유의 데이터 유형(예: StructType)을 포함할 수 있습니다. 누락되거나 불완전한 값은 DataFrame에서 null 값으로 저장됩니다.

간단하게 비유하자면, 데이터프레임이란 이름이 지정된 열을 포함한 스프레드시트와 같습니다. 다만 둘의 차이가 있다면 스프레드시트는 특정 위치의 컴퓨터 한 대에 위치하지만, DataFrame은 컴퓨터 수천 대에 존재할 수 있다는 것입니다. 이 때문에 DataFrame을 이용하면 분산형 컴퓨팅 클러스터를 사용해 빅데이터를 분석할 수 있습니다.

데이터를 한 대 이상의 컴퓨터에 배치하는 이유는 직관적으로 이해할 수 있습니다. 데이터가 너무 커서 시스템 하나만으로는 역부족이거나, 아니면 컴퓨터 한 대에서 연산을 수행하기에는 너무 오래 걸리기 때문입니다.

DataFrames

데이터 프레임은 다양한 언어와 프레임워크에서 공통된 개념입니다. 데이터 프레임은 인기 있는 Python 데이터 분석 라이브러리인 pandas에서 사용하는 주요 데이터 유형이며, R, Scala 등의 언어에서도 사용됩니다.

5X 리더

Gartner®: Databricks 클라우드 데이터베이스 리더

추가 자료

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요