주요 컨텐츠로 이동

RDD(Resilient Distributed Dataset)

Databricks 무료로 시작하기

RDD란 무엇입니까?

RDD는 처음 생겼을 때부터 Spar의 기본 사용자 대상(user-facing) API였습니다. RDD는 본질적으로 데이터의 여러 요소를 모은 변경 불가능한(immutable) 분산형 컬렉션입니다. 클러스터 내 여러 노드에 걸쳐 분할된 형태로 변환이나 작업을 제공하는 저수준 API와 동시에 작업할 수 있습니다.

RDD를 사용해야 할 때를 결정짓는 5가지 이유

  1. Dataset에서 저수준 변환, 작업과 제어를 원하는 경우.
  2. 데이터가 비구조적인 경우(미디어 스트림 또는 텍스트 스트림 등).
  3. 도메인별 표현식 말고 함수 프로그래밍 구조로 데이터를 조작하고자 하는 경우.
  4. 이름이나 열 기준으로 데이터 속성을 처리 또는 이에 액세스하면서 열 형식과 같은 스키마를 부여하는 데 관심이 없는 경우.
  5. 구조적, 비구조적 데이터에 대하여 DataFrame과 Dataset가 제공하는 최적화와 성능 면에서의 장점을 일부 포기할 수 있는 경우.

Apache Spark 2.0에서 RDD에는 무슨 일이 일어납니까?

RDD는 2급 시민으로 강등됩니까? 사용이 중단됩니까? 이런 질문에 대한 답은 '아니요'입니다! 뿐만 아니라 단순한 API 메서드 호출을 통해 DataFrame이나 Dataset와 RDD 사이를 원활하게 이동할 수 있으며 DataFrame과 Dataset는 RDD 기반으로 구축되었습니다.

추가 자료

용어집으로 돌아가기