분산형, 내결함성 병렬 처리를 위한 Spark의 기본 데이터 구조를 이해합니다.
작성자: Databricks 직원

RDD는 처음 생겼을 때부터 Spar의 기본 사용자 대상(user-facing) API였습니다. RDD는 본질적으로 데이터의 여러 요소를 모은 변경 불가능한(immutable) 분산형 컬렉션입니다. 클러스터 내 여러 노드에 걸쳐 분할된 형태로 변환이나 작업을 제공하는 저수준 API와 동시에 작업할 수 있습니다.
RDD는 2급 시민으로 강등됩니까? 사용이 중단됩니까? 이런 질문에 대한 답은 '아니요'입니다! 뿐만 아니라 단순한 API 메서드 호출을 통해 DataFrame이나 Dataset와 RDD 사이를 원활하게 이동할 수 있으며 DataFrame과 Dataset는 RDD 기반으로 구축되었습니다.
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.