R 패키지로, Apache Spark에서 dplyr 스타일 구문을 제공하여 R 사용자가 대규모 데이터 세트에 대한 분산 데이터 조작 및 머신 러닝을 수행할 수 있도록 합니다.
작성자: Databricks 직원
Sparklyr은 R과 Apache Spark 사이에서 인터페이스를 제공하는 오픈 소스 패키지입니다. 이제 Spark 기능을 최신 R 환경에서도 활용할 수 있습니다. Spark는 분산된 데이터와 상호작용할 수 있으면서도 레이턴시가 짧기 때문입니다. Sparklyr은 인터랙티브 환경에서 대규모 Dataset와 상호작용을 주고받는 데 효과적인 툴입니다. 이렇게 하면 R의 친숙한 툴을 이용해 Spark 데이터를 분석할 수 있으므로 두 분야의 가장 좋은 점만 활용할 수 있습니다.
Sparklyr을 통해 Spark를 dplyr 백엔드로 사용할 수 있습니다. dplyr은 대중적인 데이터 조작 패키지입니다. Sparklyr에는 다양한 기능이 포함되어 있어 Spark 툴에 액세스하여 데이터를 변환/전처리할 수 있습니다. 그뿐만이 아니라, Spark의 분산형 머신 러닝 알고리즘에 인터페이스를 제공하며 이외에도 다양한 장점이 있습니다. 또한 Sparklyr은 확장할 수도 있습니다. 전체 Spark API를 호출하기 위해 Sparklyr에 종속되는 R 패키지를 생성할 수 있습니다. 그와 같은 확장 프로그램의 한 가지 예가 H2O의 Rsparkling으로, 이것은 H2O의 머신 러닝 알고리즘과 호환되는 R 패키지입니다.
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.