주요 컨텐츠로 이동

Sparklyr

Databricks 무료로 시작하기

Sparklyr이란 무엇입니까?

Sparklyr은 R과 Apache Spark 사이에서 인터페이스를 제공하는 오픈 소스 패키지입니다. 이제 Spark 기능을 최신 R 환경에서도 활용할 수 있습니다. Spark는 분산된 데이터와 상호작용할 수 있으면서도 레이턴시가 짧기 때문입니다. Sparklyr은 인터랙티브 환경에서 대규모 Dataset와 상호작용을 주고받는 데 효과적인 툴입니다. 이렇게 하면 R의 친숙한 툴을 이용해 Spark 데이터를 분석할 수 있으므로 두 분야의 가장 좋은 점만 활용할 수 있습니다. SparklyrSparklyr을 통해 Spark를 dplyr 백엔드로 사용할 수 있습니다. dplyr은 대중적인 데이터 조작 패키지입니다. Sparklyr에는 다양한 기능이 포함되어 있어 Spark 툴에 액세스하여 데이터를 변환/전처리할 수 있습니다. 그뿐만이 아니라, Spark의 분산형 머신 러닝 알고리즘에 인터페이스를 제공하며 이외에도 다양한 장점이 있습니다. 또한 Sparklyr은 확장할 수도 있습니다. 전체 Spark API를 호출하기 위해 Sparklyr에 종속되는 R 패키지를 생성할 수 있습니다. 그와 같은 확장 프로그램의 한 가지 예가 H2O의 Rsparkling으로, 이것은 H2O의 머신 러닝 알고리즘과 호환되는 R 패키지입니다.

Sparklyr의 주요 하이라이트:

  • 사용자는 SQL(DBI를 통함)은 물론 dplyr을 사용해서도 Spark 데이터를 대화형으로 조작할 수 있습니다.
  • Spark Dataset는 필터링, 집계한 다음 R로 가져와 분석할 수 있습니다.
  • R에서 분산형 머신 러닝을 오케스트레이션하려면 Spark MLlib이나 H2O SparkingWater를 사용하면 됩니다.
  • Sparklyr 사용자는 확장 프로그램을 생성하여 전체 Spark API를 호출하고 Spark 패키지에 인터페이스를 제공할 수 있습니다.
  • Sparklyr 툴이 완전한 dplyr 백엔드를 제공하여 데이터 조작, 분석 및 시각화에 유용하게 쓸 수 있습니다.
  • 로컬 R 데이터 프레임, Hive 테이블, CSV, JSON과 Parquet 파일 등과 같은 다양한 위치에서 데이터를 Spark DataFrames로 로드합니다.
  • Sparklyr은 Spark의 로컬 인스턴스는 물론 원격 Spark 클러스터에도 연결할 수 있습니다.

추가 자료

용어집으로 돌아가기