주요 컨텐츠로 이동

머신 러닝 라이브러리(MLlib)

Databricks 무료로 시작하기

Apache Spark의 머신 러닝 라이브러리(Machine Learning Library, MLlib)는 단순성, 확장성, 다른 툴과의 통합을 염두에 두고 고안하였습니다. 데이터 사이언티스트는 Spark의 확장성, 언어 호환성과 속도를 활용하여 데이터 문제점과 모델에만 집중할 수 있습니다. 즉 분산형 데이터를 둘러싼 복잡한 문제(인프라, 구성 등)를 해결하는 데 시간을 뺏기지 않아도 됩니다. MLlib은 Spark 기반으로 구축된 확장할 수 있는 머신 러닝 라이브러리로 보편적인 학습 알고리즘과 유틸리티로 구성되어 있습니다. 예를 들어 분류, 회귀, 클러스터링, 공동 작업 필터링, 차원 감소와 기본 최적화 기본 형식(primitive) 등이 대표적입니다. Spark MLLib은 Spark SQL, Spark Streaming 및 DataFrame과 같은 다른 Spark 구성 요소와 원활하게 통합되며 Databricks Runtime으로 설치됩니다. 이 라이브러리는 Spark 애플리케이션의 일부분으로 Java, Scala 및 Python에서 사용할 수 있으므로 완료된 워크플로 내에 포함할 수 있습니다. MLlib을 사용하면 모델 전처리, 먼징(munging), 교육이나 데이터에 관한 대규모 예측 등의 작업을 할 수 있습니다. 심지어 MLlib에서 교육한 모델을 사용하여 Structured Streaming에서 예측을 할 수도 있습니다. Spark는 정교한 머신 러닝 API를 제공하여 다양한 머신 러닝 작업을 수행하는 데 쓸 수 있습니다. 분류부터 회귀, 클러스터링부터 딥러닝까지 많은 것이 가능합니다.

추가 자료

용어집으로 돌아가기