주요 컨텐츠로 이동

머신러닝 라이브러리란 무엇인가요?

Spark MLlib은 확장 가능한 머신러닝 알고리즘과 유틸리티를 제공하여 팀이 대규모 데이터 세트에서 모델을 쉽게 학습, 평가 및 배포할 수 있도록 지원합니다.

4 Personas AI Agents 5a
데이터 + AI 기초Less than a minute

작성자: Databricks 팀

Summary

  • Apache Spark의 MLlib이 어떻게 단순성, 확장성 및 통합에 중점을 두어 분산 시스템 세부 사항에 신경 쓰는 대신 데이터와 모델에 집중할 수 있도록 하는지 알아보세요.
  • 분류 및 회귀부터 클러스터링, 협업 필터링, 차원 축소에 이르기까지 MLlib의 핵심 알고리즘과 유틸리티를 살펴보세요.
  • MLlib이 Spark SQL, 스트리밍 및 DataFrame과 어떻게 통합되고 다양한 언어를 지원하여 엔드투엔드 머신러닝 워크플로우를 구현하는지 확인하세요.

Apache Spark의 머신 러닝 라이브러리(Machine Learning Library, MLlib)는 단순성, 확장성, 다른 툴과의 통합을 염두에 두고 고안하였습니다. 데이터 사이언티스트는 Spark의 확장성, 언어 호환성과 속도를 활용하여 데이터 문제점과 모델에만 집중할 수 있습니다. 즉 분산형 데이터를 둘러싼 복잡한 문제(인프라, 구성 등)를 해결하는 데 시간을 뺏기지 않아도 됩니다. MLlib은 Spark 기반으로 구축된 확장할 수 있는 머신 러닝 라이브러리로 보편적인 학습 알고리즘과 유틸리티로 구성되어 있습니다. 예를 들어 분류, 회귀, 클러스터링, 공동 작업 필터링, 차원 감소와 기본 최적화 기본 형식(primitive) 등이 대표적입니다. Spark MLLib은 Spark SQL, Spark Streaming 및 DataFrame과 같은 다른 Spark 구성 요소와 원활하게 통합되며 Databricks Runtime으로 설치됩니다. 이 라이브러리는 Spark 애플리케이션의 일부분으로 Java, Scala 및 Python에서 사용할 수 있으므로 완료된 워크플로 내에 포함할 수 있습니다. MLlib을 사용하면 모델 전처리, 데이터 가공(munging), 학습이나 데이터에 관한 대규모 예측 등의 작업을 할 수 있습니다. 심지어 MLlib에서 학습한 모델을 사용하여 Structured Streaming에서 예측을 할 수도 있습니다. Spark는 정교한 머신 러닝 API를 제공하여 다양한 머신 러닝 작업을 수행하는 데 쓸 수 있습니다. 분류부터 회귀, 클러스터링부터 딥러닝까지 많은 것이 가능합니다.

추가 자료

5X 리더

Gartner®: Databricks 클라우드 데이터베이스 리더

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?

4 Personas Analytics AIBI 3a

데이터 + AI 기초

1분 이내 소요

데이터 스토리텔링이란 무엇인가요?

10 Personas Data Management

데이터 + AI 기초

1분 이내 소요

데이터 엔지니어링이란 무엇인가요?