주요 컨텐츠로 이동

Apache Spark™

Apache Spark는 빅데이터와 머신 러닝에 사용하는 고속 통합 분석 엔진입니다. 원래는 2009년에 UC Berkeley에서 개발되었습니다.

largest open source apache spark image

데이터 처리 분야에서는 가장 규모가 큰 오픈 소스 프로젝트입니다.

통합 분석 엔진인 Apache Spark는 릴리스된 이후로 다양한 산업의 기업에서 빠른 속도로 도입되었습니다. Netflix, Yahoo, eBay와 같은 인터넷 대기업들이 대규모로 Spark를 배포하였고, 8,000개가 넘는 클러스터에서 모두 합쳐 페타바이트 규모의 데이터를 처리합니다. 얼마 지나지 않아 빅데이터 분야에서는 최대 규모의 오픈 소스 커뮤니티로 성장하였고 250개 이상 조직에서 1,000명 이상이 기여하고 있습니다.

what is apache spark

UC Berkeley에서 Spark 연구 프로젝트를 시작했던 팀이 2013년에 Databricks를 설립했습니다.

Apache Spark는 공급업체와 관계없이 Apache Software Foundation에서 호스팅되는 100% 오픈 소스입니다. Databricks에서는 이 오픈 개발 모델을 유지하고자 최선을 다하고 있습니다. Databricks는 Spark 커뮤니티와 더불어, 앞으로도 개발과 커뮤니티를 전도함으로써 Apache Spark 프로젝트에 크게 이바지하고 있습니다.

What is Apache Spark - Benefits of Apache Spark

Speed

Engineered from the bottom-up for performance, Spark can be 100x faster than Hadoop for large scale data processing by exploiting in memory computing and other optimizations. Spark is also fast when data is stored on disk, and currently holds the world record for large-scale on-disk sorting.

Ease of Use

Spark has easy-to-use APIs for operating on large datasets. This includes a collection of over 100 operators for transforming data and familiar data frame APIs for manipulating semi-structured data.

A Unified Engine

Spark comes packaged with higher-level libraries, including support for SQL queries, streaming data, machine learning and graph processing. These standard libraries increase developer productivity and can be seamlessly combined to create complex workflows.

Databricks 클라우드에서 무료로 Apache Spark 체험하기

Databricks 통합 분석 플랫폼은 완전 관리형 클라우드 플랫폼에서 오픈 소스 Spark, 협업 노트북, 통합 워크플로, 엔터프라이즈 보안에 대해 5배의 성능을 제공합니다.

오픈 소스 Apache Spark 프로젝트는 여기에서 다운로드할 수 있습니다.