Databricks의 대표적인 오픈 소스 프로젝트
Apache SparkTM
Apache Spark는 데이터 엔지니어링, 데이터 사이언스와 ML 워크로드 실행용 통합형 엔진입니다.
Delta Lake
Delta Lake를 사용하면 AWS S3, ADLS, GCS 및 HDFS와 같은 스토리지 시스템을 기반으로 레이크하우스 아키텍처를 빌드할 수 있습니다.
MLflow
MLflow는 실험, 재현 가능성, 배포와 중앙 모델 레지스트리 등 ML 수명 주기를 관리합니다.
Redash
Redash를 사용하면 누구나 SQL을 활용해 크고 작은 데이터 소스로부터 데이터를 탐색, 쿼리, 시각화하고 공유할 수 있습니다.
Delta Sharing
Delta Sharing은 안전한 데이터 공유를 위한 업계 최초의 오픈 프로토콜로, 다른 조직과 간편하게 데이터를 공유할 수 있게 해줍니다.
Databricks에서 지원하는 기타 보편적인 오픈 소스 기술
TensorFlow
Databricks에서는 딥 러닝과 클러스터에서의 일반 연산을 위한 라이브러리 Tensorflow 지원
PyTorchTM
PyTorch 개발자인 Facebook과 Databricks, 통합을 위해 협업

KerasTM
Python으로 쓰인 딥러닝 API로, TensorFlow 기반으로 실행됩니다. Databricks Runtime for ML에서 제공됩니다.
RStudio
R을 사용한 협업형 데이터 사이언스용 오픈 소스 툴 스위트
scikit-learn
NumPy, SciPy 및 Matplotlilb 기반으로 구축된 보편적인 머신 러닝용 Python 패키지
XGBoost
Python, R 및 C++ 등의 언어로 된 바인딩을 포함한 분산형 그래디언트 부스팅(gradient boosting) 라이브러리
Terraform
HashiCorp Terraform은 여러 클라우드 제공업체에서 안전하고 예측 가능한 클라우드 인프라를 만드는 데 사용하는 인기 오픈 소스 도구입니다. Databricks Terraform 공급업체는 고객이 유연하고 강력한 도구를 사용하여 나머지 인프라와 함께 Databricks 워크스페이스를 관리하도록 지원합니다. 또한, Terraform를 사용하는 고객은 코드형 인프라(IaC)로 모범 사례를 쉽게 도입할 수 있습니다.
시작할 준비가
되셨나요?

