Databricks의 대표적인 오픈 소스 프로젝트
Apache Spark™
Apache Spark는 데이터 엔지니어링, 데이터 사이언스와 ML 워크로드 실행용 통합형 엔진입니다.
Delta Lake
Delta Lake를 사용하면 AWS S3, ADLS, GCS 및 HDFS와 같은 스토리지 시스템을 기반으로 레이크하우스 아키텍처를 빌드할 수 있습니다.
MLFlow
MLflow는 실험, 재현 가능성, 배포와 중앙 모델 레지스트리 등 ML 수명 주기를 관리합니다.
Redash
Redash를 사용하면 누구나 SQL을 활용해 크고 작은 데이터 소스로부터 데이터를 탐색, 쿼리, 시각화하고 공유할 수 있습니다.
Delta Sharing
Delta Sharing은 안전한 데이터 공유를 위한 업계 최초의 오픈 프로토콜로, 다른 조직과 간편하게 데이터를 공유할 수 있게 해줍니다.
Databricks에서 지원하는 기타 보편적인 오픈 소스 기술
TensorFlow
Databricks에서는 딥 러닝과 클러스터에서의 일반 연산을 위한 라이브러리 Tensorflow 지원
PyTorch™
PyTorch 개발자인 Facebook과 Databricks, 통합을 위해 협업

Keras™
Python으로 쓰인 딥러닝 API로, TensorFlow 기반으로 실행됩니다. Databricks Runtime for ML에서 제공
RStudio
R을 사용한 협업형 데이터 사이언스용 오픈 소스 툴 스위트
scikit-learn
NumPy, SciPy 및 Matplotlilb 기반으로 구축된 보편적인 머신 러닝용 Python 패키지
XGBoost
Python, R 및 C++ 등의 언어로 된 바인딩을 포함한 분산형 그래디언트 부스팅(gradient boosting) 라이브러리
Terraform
HashiCorp Terraform은 여러 클라우드 제공업체에서 안전하고 예측 가능한 클라우드 인프라를 만드는 데 사용하는 인기 오픈 소스 도구입니다. Databricks Terraform 공급업체는 고객이 유연하고 강력한 도구를 사용하여 나머지 인프라와 함께 Databricks 워크스페이스를 관리하도록 지원합니다. 또한, Terraform를 사용하는 고객은 코드형 인프라(IaC)로 모범 사례를 쉽게 도입할 수 있습니다.