オープンソース

Databricks のエンジニアは、主要なオープンソースデータテクノロジーのオリジナルクリエーターです

ミートアップに参加
背景

Databricks の主要オープンソースプロジェクト

アイコン – タイトル
Apache SparkTM
Apache Spark は、データエンジニアリング、データサイエンス、機械学習ワークロードを実行するための統合エンジンです。

Apache Spark とは→

Spark と Databricks の比較 →

spark.apache.org のサイトへ →

アイコン – タイトル
Delta Lake
Delta Lake では、AWS S3、ADLS、GCS、HDFS などのストレージシステムの上に、レイクハウスアーキテクチャを構築できます。

Delta Lake について詳しく見る→

Delta.io のサイトへ →

テックトーク:Delta Lake 入門 →

アイコン – タイトル
MLflow
MLflow は、実験、再現性、デプロイメント、中央モデルレジストリなど、機械学習ライフサイクルを管理します。

Databricks のマネージド型 MLflow →

mlflow.org のサイトへ →

テックトーク:MLflow による ML ライフサイクル管理 →

アイコン – タイトル
Redash
Redash では、あらゆるユーザーが SQL を活用して、データソースサイズの規模を問わず、データを探索、クエリ、視覚化、共有することができます。

GitHub の Redash のサイトへ →

アイコン – タイトル
Delta Sharing
Delta Sharing は、セキュアなデータ共有のための新たなオープンプロトコルで、組織内外でのデータ共有を容易にします。

Delta Sharing のサイトへ →

Databricks は、次のオープンソーステクノロジーもサポートしています

アイコン – タイトル
TensorFlow
Databricks は、クラスタ上の深層学習と汎用的なコンピューティングのためのライブラリ TensorFlow をサポートしています。

TensorFlow on Databricks →

アイコン – タイトル
PyTorchTM
PyTorch のクリエイターである Facebook との連携により PyTorch を統合しています。

PyTorch on Databricks →

アイコン – タイトル
KerasTM
Keras は、TensorFlow上で実行される Python で記述された深層学習 APIです。機械学習のための Databricks ランタイムの一部として提供されます。

Keras on Databricks →

アイコン – タイトル
RStudio
R を使用したコラボレーション型データサイエンスのためのオープンソースのツール群を Databricks に統合できます。

R プログラミングによるビッグデータ分析 →

アイコン – タイトル
scikit-learn
NumPy、SciPy、Matplotlib 上に構築された機械学習に広く使用されている Python パッケージを Databricks 上で利用できます。

Scikit-learn on Databricks →

アイコン – タイトル
XGBoost
Python、R、C++ などの言語に対応した分散型勾配ブースティングライブラリが提供されます。

XGBoost on Databricks →

アイコン – タイトル
Terraform
HashiCorp Terraform は、複数のクラウドプロバイダにわたってセキュアかつ予測可能なクラウドインフラを構築するための一般的なオープンソースツールです。Databricks Terraform プロバイダにより、ユーザーは柔軟で堅牢なツールを使用して、Databricks ワークスペース全体を他のインフラと一緒に管理できます。また、Terraform を利用することで、IaC (コードとしてのインフラ)のベストプラクティスを採用できます。

Terraform on Databricks →

無料お試し・その他のご相談を承っております