Apache Spark™
Apache Spark は、データエンジニアリング、データサイエンス、機械学習ワークロードを実行するための統合エンジンです。
Apache Spark とは
Spark と Databricks の比較
spark.apache.org のサイトへ
Delta Lake
Delta Lake では、AWS S3、ADLS、GCS、HDFS などのストレージシステムの上に、レイクハウスアーキテクチャを構築できます。
Delta Lake を詳しく見る
Delta.io のサイトへ
テックトーク:Delta Lake 入門
MLflow
MLflow は、実験、再現性、デプロイメント、中央モデルレジストリなど、機械学習ライフサイクルを管理します。
Databricks のマネージド型 MLflow
mlflow.org のサイトへ
テックトーク:MLflow による ML ライフサイクル管理
Redash
Redash では、あらゆるユーザーが SQL を活用して、データソースサイズの規模を問わず、データを探索、クエリ、視覚化、共有することができます。
GitHub の Redash のサイトへ
Delta Sharing
Delta Sharing は、セキュアなデータ共有のための新たなオープンプロトコルで、組織内外でのデータ共有を容易にします。
Delta Sharing のサイトへ
TensorFlow
Databricks は、クラスタ上の深層学習と汎用的なコンピューティングのためのライブラリ TensorFlow をサポートしています。
TensorFlow on Databricks
PyTorch™
PyTorch のクリエイターである Facebook との連携により PyTorch を統合しています。
PyTorch on Databricks
Keras™
Keras は、TensorFlow上で実行される Python で記述された深層学習 APIです。機械学習のための Databricks ランタイムの一部として提供されます。
Keras on Databricks
RStudio
R を使用したコラボレーション型データサイエンスのためのオープンソースのツール群を Databricks に統合できます。
R プログラミングによるビッグデータ分析
scikit-learn
NumPy、SciPy、Matplotlib 上に構築された機械学習に広く使用されている Python パッケージを Databricks 上で利用できます。
Scikit-learn on Databricks
XGBoost
Python、R、C++ などの言語に対応した分散型勾配ブースティングライブラリが提供されます。
Terraform
HashiCorp Terraform は、複数のクラウドプロバイダにわたってセキュアかつ予測可能なクラウドインフラを構築するための一般的なオープンソースツールです。Databricks Terraform プロバイダにより、ユーザーは柔軟で堅牢なツールを使用して、Databricks ワークスペース全体を他のインフラと 一緒に管理できます。また、Terraform を利用することで、IaC (コードとしてのインフラ)のベストプラクティスを採用できます。