Databricks のコアコンポーネントのひとつに、データサイエンスのワークスペースがあります。データサイエンスのワークスペースでは、データサイエンティスト、データアナリスト、データエンジニアなど、チームの全員で、Notebook を使ったコラボレーションができます。Databricks はさまざまな業種で採用されており、広範なユースケースがあります。Notebook は、Databricks 環境や、無償のコミュニティエディション(CE)に簡単にインポートできます。このギャラリーでは Notebook の活用例をいくつかご紹介します。
Delta Lake
データレイクハウスを構築し、ACID トランザクション、タイムトラベル、制約などをオープンなファイルフォーマットで取得できます。
Databricks:7.6.x (CE は対象外)
Delta Lake 機能の詳細
Delta Lake は Apache Spark™ で ACID トランザクションを実現するオープンソースのストレージフォーマットです。この Delta Lake について詳しく解説します。
機械学習
TensorFlow、Spark MLlib、Horovod をはじめとする一般的な機械学習フレームワークをサポートします。
Databricks:7.6.x w/GPU(CE は対象外)
PyTorch と Horovod による分散型の深層学習
Horovod を使用した PyTorch でモデルの分散学習を行う手法を解説しています。
Databricks:8.1.x
Sparkを使用したストリーミングMLアプリケーションの構築
Spark を使用してクレジットカードの不正利用を監視するストリーミング ML アプリケーションを構築します。
Databricks:7.6.x w/GPU(CE は対象外)
Spark から TensorFlow へのシンプルなデータ変換
Spark DataFrames のデータを TensorFlow 形式に簡単に変換する方法を説明します。
MLflow
モデルのトレーニングから本番環境への移行まで、機械学習をエンドツーエンドでサポートします。
Databricks:7.6.x
クイックスタート:MLflow のスムーズなトラッキング API の使用方法
MLflow のハイレベルかつスムーズなトラッキング API を使用する手法を解説しています。
Databricks:7.6.x (CE は対象外)
表形式データに対する機械学習:エンドツーエンドの例
表形式データに対するエンドツーエンドの ML ライフサイクルの例を Notebook で紹介します。
Apache Spark™
データレイクハウスのデータエンジニアリングとデータサイエンスを強化する分散コンピューティングエンジンです。