Jupyter Notebook

Databricks 無料トライアル

Jupyter Notebook とは

Jupyter Notebook は、オープンソースで提供された Web アプリケーションであり、プログラムや数式、その他のマルチメディアリソースを含むドキュメントを作成・共有する目的で、主にデータサイエンティストに利用されています。

Jupyter Notebook の用途

Jupyter Notebook は、探索的データ解析（EDA）、データクレンジングとデータ変換、データ可視化、統計モデリング、機械学習、深層学習など、データサイエンスで行われるあらゆる処理に使用されています。

Jupyter Notebook を利用するメリット

Jupyter Notebook は、データチームが実際に行った作業を再現するのに有効です。使い方は簡単で、セルを 1 つずつ実行するだけです。実行するだけです。セルにはコード、マークダウン、リンク、画像を埋め込むことができ、コードが何をしているのかを容易に理解できます。

また、Jupyter Notebook は、Web インターフェースを通じて、標準的な出力形式（HTML、Powerpoint、LaTeX、PDF、ReStructuredText、Markdown、Python）に柔軟に変換できるため、データサイエンティストは自分の作業を他のユーザーと容易に共有できます。

Jupyter Notebook の仕組み

Jupyter Notebook は、フロントエンドの Web ページとバックエンドのカーネルの 2 つの要素で構成されています。Web ページでは、「セル」と呼ばれる長方形の枠にプログラミングコードやテキストを入力できます。ブラウザはそのコードをカーネルに渡し、カーネルはそのコードを実行して結果を返します。

Jupyter Notebook のデメリット

保守と同期の維持が困難：共同作業でコードを作成する場合、保守と同期の維持が困難です。
コードの運用が困難：Jupyter Notebook には、機械学習モデルを運用するための統合やツールは組み込まれていません。
スケールが困難：Jupyter Notebook はシングルノードのデータサイエンス用に設計されています。データが大きすぎてコンピュータのメモリに収まらない場合、Jupyter Notebook の使用は著しく困難になります。

Databricks での Jupyter Notebook の利用

Databricks は、データサイエンスの強力なコラボレーションツールを提供します。Databricks の Notebook には、データの可視化とジョブによる運用化が組み込まれており、エンジニアリング、データサイエンス、機械学習の各チーム間で複数の言語を使用した共同作業を行うことができます。Databricks の無料トライアルでお試しいただけます。

Databricks における Jupyter Notebook のサポート

Databricks クラスタは、Jupyter エコシステムのオープンソースツール（表示・出力ツールなど）を利用するために IPython カーネルを使用するよう設定できます。また、.ipynb ファイルのインポート／エクスポートをサポートしており、Databricks 上においても Jupyter Notebook で中断したところから容易に再開できます。Databricks では、 Databricks 機械学習のランタイム内において、オープンソースの Jupyter のライブラリを長年サポートしています。

Databricks で IPython カーネルを使用するには

すぐに始められます。ドキュメントを参照し、Databricks の無料トライアルをご利用ください。