メインコンテンツへジャンプ

Jupyter Notebook

Databricks 無料トライアル

Jupyter Notebook とは

Juypter のロゴ

Jupyter Notebook は、オープンソースで提供された Web アプリケーションであり、プログラムや数式、その他のマルチメディアリソースを含むドキュメントを作成・共有する目的で、主にデータサイエンティストに利用されています。

Jupyter Notebook の用途

Jupyter Notebook は、探索的データ解析(EDA)、データクレンジングとデータ変換、データ可視化、統計モデリング、機械学習、深層学習など、データサイエンスで行われるあらゆる処理に使用されています。

Jupyter Notebook を利用するメリット

Jupyter Notebook は、データチームが実際に行った作業を再現するのに有効です。使い方は簡単で、セルを 1 つずつ実行するだけです。セルにはコード、マークダウン、リンク、画像を埋め込むことができ、コードが何をしているのかを容易に理解できます。

また、Jupyter Notebook は、Web インターフェースを通じて、標準的な出力形式(HTML、Powerpoint、LaTeX、PDF、ReStructuredText、Markdown、Python)に柔軟に変換できるため、データサイエンティストは自分の作業を他のユーザーと容易に共有できます。

Jupyter Notebook の仕組み

Jupyter Notebook は、フロントエンドの Web ページとバックエンドのカーネルの 2 つの要素で構成されています。Web ページでは、「セル」と呼ばれる長方形の枠にプログラミングコードやテキストを入力できます。ブラウザはそのコードをカーネルに渡し、カーネルはそのコードを実行して結果を返します。

Jupyter Notebook のデメリット

  • 保守と同期の維持が困難:共同作業でコードを作成する場合、保守と同期の維持が困難です。
  • コードの運用が困難:Jupyter Notebook には、機械学習モデルを運用するための統合やツールは組み込まれていません。
  • スケールが困難:Jupyter Notebook はシングルノードのデータサイエンス用に設計されています。データが大きすぎてコンピュータのメモリに収まらない場合、Jupyter Notebook の使用は著しく困難になります。

Databricks での Jupyter Notebook の利用

Databricks は、データサイエンスの強力なコラボレーションツールを提供します。Databricks の Notebook には、データの可視化とジョブによる運用化が組み込まれており、エンジニアリング、データサイエンス、機械学習の各チーム間で複数の言語を使用した共同作業を行うことができます。Databricks の無料トライアルでお試しいただけます。

Databricks における Jupyter Notebook のサポート

Databricks クラスタは、Jupyter エコシステムのオープンソースツール(表示・出力ツールなど)を利用するために、IPython カーネルを使用するように設定できます。また、.ipynb ファイルのインポート/エクスポートをサポートしており、Databricks 上においても Jupyter Notebook で中断したところから容易に再開できます。Databricks では、 Databricks 機械学習のランタイム内において、オープンソースの Jupyter のライブラリを長年サポートしています。

Databricks で IPython カーネルを使用するには

すぐに始められます。ドキュメントを参照し、Databricks の無料トライアルをご利用ください。

FAQ

1. Jupyter Notebookの主な用途は何ですか?
探索的データ解析、データクレンジング、可視化、統計モデリング、機械学習などに利用されます。

2. Jupyter Notebookのデメリットにはどんなものがありますか?
保守や同期が難しいこと、大規模データ処理への不向き、運用機能の不足が挙げられます。

3. DatabricksにおけるJupyter Notebookの利点は何ですか?
可視化やジョブ運用機能が組み込まれ、複数言語でのチーム共同作業や.ipynbファイルの利用が容易です。

関連資料

用語集に戻る