メインコンテンツへジャンプ
ページ 1
Engineering blog

Terraform による Databricks ワークスペースの環境構築(AWS 編)

September 29, 2021 Masahiko Kitamura による投稿 in チュートリアル
Databricks ワークスペースは、1 つの独立した Databricks 環境を提供します。 そのため、要件によっては複数のワークスペースを同時に作成・運用するケースもあります。 こうした状況では、Databricks ワークスペースを Code として管理(IaC)し、自動化することで運用がスムーズになります。 Databricks では、運用現場で求められる機能をツールとして提供する Labs Project の一環で、 Databricks Terraform Provider を公開しています。 このドキュメントでは、Terraform を用いて AWS 上に...
Engineering blog

外部から Databricks 上の MLflow を使用する

September 2, 2021 Masahiko Kitamura による投稿 in チュートリアル
MLOps を効果的に実施するためのフレームワークである MLFlow はあらゆる環境での機械学習を一元的に管理することが可能です。Databricks ではこの MLflow をマネージドサービスとして提供しており、Databricks 上での機械学習はもちろん、Databricks 環境以外での機械学習についても連携することが可能です。 この記事では、 Databricks の外部環境(ローカル PC 上など)からワークスペース内の MLflow を使用する方法について説明します。 以下のステップで実行していきます Databricks ワークスペースに MLflow の experiment を作成する...
Engineering blog

データ分析の目的とプロセス

June 29, 2021 Takaaki Yayoi による投稿 in チュートリアル
こちらは データブリックスユーザー会 の第一回イベントで発表された内容となります。 こちら からサンプルノートブックをダウンロードできます。 データ分析はビジネス上の課題を解決するための手段の 1 つです。 データ分析というと予測モデル構築が脚光を浴びがちですが、データをビジネス価値につなげる長い道のりのほんの一部です。 この記事では、データ分析を通じでビジネス価値創出につなげるために辿るプロセスを、実例を含めてご紹介します。 データ分析の(終わり無き)長いプロセス 個人的経験を踏まえたものですが、データ分析プロジェクトは以下のフローになるかと思います。最後までたどり着けないプロジェクトもたくさんありました。 ビジネス課題の特定 データ分析における仮説の立案 データ分析アプローチの検討 データソースの調査、分析データの入手 分析データの読み込み 探索的データ分析(EDA: Exploratory Data Analysis) 分析データの前処理 分析アルゴリズムの検討...
Engineering blog

Community Editionで始めるDatabricks

April 22, 2021 Masahiko Kitamura による投稿 in チュートリアル
Databricksはあらゆるデータ・分析・データサイエンスのワークロードに対応可能なオープンかつシンプルな Lakehouse を提供しています。そして、Databricksではその機能を無償でお試しいただけるよう、2通りの方法を用意しております。 2週間の無償トライアル: Databricksのフル機能をお試しいただけます。 Community Edition: 機能が限定されますが、期限なし・無償でご利用いただけます。 このブログでは、後者のCommunity Editionを使用したDatabricksの始め方について説明します。 Community Editionの機能と制限 Community Editionでは、Databricksのフルバージョンの機能に対して以下の制限があります。 作成できるクラスターは15GB RAM, 2 Core CPUのシングルノードのみ ワークスペースに追加できるユーザー数は最大3名まで クラスターのリージョンはus-westのみ 使用できない機能 ジョブのスケジュール