エンジニアリングのブログ

ページ 10

外部から Databricks 上の MLflow を使用する

September 2, 2021 Masahiko Kitamura による投稿 in チュートリアル

MLOps を効果的に実施するためのフレームワークである MLFlow はあらゆる環境での機械学習を一元的に管理することが可能です。Databricks ではこの MLflow をマネージドサービスとして提供しており、Databricks 上での機械学習はもちろん、Databricks 環境以外での機械学習についても連携することが可能です。この記事では、 Databricks の外部環境（ローカル PC 上など）からワークスペース内の MLflow を使用する方法について説明します。以下のステップで実行していきます Databricks ワークスペースに MLflow の experiment を作成する...

データレイクで増分 ETL のメリットを活かす - CDC の課題など

August 30, 2021 John O'Dwyer による投稿 in データエンジニアリング

従来のデータウェアハウスでの増分 ETL といえば、CDC（change data capture、変更データキャプチャ）を利用する方法が一般的になっています。しかし、スケーラビリティ、コスト、状態の把握や機械学習との連携が困難であることなどの問題があり、この CDC により増分 ETL を実行する方法は、必ずしも理想的とはいえません。一方、データレイクでの増分 ETL は、これまで、ビッグデータのテーブルのデータ更新や変更データの特定ができないといった理由により不可能とされてきました。しかし今日、データレイクで増分 ETL を利用することが可能になりました！増分 ETL には多くのメリットがあります。効率性やシンプルさ、データサイエンティストやデータアナリストのどちらも利用できる柔軟なデータアーキテクチャの構築などが挙げられます。このブログでは、データレイクで増分 ETL を使用するメリットと、それをサポートするデータアーキテクチャについて解説します。増分 ETL とは？まず、増分 ETL とは何かを明らか

BI ツールの広帯域接続を実現するには

August 11, 2021 Bogdan Ionut Ghit、Juliusz Sompolski、ステファニア・レオーネ、Reynold Xin（レイノルド・シン）による投稿 in エンジニアリングのブログ

Tableau や Microsoft Power BI などのビジネスインテリジェンス（BI）ツールは、従来のデータウェアハウスから大規模なクエリ結果を抽出するのに多くの時間を要することで知られています。これは、通常、データ転送のボトルネックとなる SQL エンドポイントを介してシングルスレッドでデータを取得するためです。Databricks の SQL エンドポイントに使用している BI ツールを接続することで、データアナリストは、Simba ドライバに統合された ODBC/JDBC プロトコルを介してテーブルのデータのクエリを実行できます。また、Databricks ランタイム 8.3 および Simba ODBC 2.6.17 ドライバでリリースした...

Delta Lake で機械学習の課題を解決

July 22, 2021 Marijse van den Berg、Maria Zervou による投稿 in エンジニアリングのブログ

既存のデータレイクファイルストレージ上に構築されるオープンソースのストレージレイヤーである Delta Lake や機械学習の開発で使用される MLflow が話題に上る機会が増えています。しかし、多くのケースでは 2 つが別々の製品として取り上げられています。本ブログでは、機械学習の開発の際に起こりうるデータのバージョン管理や OOM エラーなどの課題において Delta Lake と MLflow の相乗効果に焦点を当て、堅牢なデータ基盤に基づく有用な機械学習結果を得るために Delta Lake をいかに活用すべきかについて解説します。データサイエンティストであれば、機械学習のモデル作成のプロセスは既に整っており、MLflow を機械学習モデルの本番環境へのデプロイに活用したことがあるでしょう。MLflow には、実験を追跡できる機能や、モデルのプロモーションに活用できる MLflow モデルレジストリが備わっています。また、コードのバージョン、クラスタのセットアップ、データの場所などの追跡機能による再現

AI と機械学習のための大規模な特徴量エンジニアリング

July 16, 2021 Li Yu、Daniel Tomes による投稿 in エンジニアリングのブログ

特徴量エンジニアリングは、機械学習のプロセスの中で最も重要なステップの 1 つであり、多くの時間を要します。データサイエンティストやアナリストは、さまざまな特徴量を組み合わせた実験を重ねてモデルを改善し、ビジネスに有益な情報を提供する BI レポートの作成を目指します。そのような状況下で、データサイエンティストが扱うデータの規模および複雑さが増大し、次のような事柄が課題となっています。特徴量をシンプルかつ一貫性のある方法で定義すること既存の特徴量の識別と再利用既存の特徴量を利用した拡張特徴量やモデルのバージョン管理特徴量定義のライフサイクルの管理特徴量の計算と保存の効率化大規模テーブル（>1000 列）の効率的な計算と永続化意思決定につながるモデルのもとになった特徴量の再現（例：監査や解釈可能性などの実証）このブログでは、大規模データの特徴量を生成する際のデザインパターンについて解説します。また、デザインパターンのリファレンス実装をダウンロード可能な Notebook で提供し、ファースト

ベイズ階層モデルによる COVID-19 疾患パラメタの推定

June 29, 2021 Srijith Rajamohan, Ph.D. による投稿 in エンジニアリングのブログ

前のブログでは、COVID-19（新型コロナウイルス感染症）疾患のダイナミクスを PyMC3 でモデル化する方法を解説しました。今回は、同じユースケースを使用して、ベイズ階層モデルによる COVID-19 疾患パラメタの推論方法および、プールモデル／非プールモデルと比較した場合のメリットについて、次のような順序で解説します。 1) SIR モデルを常微分方程式（ODE）で生成した合成データに当てはめ、 R 0 などの疾患パラメタを推論する。 2) 上記のフレームワークを実際のデータセット（国ごとの 1 日あたりの感染者数）に適用する。 3) このモデルの限界を指摘し、推論プロセスを改善する方法を考察する。なお、Coursera の専門講座「 Introduction to...

データ分析の目的とプロセス

June 29, 2021 Takaaki Yayoi による投稿 in チュートリアル

こちらはデータブリックスユーザー会の第一回イベントで発表された内容となります。こちらからサンプルノートブックをダウンロードできます。データ分析はビジネス上の課題を解決するための手段の 1 つです。データ分析というと予測モデル構築が脚光を浴びがちですが、データをビジネス価値につなげる長い道のりのほんの一部です。この記事では、データ分析を通じでビジネス価値創出につなげるために辿るプロセスを、実例を含めてご紹介します。データ分析の（終わり無き）長いプロセス個人的経験を踏まえたものですが、データ分析プロジェクトは以下のフローになるかと思います。最後までたどり着けないプロジェクトもたくさんありました。ビジネス課題の特定データ分析における仮説の立案データ分析アプローチの検討データソースの調査、分析データの入手分析データの読み込み探索的データ分析（EDA: Exploratory Data Analysis）分析データの前処理分析アルゴリズムの検討...

機械学習プラットフォームの選択における 3 つの原則

June 24, 2021 Joseph Bradley による投稿 in エンジニアリングのブログ

機械学習のプラットフォーム、オペレーション、ガバナンスに関するブログシリーズの第二弾です。Rafi Kurlansik によるこのシリーズの第一弾、「Need for Data-centric ML Platforms」（データセントリックな機械学習プラットフォームの必要性）はこちらからお読みいただけます。某サイバーセキュリティ企業でデータプラットフォーム部門のシニアディレクターを務めるお客様から、次のようなコメントをいただきました。「機械学習のツールは目まぐるしく進化している。将来的にも投資を無駄にしない方法はあるのだろうか？」これは多くの組織に共通する課題です。機械学習（ML）は、他の技術と比較して進化のスピードが速く、ライブラリの多くが開発後間もない段階で共有され、Databricks を含む多くのベンダーがそれぞれツールやプラットフォームを宣伝しています。会話を進めるうちに、このお客様は、データサイエンスや機械学習の取り組みへの投資を無駄にしない方法があることに気づきます。変化し続ける技術をサ

機械学習を活用した小売業者・ブランドのためのアイテムマッチング

May 24, 2021 ルーク・ビルブロ、ブライアン・スミス（Bryan Smith）、ロブ・サカー（Rob Saker）による投稿 in プラットフォームブログ

アイテムマッチングは、オンラインマーケットプレイスの中核的な機能です。小売業者は、最適化された顧客エクスペリエンスを提供すべく、新規／更新された商品情報を既存のリストと比較して、一貫性を確保し、重複を回避します。また、オンライン小売業者は、競合他社のリストと比較して、価格やインベントリの差異を確認します。複数のサイトで商品を提供しているサプライヤーでは、商品がどのように提示されているかを調べて、自社の基準との整合性を確保できます。効果的なアイテムマッチングの必要性は、オンランコマースに限られたことではありません。DSR（デマンドシグナルリポジトリ）は、数十年もの間、補充オーダーのデータに POS やシンジゲートされた市場データを組み合わせて、消費財メーカーに需要の全体を把握するケイパビリティを提供してきました。しかし、メーカーが自社の製品定義と、数十もの小売店パートナーの製品説明との間の差異を埋めることができなければ、DSR の価値は制限されます。このようなタイプのデータをまとめる際の課題は、異なるデータの照