メインコンテンツへジャンプ
<
ページ 21
>

ベイズ階層モデルによる COVID-19 疾患パラメタの推定

前のブログ では、COVID-19(新型コロナウイルス感染症)疾患のダイナミクスを PyMC3 でモデル化する方法を解説しました。今回は、同じユースケースを使用して、ベイズ階層モデルによる COVID-19 疾患パラメタの推論方法および、プールモデル/非プールモデルと比較した場合のメリットについて、次のような順序で解説します。 1) SIR モデル を常微分方程式(ODE)で生成した合成データに当てはめ、 R 0 などの疾患パラメタを推論する。 2) 上記のフレームワークを実際のデータセット(国ごとの 1 日あたりの感染者数)に適用する。 3) このモデルの限界を指摘し、推論プロセスを改善する方法を考察する。 なお、Coursera の専門講座「 Introduction to...

データ分析の目的とプロセス

June 29, 2021 Takaaki Yayoi による投稿 in チュートリアル
こちらは データブリックスユーザー会 の第一回イベントで発表された内容となります。 こちら からサンプルノートブックをダウンロードできます。 データ分析はビジネス上の課題を解決するための手段の 1 つです。 データ分析というと予測モデル構築が脚光を浴びがちですが、データをビジネス価値につなげる長い道のりのほんの一部です。 この記事では、データ分析を通じでビジネス価値創出につなげるために辿るプロセスを、実例を含めてご紹介します。 データ分析の(終わり無き)長いプロセス 個人的経験を踏まえたものですが、データ分析プロジェクトは以下のフローになるかと思います。最後までたどり着けないプロジェクトもたくさんありました。 ビジネス課題の特定 データ分析における仮説の立案 データ分析アプローチの検討 データソースの調査、分析データの入手 分析データの読み込み 探索的データ分析(EDA: Exploratory Data Analysis) 分析データの前処理 分析アルゴリズムの検討...

機械学習プラットフォームの選択における 3 つの原則

June 24, 2021 Joseph Bradley による投稿 in エンジニアリングのブログ
機械学習のプラットフォーム、オペレーション、ガバナンスに関するブログシリーズの第二弾です。Rafi Kurlansik によるこのシリーズの第一弾、「Need for Data-centric ML Platforms」(データセントリックな機械学習プラットフォームの必要性)は こちら からお読みいただけます。 某サイバーセキュリティ企業でデータプラットフォーム部門のシニアディレクターを務めるお客様から、次のようなコメントをいただきました。 「機械学習のツールは目まぐるしく進化している。将来的にも投資を無駄にしない方法はあるのだろうか?」 これは多くの組織に共通する課題です。機械学習(ML)は、他の技術と比較して進化のスピードが速く、ライブラリの多くが開発後間もない段階で共有され、Databricks を含む多くのベンダーがそれぞれツールやプラットフォームを宣伝しています。会話を進めるうちに、このお客様は、データサイエンスや機械学習の取り組みへの投資を無駄にしない方法があることに気づきます。 変化し続ける技術をサ

機械学習を活用した小売業者・ブランドのためのアイテムマッチング

アイテムマッチングは、オンラインマーケットプレイスの中核的な機能です。小売業者は、最適化された顧客エクスペリエンスを提供すべく、新規/更新された商品情報を既存のリストと比較して、一貫性を確保し、重複を回避します。また、オンライン小売業者は、競合他社のリストと比較して、価格やインベントリの差異を確認します。複数のサイトで商品を提供しているサプライヤーでは、商品がどのように提示されているかを調べて、自社の基準との整合性を確保できます。 効果的なアイテムマッチングの必要性は、オンランコマースに限られたことではありません。DSR(デマンドシグナルリポジトリ)は、数十年もの間、補充オーダーのデータに POS やシンジゲートされた市場データを組み合わせて、消費財メーカーに需要の全体を把握するケイパビリティを提供してきました。しかし、メーカーが自社の製品定義と、数十もの小売店パートナーの製品説明との間の差異を埋めることができなければ、DSR の価値は制限されます。 このようなタイプのデータをまとめる際の課題は、異なるデータの照

データレイクハウスと機械学習の融合による再現性の強化

機械学習が組織やプロジェクトにこれまでにない価値をもたらすことが証明されています。機械学習には、イノベーションの加速、パーソナライゼーション、需要予測など、さまざまなユースケースがあります。しかし、課題もあります。それは、使用されるデータのソースが無数に存在し、ツールや依存関係のエコシステムも絶え間なく変化することから、ソリューションは流動的かつ、元の状態への再現性が低くなってしまうことです。 機械学習で構築するモデルが常に正しいとは限りません。そこで、モデルの精度を高めるために実験を繰り返します。その実験の信頼性を高めるには、モデルと結果の再現性を高める必要があります。再現性を高める機械学習実験においては、少なくとも次の項目の再現が期待されます。 データのトレーニング/検証/テスト コンピューティング 環境 モデル(関連するハイパーパラメータなど) コード しかし、機械学習での再現性の確保は、実際には非常に難しいタスクです。例えば、モデルのトレーニングに使用されたデータと同一のデータにアクセスする必要があります