メインコンテンツへジャンプ
導入事例

音声、データ、AI でホームエンターテイメントを変革

10 倍

データ処理コストを 10 倍削減

90%

インフラ管理工数を 90% 削減

comcast-hh-header-image
ソリューション: 顧客セグメンテーション
クラウド: AWS

「Databricks のスケーラビリティにより、1 日あたり数 10 億件に及ぶトランザクションと膨大な量のデータを処理できるようになりました。」

コムキャスト 機械学習担当 VP Jan Neumann 氏

米メディア大手のコムキャスト社は、テクノロジーを活用して数 100 万の視聴者に対し、パーソナライズされたエクスペリエンスを提供することを目指していました。しかし、データパイプラインの処理能力が不足していること、データサイエンスに関わる部門間のコラボレーションが困難であることが、目標達成の障壁となっていました。コムキャスト社は、問題の解決策として Delta Lake や MLflow が統合されている Databricks を導入。ペタバイト規模のデータのための高性能なデータパイプラインを構築し、機械学習モデル 100 種類以上のライフサイクルの管理を簡素化しました。その結果、エミー賞受賞にもつながる、革新的でパーソナライズされた視聴者エクスペリエンスを実現しました。

データや機械学習のニーズに対応できないインフラ

データや機械学習のニーズに対応できないインフラ

特定の番組に対する視聴者の声によるリクエストに素早く対応すること、また、数十億件におよぶ視聴者とのやり取りを実用的な洞察に変えることが、コムキャスト社の IT インフラストラクチャ、データ分析およびデータサイエンス部門にとって大きな課題でした。コムキャスト社ではさらに、クラウド、オンプレミス、また、場合によってはデバイスへの直接接続など、異なる環境にモデルを展開する必要がありました。Databricks 導入前のコムキャスト社は次のような課題を抱えていました。

  • 膨大なデータ:エンターテインメント・システムで生成される数十億のイベントと2千万以上の音声リモコンが、分析のためにセッション化する必要のあるペタバイトのデータを生み出しています。

  • 脆弱なパイプライン:複雑なデータパイプラインは頻繁に故障し、復旧が困難であった。小さなファイルは管理が難しく、下流の機械学習のためのデータ取り込みに時間がかかっていました。

  • コラボレーション不足: グローバルに分散するデータサイエンティストが異なるスクリプト言語で作業しているため、コードの共有と再利用に苦労していました。

  • MLモデルの管理何百ものモデルの開発、トレーニング、デプロイは、非常に手作業で時間がかかり、複製も困難なため、スケールアップが困難でした。

  • 開発チームとデプロイメントの間の摩擦:開発チームは最新のツールやモデルを使いたがり、運用チームは実績のあるインフラにデプロイしたがります。

Delta Lake によるインフラの自動化とデータパイプラインの高速化

Delta Lake によるインフラの自動化とデータパイプラインの高速化

コムキャスト社は、視聴者を喜ばせるための新しい施策を打ち出すためには、データ取り込みから機械学習モデルの展開まで、データ分析プロセスの刷新が必要であるとの結論に達し、Databricks のレイクハウスプラットフォームの導入に至りました。その結果、リッチデータセットの構築、大規模な機械学習の最適化、複数部門が共有するワークフローの合理化とコラボレーションの促進、インフラの簡素化、優れた視聴者エクスペリエンスの提供が可能になりました。

  • インフラ管理の簡素化:自動クラスタ管理、オートスケールやスポットインスタンスなどのコスト管理機能により、運用コストを削減。

  • Delta Lakeによるパフォーマントデータパイプライン。Delta Lakeは、ビデオおよび音声アプリケーションやデバイスからの生のテレメトリのインジェスト、データのエンリッチメント、および初期処理に使用されます。

  • 小さなファイルを確実に管理Delta Lakeは、大規模で迅速かつ信頼性の高い取り込みのために、ファイルを最適化することを可能にしました。

  • コラボレーティブなワークスペース:インタラクティブなノートブックにより、チーム間のコラボレーションとデータサイエンスの創造性が向上し、Comcastはモデルのプロトタイピングを大幅に加速して、より速いイテレーションを実現することが可能になりました。

  • MLライフサイクルの簡素化:マネージドMLflowは、Kubeflow環境を通じて機械学習のライフサイクルとモデルの提供を簡素化し、100以上のモデルを容易に追跡・管理できるようにします。

  • 信頼性の高いETLをスケールアップDelta Lakeは、より豊かなインサイトを得るために、過去のデータとストリーミングデータを確実に結合できる効率的な分析パイプラインをスケールアップして提供します。

  • また、ComcastはTableauを使用してアナリストにデータを提供し、顧客分析に必要な幅広いデータを高速で提供しています。

comcast-video-thumb

成功の裏側:データチームにパワーを

コムキャストを支えるデータチームを動画でご紹介

成功の裏側:データチームにパワーを

コムキャストを支えるデータチームを動画でご紹介

動画を見る

機械学習を活用したパーソナライゼーション

機械学習を活用したパーソナライゼーション

競争の激しいエンターテインメント業界では、立ち止まることは後退を意味します。コムキャスト社は、分析のための統合プラットフォームの導入によって AI を活用した未来型エンターテインメントを先取りし、視聴者エクスペリエンスをより魅力的なものにすることでエンゲージメントを維持し、競争優位性を高めています。

  • エミー賞を受賞した視聴者体験 Databricksは、Comcastがエンゲージメントを高めるインテリジェントな音声コマンドを使用して、非常に革新的で受賞歴のある視聴者体験を実現できるよう支援します。

  • 計算コストを10倍削減: Delta Lakeにより、Comcastはデータ取り込みを最適化し、640台のマシンを64台に置き換えながらパフォーマンスを向上させることができました。インフラ管理が容易になり、データの分析に注力できるようになった。

  • デブオペを減らす。 200ユーザーのオンボーディングに必要なデボップス正社員数を5名から0.5名に削減しました。

  • データサイエンスの生産性向上:インタラクティブな単一のワークスペースで複数の言語をサポートすることで、グローバルに分散するデータサイエンティスト間のコラボレーションを促進。さらに、Delta Lake により、データ部門はデータパイプライン上のデータにいつでもアクセスできるようになり、迅速なモデルの構築とトレーニングが可能になった。

  • モデル展開の高速化:異なるプラットフォームでのモデル展開が可能になり、展開時間が数週間から数分に短縮。