
米メディア大手のコムキャスト社は、テクノロジーを活用し、数 100 万の視聴者に対するパーソナライズされたエクスペリエンスの提供をめざしていました。しかし、データパイプラインの処理能力が十分でないこと、データサイエンスに関わる部門間のコラボレーションが困難であることが、目標達成の障壁となっていました。コムキャスト社は、解決策として、Delta Lake や MLflow が統合されている Databricks を導入。ペタバイト規模のデータのための高性能なデータパイプラインを構築し、機械学習モデル 100 種類以上のライフサイクルの管理を簡素化しました。その結果、エミー賞受賞にもつながる、革新的な視聴者エクスペリエンスを実現しています。
課題:データ・機械学習のニーズに対応できないインフラ
特定の番組に対する視聴者の声によるリクエストに迅速に対応すること、また、数十億件におよぶ視聴者とのやり取りを実用的なインサイトに変えることが、コムキャスト社の IT インフラ、データ分析およびデータサイエンス部門にとって大きな課題でした。コムキャスト社ではさらに、クラウド、オンプレミス、デバイスへの直接接続など、異なる環境にモデルを展開する必要がありました。Databricks 導入前のコムキャスト社は次のような課題を抱えていました。
-
膨大なデータ:エンターテイメント・システムと 2 千万を超える数の音声対応リモコンによる数十億のイベントが、ペタバイト級の分析対象データを生み出していた。
-
脆弱なパイプライン:複雑なデータパイプラインには不具合が発生しやすく、復旧が困難であった。多数の小規模ファイルの管理に手間がかかり、下流の機械学習のためのデータの取り込みに遅延が生じていた。
-
不十分なコラボレーション:グローバルに分散するデータサイエンティストがそれぞれ異なる言語を使用しており、コードの共有と再利用が困難であった。
-
機械学習モデルの不効率な管理:数百規模のモデルの開発、トレーニング、デプロイメントが主に手動で行われており、複製も容易でなく、拡張性に欠けていた。
-
開発部門とオペレーション部門のニーズの違い:開発部門は最新のツールやモデルを利用したいと考え、オペレーション部門は実績のあるインフラへのデプロイメントを望んでいた。
Delta Lake によるインフラの自動化とデータパイプラインの高速化
コムキャスト社は、視聴者を喜ばせるための新しい施策を打ち出すためには、データの取り込みから機械学習モデルの展開まで、データ分析プロセスの刷新が必要であるとの結論に達し、Databricks のデータインテリジェンスプラットフォームの導入に至りました。その結果、リッチデータセットの構築、大規模な機械学習の最適化、複数部門が共有するワークフローの合理化とコラボレーションの促進、インフラの簡素化、優れた視聴者エクスペリエンスの提供が可能になりました。
-
インフラ管理の簡素化:自動クラスタ管理、自動スケーリング、スポットインスタンスなどのコスト管理機能により、運用コストが低減した。
-
データパイプラインの効率化:Delta Lake が、動画および音声アプリケーション、デバイスからの生のテレメトリの取り込み、データのエンリッチメント、初期処理を支援し、データパイプラインが高速化した。
-
多数の小規模ファイルの確実な管理:Delta Lake により、高速で信頼性の高い大規模データの取り込みが可能になり、ファイルの処理が最適化した。
-
コラボレーションの促進:インタラクティブなノートブックにより、チーム間の共同作業とデータサイエンスの創造性が向上。モデルのプロトタイピングが大幅に効率化し、迅速なイテレーションが可能になった。
-
機械学習ライフサイクルの簡素化:マネージド MLflow により、Kubeflow 環境における機械学習のライフサイクルとモデルが簡素化され、数百規模のモデルの追跡・管理が容易になった。
-
大規模な ETL の信頼性向上:Delta Lake が、過去のデータとストリーミングデータを確実に結合する高効率な大規模分析パイプラインを可能にし、より効果的なインサイトが得られるようになった。
-
BI の高速化:Tableau を活用して顧客分析を行うデータアナリストに、広範なデータセットを高速に供給できるようになった。

成功の裏側:データチームにパワーを
コムキャストを支えるデータチームを動画でご紹介
機械学習を活用したパーソナライズ
競争の激しいエンターテイメント業界では、立ち止まることは後退を意味します。コムキャストは、分析のための統合プラットフォームの導入によって、AI を活用した未来型エンターテイメントを先取りし、視聴者エクスペリエンスをより魅力的なものにすることでエンゲージメントを向上させ、優位性を高めています。
-
エミー賞に輝く視聴者エクスペリエンス:Databricks の導入により、インテリジェントな音声コマンドを使用した革新的な視聴者エクスペリエンスを実現。エンゲージメントの向上に成功し、エミー賞受賞に至った。
-
コンピューティングのコストを 1/10 に削減: Delta Lake の利用により、データの取り込みを最適化し、性能を向上させると同時にマシンの台数を 640 から 64 に削減。インフラ管理が容易になり、データ分析に注力できるようになった。
-
DevOps 工数を大幅削減:200 ユーザーのオンボーディングに要する DevOps のリソースを 5 名から 0.5 名に削減できた。
-
データサイエンスの生産性向上:インタラクティブな単一のワークスペースで複数の言語をサポートすることで、グローバルに分散するデータサイエンティスト間のコラボレーションを促進。さらに、Delta Lake により、データ部門はデータパイプライン上のデータに常時アクセスできるようになり、モデルの構築とトレーニングが効率化した。
-
モデル展開の高速化:異なるプラットフォームでのモデル展開が可能になり、展開時間が数週間から数分に短縮した。