米出版大手のコンデナスト社は、20 を超えるブランドを運営しています。月当たりの Web コンテンツ閲覧者数は1億を超え、ページビューは8億回を超え、膨大なデータが蓄積されていました。データ部門は、機械学習の利用を通じてパーソナライズされたコンテンツ提案とターゲティング広告を配信し、ユーザーエンゲージメントの向上を図りました。しかし、実際にやってみると、いわゆるバニラ状態の Spark を使用してデータプラットフォームを構築することは、困難であることがわかりました。
インフラの複雑さ:Spark クラスタの構築と管理は多くの準備と頻繁なメンテナンスを要し、結果的に、より重要な業務に十分な時間を確保できなくなっていました。
現状からの脱却:現状の問題を解決し、チームとしての活動を促進するために、データパイプラインの構築と、より高度な分析のための共通のプラットフォームが必要でした。
膨大なデータ量:現状のデータレイクソリューションでは、増え続ける膨大なデータを処理することができませんでした。
コンデナスト社は、Databricks の提供する完全管理のクラウドプラットフォームを導入することで、オペレーションの簡素化、性能の向上、データサイエンスのイノベーションを実現しました。
インタラクティブなワークスペース: Databricks の導入により、データサイエンティストは、データや洞察の共有・追跡を容易にし、コラボレーションを醸成する環境を取得しました。
Delta Lake: 1 か月当たりのデータポイント数が 1 兆を超え、データ量がますます増大するなか、Delta Lake によってその膨大なデータを問題なく処理し、データの書き換えや統合など、より多くのユースケースに対応できるようになりました。
マネージド MLflow: MLflow を活用することで、実験の追跡から実稼働モデルの監視まで、機械学習ライフサイクルの管理が容易になりました。
データ分析と機械学習の基盤として Databricks を導入することで、20 を超えるブランドにおいて、顧客に関する新たな洞察を活用した顧客エンゲージメントの強化戦略が可能になりました。
顧客エンゲージメントの向上:データパイプラインの改善により、コンデナスト社は、より適切なおすすめコンテンツを迅速に提供できるようになり、ユーザーエクスペリエンスの向上に繋がりました。
集約型アプローチ:データエンジニアリングとデータサイエンス部門は、共通のプラットフォームを共有し、新たなコンテンツ商品やエクスペリエンスの創出や問題解決に向けて協力体制を築いています。
拡張性:データ量の増大にも対応する拡張性により、処理能力および洞察抽出能力を維持します。
実稼働モデルの増産:MLflow を利用することで、商品のイノベーションをより迅速に行うことができます。コンデナスト社では、現在 1,200 のモデルを運用しています。