バイエルはライフサイエンス企業であり、ヘルスケアと栄養の分野におけるグローバルリーダーとして、83か国、100以上の市場で事業を展開しています。「すべての人に健康を、飢餓をゼロに」というミッションを掲げるバイエルは、92,500 人の従業員に、大規模なデータへの安全で発見可能なアクセスを提供することに着手しています。5 年前はシステムが断片化されていたため、これはほぼ不可能であり、コンシューマーヘルス事業部門のチームは意思決定のためにデータを適切に活用できずにいました。DatabricksとUnity Catalogを導入することで、バイエル コンシューマーヘルスは、データサイロのない単一の統制されたデータプラットフォームを構築し、セルフサービスアナリティクスを実現しました。Databricks を使用して、再利用可能なコアアセットを構築し、セルフサービスアナリティクスを可能にし、すべての人にインサイトを提供し、誰にもデータサイロを作らない、データ主導の組織を育成しています。— アンドレ・ヴーテノウ、バイエル社 プリンシパル クラウド プラットフォーム アーキテクトグローバルな断片化と「データツーリズム」グローバルに事業を展開する企業として、バイエルの以前のデータ分析環境は市場ごとに断片化されており、それぞれが異なる目的で独自のテクノロジースタックを使用していました。データを共有する必要がある場合、データはしばしばコピーされ、時には複数回コピーされることもありました。バイエルはこれを「データツーリズム」と呼んでいます。データツーリズムは、データマネジメントコストの増加と新しいソリューションの実装の遅延につながりました。この複雑さは、パフォーマンスの問題とともに、バイエルの IT 部門が提供できるソリューションの導入率の低さにつながり、データドリブンな意思決定を行う企業の能力に課題をもたらしました。コストとパフォーマンスの問題に加えて、データツーリズムにより、誰がどのデータを使用しているかを理解したり、一貫したアクセス制御を適用したり、市場間で信頼できるアセットを自信を持って再利用したりすることが困難になりました。さらに、バイエルは機械学習などの最新のデータ分析ツールを活用する上で大きな課題に直面していました。「機械学習をサポートするために必要なシステムは、追加のコストとメンテナンスの負担をもたらしました。なぜなら、機械学習を、異なるテクノロジースタック、異なるデータセンター、異なるタイプのスケーラー上の、完全に専用のプラットフォームに移行する必要があったからです。そのため、当時は機械学習を適切に活用することができませんでした」と、バイエル社のプリンシパル クラウド プラットフォーム アーキテクトであるアンドレ・ヴーテノウ氏は述べています。これらの課題に対する解決策を探していたとき、バイエルのコンシューマーヘルス データ分析組織は、グローバルでスケーラブルなデータプラットフォームを構築する必要があることを認識していました。3 つのグローバルリージョンにまたがる 25 のゾーンで 2,000 人以上のビジネスユーザーを抱え、250 人以上の機械学習およびデータエンジニアに支えられているバイエルは、可能な限りサーバーレステクノロジーを活用できるクラウドベースのシステムを必要としていました。「あらゆるデータ量と同時ユーザー数に合わせてソリューションを拡張し、誰もが最高のパフォーマンスと即時の結果を得られるようにすることが重要でした」と Wuthenow 氏は述べています。クラウドベースのソリューションは、バイエルが使用した分だけ支払うため費用対効果にも優れており、グローバル標準として展開する前に新しいサービスを小規模で試す柔軟性を同社に与えることになります。Databricks におけるテンプレートベースの環境バイエル コンシューマー ヘルスは、データプラットフォームの基盤としてDatabricksを選択し、データの取り込み、ストレージなどのためにAzure Servicesで強化しました。Databricks ですべてのデータ変換とデータクレンジングを行い、生データを再利用可能で品質チェック済みの信頼できるデータ資産へと変換します。このソリューションにより、Bayer は開発者が活用できるように、Azure 機械学習 やその他の Azure AI サービスを提供することもできます。Databricksは、BayerのデータエンジニアがBIレポート、機械学習ソリューション、分析アプリケーションのいずれを構築する場合でも、そのニーズに対応する統一された統合プラットフォームを提供します。Databricksを統合プラットフォームとして利用することで、バイエルは、多くのチームが互いに悪影響を与えることなく、複数のプロジェクトを並行して実行できます。各チームは、新しいデータ製品のライフサイクルを独立して管理できます。ローカル市場にはグローバルなアナリティクスとは異なる独自のデータニーズがあることを踏まえ、複数のコピーや「データツーリズム」を回避するために全データを一元化しつつ、各チームがそれぞれの市場に合った方法でデータを活用できる柔軟性を提供するシステムが必要でした。「Databricks を活用して、テンプレートベースの環境と専用サービスインスタンスを構築することで、適切なリソース分離とライフサイクル管理を保証しました」と Wuthenow 氏は述べています。Unity Catalogは、これらの環境全体にわたって一元化されたガバナンスとメタデータのレイヤーを提供します。これにより、コアデータ資産を一度ガバナンスするだけで、チームはプロジェクトやリージョンを越えて安全にそれらを利用・再利用できます。データ製品の迅速な実装とセルフサービスレポートHive Metastore の代替として Unity Catalog を導入したことで、バイエルはプッシュベースからプルベースのデータ共有アプローチに移行しました。データコンシューマーは、管理され、信頼されたコアデータアセットにアクセスするための許可のみを必要とします。そのため、各データドメインチームは、環境間でデータをコピーすることなく、何を誰と共有するかを自ら定義できます。サーバーレスと Unity Catalog の導入により、バイエル コンシューマーヘルスは、開発環境から本番運用コアデータアセットへの安全な接続を可能にしました。これにより、データエンジニアは、データ流出対策を講じながら、本番運用レベルのデータを使用して開発環境で新しいソリューションを構築できるようになり、新しいアナリティクスソリューションの市場投入までの時間が短縮されました。「Unity Catalog は我々にとってゲームチェンジャーでした」と Wuthenow 氏は述べています。「この新しいモデルにより、あらゆる段階のデータ製品で最新のデータが利用可能であることを簡単に保証できます。これにより、エンジニアは本番運用レベルのデータを使用してソリューションをテストできるため、新しいソリューションの構築とテストが高速化されます。」バイエル コンシューマーヘルスは、すべてのカタログにリンクする中央レポートエンドポイントも導入しました。グローバルなコアデータアセットは単一のリージョンで管理されているため、従業員は単一の管理されたエントリポイントを通じてドメインを越えてデータを簡単に検出して組み合わせることができ、サイロや一貫性のない定義を再導入することなくセルフサービスアナリティクスを拡張できます。DatabricksとUnity Catalogを活用して、Bayer Consumer Healthは柔軟性を維持しながら、データアクセス、命名、セキュリティに関する共通の標準を確立しました。ガバナンスは後から適用されるのではなくプラットフォームに組み込まれているため、セルフサービスアナリティクスを安心して拡張できます。Wuthenow氏は次のように述べています。「私たちは再利用可能なコアアセットを構築してセルフサービスアナリティクスを実現し、すべての人に知見を提供してデータサイロをなくす、データドリブンな組織を育成しています。」 (このブログ記事はAI翻訳ツールを使用して翻訳されています) 原文記事