去る6月28日、サンフランシスコで開催されたDATA+AI SUMMITにて、「APJ Partner Champion of the Year」を受賞したDatabricks Champion、NTTデータの齋藤が登壇いたしました。 NTTデータのData+AI Summit参加のレポートはこちら Data and AI Summit 2023 - Databricks 現地レポート(6/27 Partner Summit) - Qiita 今回のセッションでは、大手金融機関であるNTTデータのお客様が、データとAIを活用したデータ分析へと進化していく際、数あるサービスの中から、プラットフォームとして、データブリックスを採用された経緯や、基盤構築の際に苦労したポイントなどを紹介しています。お客様の既存のプラットフォームがどのような課題を抱え、データブリックスにどのような期待を持って導入されたのか。同じような課題をお持ちの企業様に参考にしていただければと思います。 <大手金融機関様の状況> 今回ご紹介する大手金融機関のお客様は、日本の中でもデータ活用のパイオニアと言っても過言ではありません。新商品・新サービスの開発や業務プロセスのデジタル化を目指し、2017年頃からデータ分析プラットフォームの構築、全社的に展開されています。個人情報を扱うための厳しいセキュリティ要件や、様々なユースケースに対応しながら日本最大級のデータ分析プラットフォームへと成長してきました。 このデータ分析プラットフォームは、基本的にアーキテクチャはAWSのベストプラクティスに従い、データはS3に保存され、Amazon EMRやAWS Glueなどの分散処理技術で処理されています。Amazon AthenaやAmazon RDSにSQLを投げてアドホックな分析やBIを行っていますが、更にAI/MLへと利用が進み、Amazon SageMakerでAIモデルも作っています。 しかし、このデータ分析プラットフォームも、成長に伴い、多くの課題が発生していました。このシステムは、主にAWSマネージドサービスを利用するクラウドネイティブな構成になっていましたが、複数のサービスを一般ユーザが使い分けながら利用する点にハードルがあったこと、また、増え続ける分析テナントに対して基盤構築の自動化技術を適用していても、多くの時間がかかるようになってきたことなど、そもそものアーキテクチャから来る課題が出てきてしまっていました。 プロジェクトは5年目を迎えた時、アーキテクチャを抜本的に見直す方向に舵をきることになります。 <次世代のデータ分析プラットフォームに向けて> アーキテクチャの見直しにあたって、私たちは、こういった基盤構成上の問題にとどまらず、構築時にはなかった業務上の課題や、要望などを洗い直し、前提条件から見直し、それらを踏まえた上で将来のデータ分析基盤のビジョンをまとめていきました。 抽出された課題・要望は大きく以下の6つのカテゴリに分類しています。 SIerとして、NTTデータは、フラットな立場でデータブリックスと他のDWH製品、および当時利用されていたAWSサービスの候補に対して、BI・アドホック分析、AI/ML、データエンジニアリングなど主要な6つのユースケースについて上記のビジョンとの適合度を確認していきました。 <AI/MLにおいて、SQLエンジンは真価を発揮できない> 今回、お客様がプラットフォームの見直しにおいて検討された最大のポイントはAI/MLのユースケースにおける処理エンジンです。 現状、データ分析プラットフォームは、Amazon Athena、Amazon Redshift、BigQueryなど、SQLで大規模データを処理するエンジンが中心になっていること多く、大規模なSQLエンジンにクエリーを投げるようなBIのユースケースでは理にかなったものです。しかし、機械学習においては、ライブラリーの入力は「ファイル」であり、処理は、SQLエンジンでは実行できず、結局pythonを使ってローカルで行うことになります。 膨大なデータをローカルへダウンロードしてから処理することになるため、ダウンロード時間が大きくなることに加え、ローカル環境側のリソースが不足、さらにそれを補うのにリソースのコストが増大していくという負のスパイラルに陥ります。また、ローカルにダウンロードしたデータはその後のガバナンスが効かず、優れたAIモデルであっても商用利用するのが難しくなるといった業務上の問題も発生してきます。 今回のお客様も、やはりAI/ML環境のコストが非常に高いという問題を抱えていました。 この問題に対し、私たちは、BIの実行でSQLエンジンは必須でありながら、一方でPythonの処理もデータをダウンロードせずにサーバーサイドで行えるような環境を実現できないか検討しました。SQLエンジンとPythonエンジンの両方を維持するという策もありますが、データが増え続けるなか、データ管理の煩雑さユーザビリティの低下は無視できないものとなり、その策は採れません。 そこで、SQLとPythonの両エンジンを組み合わせたデータブリックスのレイクハウスプラットフォームがソリューションとして最適だと考えました。 私たちが評価の候補に挙げただけでなく、お客様が採用に至った最大のポイントもまさにこの点でした。 <各ユースケースごとの評価観点> 本セッションでは、以下の代表的な8つの評価観点についてご紹介しました。特にAI開発・MLOpsのユースケースでは、ユーザビリティとのトレードオフなどの課題があるため、業務から基盤の観点まで幅広く評価を行っています。 BI・アドホック分析ユースケース 既存のBIツールとの接続性 大規模クエリ―の処理性能 BIユーザからみたユーザビリティ AI開発・MLOpsユースケース MLOps機能のケイパビリティ データサイエンティスト(Pythonユーザ)からみたユーザビリティ データサイエンティストの自由度(セルフサービスでどこまでの機能が利用可能か) ユーザごとの監査ログ取得や詳細なアクセス制御の可否 データ保持の効率性(ユースケースごとにデータを二重で保つ必要があるのか) 上記の観点で確認した結果、データブリックスはより多くの課題を解決でき、ノックアウトになる要素は見られませんでした。 このように、BI、AI両方の処理エンジンとして構成上の問題を解消できるアーキテクチャであるだけでなく、ユーザやデータサイエンティストの視点での機能やユーザビリティ、基盤要件を満たすことを私たちの実際の検証で確認することがでたことで、大手金融機関がデータブリックスを採用するに至ったのでした。 <データブリックスを利用した基盤構築時に問題点とその克服> データブリックスが採用され、環境を構築していきましたが、実は、検証では想定されなかった様々な技術的なハードルが待ち受けていました。実際の開発段階でぶつかった技術的な問題点と、NTTデータのエンジニアたちがそれを具体的にどのように克服していったのかについてもセッションのプレゼンテーションの中で発表していますので、よろしければご覧ください。 Why a Major Japanese Financial Institution Chose Databricks To Accelerate its Data and AI-Driven Journey - Data + AI Summit 2023 | Databricks <データブリックス導入の効果> このように、私たちは、既存プラットフォームの抜本的な見直しにあたって、課題を洗い出し、入念な検証とテストでソリューションをあぶりだしました。また、実際の構築段階でも大きなハードルを乗り越え、データブリックスを導入した結果、60%ものコスト削減を実現しました。また、分析者にとっては、データダウンロード作業の削減されるだけでなく、分析用のテナントとワークスペースがセットになっていることから作業負荷が軽減される、、処理リソースのサイズを自由に選択できるようになるなど、多くの効果が得られています。 <AI活用に遅れを取る日本。そしてTrusted Data Foundation powered by データブリックスの提供> 日本の多くの企業で、データ分析はDWH/BIによって可視化したデータからインサイトを得る段階へ進んでいますが、AIなどを活用した高度なデータ分析を実施できている企業はまだほんの一部にとどまっており、米国企業に大きく後れを取っていると言わざるを得ません。私たちNTTデータは、AIを活用することで、日本企業のデータ活用の成熟度を高めることを使命と考えており、「データ分析基盤の構想立案・構築」、「データマネジメント戦略の策定・推進」、「情報活用組織の立ち上げ・運営サポート」など、数々のお客様ご支援してきた知見を結集したクラウド型ビッグデータ分析基盤ソリューション「Trusted Data Foundation」を提供しています。 この度、それをさらに進化させ、データ+AIをさらに民主化していくための、"Trusted Data Foundation powered by Databricks "を立ち上げました。 この事例でご紹介したような、クライアントの様々な課題に対して、有数のDatabricks Championとデータ活用エンジニアたちが導入をサポートするだけでなく、データ活用段階でのサポートまで提供しています。ソリューションを適用する際には、クライアントの個別の課題に対して徹底的な課題・適用の検証を行います! この記事で紹介している事例について、詳細は、Data+AI Summit 2023のセッションの様子でご覧いただけます。 Data+AI Summit 2023 セッションの様子はこちら。 Why a Major Japanese Financial Institution Chose Databricks To Accelerate its Data and AI-Driven Journey - Data + AI Summit 2023 | Databricks