2023年11月15日

データインテリジェンスプラットフォーム

AIがデータプラットフォームを根本的に変え、データがエンタープライズAIをどう変えるか

によって Michael Armbrust, Adam Conway（アダム・コンウェイ）, Ali Ghodsi（アリ・ゴディシ）, ナヴィン・ラオ, Arsalan Tavakoli-Shiraji（アルサラン・タバコリ・シラジ）, Patrick Wendell（パトリック・ウェンデル）, Reynold Xin（レイノルド・シン）、 Matei Zaharia による投稿

「ソフトウェアが世界を食べている（Software is eating the world）」という見方が、現代のハイテク産業を形成してきました。今日、ソフトウェアは、私たちが身につける時計から、家、車、工場、農場まで、私たちの生活のいたるところにあります。Databricksでは、まもなくAIがすべてのソフトウェアを食べるようになると考えています。つまり、過去数十年の間に構築されたソフトウェアがインテリジェントになり、データを活用することで、より賢くなるということです。

その影響は膨大かつ多様で、カスタマーサポートから医療、教育まであらゆる分野に影響を及ぼします。このブログでは、AIがデータ・プラットフォームをどのように変えるかについて、私たちの見解を述べます。データ・プラットフォームに対するAIのインパクトは漸進的なものではなく、データへのアクセスを大幅に民主化し、手作業による管理を自動化し、カスタム AI アプリケーションのターンキー（turn the key）作成を可能にするという根本的なものであると主張します。

これらすべてを可能にするのが、組織のデータを深く理解する統合プラットフォームの新潮流です。私たちはこの新世代のシステムをデータ・インテリジェンス・プラットフォームと呼んでいます。

これまでのデータプラットフォームとその課題

データウェアハウスは、企業の構造化されたビジネスデータを整理するソリューションとして1980年代に登場しました。しかし、2010年までには、組織はAIなどのより多様なユースケースをサポートするために、大量の非構造化データを蓄積し始めました。これに対処するため、あらゆる種類のデータに対応するオープンでスケーラブルなシステムとしてデータレイクが導入された。 2015年までには、ほとんどの組織がデータウェアハウスとデータレイクの両方を運用するのが一般的になりました。しかし、このデュアルプラットフォームアプローチは、ガバナンス、セキュリティ、信頼性、管理の面で大きな課題を抱えています。

5年前、データブリックはレイクハウスのコンセプトを開拓し、両者の長所を組み合わせ、一体化させることにしました。レイクハウスは、すべてのデータをオープンな形式で保存・管理し、BIからAIまで幅広いワークロードをネイティブにサポートします。レイクハウスによって、(1)組織内のすべてのデータソースをまとめて照会し、(2)データを使用するすべてのワークロード（BI、AIなど）を統一された方法で管理する統一システムを提供しています。レイクハウスはデータプラットフォームという独自のカテゴリーとなり、現在では企業に広く採用され、ほとんどのベンダーのスタックに組み込まれています。

一方でこれらの進歩とは裏腹に、現在市場に出回っているすべてのデータ・プラットフォームは、まだいくつかの大きな課題に直面しています：

技術スキルの壁：データクエリにはSQL、Python、BIの専門スキルが必要なため、学習曲線が険しくなる。
データの正確性とキュレーション：大規模な組織では、適切で正確なデータを見つけることは困難であり、大規模なキュレーションと計画が必要となる。
管理の複雑さ：データ・プラットフォームは、高度な技術者によって管理されなければ、コストが高騰し、パフォーマンスが低下する可能性がある。
ガバナンスとプライバシー：世界中のガバナンス要件は急速に進化しており、AIの出現により、血統、セキュリティ、プライバシーに関する懸念が増幅している。
新たなAIアプリケーション：ドメイン固有の要求に答える生成的なAIアプリケーションを可能にするために、組織はデータとは別のプラットフォームでLLMを開発・調整し、手作業によるエンジニアリングでデータに接続しなければならない。

こうした問題の多くは、データ・プラットフォームが組織内のデータとその利用方法を根本的に理解していないために生じています。幸いなことに、ジェネレーティブAIは、まさにこうした課題に対処するための強力な新ツールを提示してくれています。

データインテリジェンスプラットフォームの核となる考え方

データ・インテリジェンス・プラットフォームは、AIモデルを採用して企業データのセマンティクスを深く理解することで、データ管理に革命をもたらします。レイクハウスの基盤（企業全体のすべてのデータを照会・管理する統一システム）をベースに、データ（コンテンツとメタデータ）とその使用方法（クエリー、レポート、リネージなど）の両方を自動的に分析し、新しい機能を追加します。

このようにデータを深く理解することで、データ・インテリジェンス・プラットフォームは可能になるのです：

自然言語によるアクセス：DIプラットフォームは、AIモデルを活用し、各組織の専門用語や略語に合わせた自然言語でデータを扱うことができる。このプラットフォームは、既存のワークロードでデータがどのように使用されているかを観察して組織の用語を学習し、専門家でないユーザーからデータ・エンジニアまで、すべてのユーザーにカスタマイズされた自然言語インターフェースを提供する。
セマンティック・カタログ化とディスカバリー：ジェネレーティブAIは、各組織のデータモデル、指標、KPIを理解し、比類のないディスカバリー機能を提供したり、データの使用方法の矛盾を自動的に特定したりすることができる。
管理と最適化の自動化：AIモデルは、データの使用状況に基づいてデータレイアウト、パーティショニング、インデックスを最適化できるため、手作業によるチューニングやノブ設定の必要性を低減する。
ガバナンスとプライバシーの強化：DIプラットフォームは、センシティブなデータを自動的に検出、分類し、悪用を防止するとともに、自然言語による管理を簡素化する。
AIワークロードのファーストクラスのサポート：DIプラットフォームは、関連するビジネスデータに接続し、DIプラットフォームが学習したセマンティクス（メトリクス、KPIなど）を活用して正確な結果を提供することで、あらゆるエンタープライズAIアプリケーションを強化することができる。 AIアプリケーションの開発者は、もろいプロンプト・エンジニアリングによってインテリジェンスを「ハック（hack）」する必要はもうない。

これはここ数年でBIツールが追加した自然言語Q&A機能とどう違うのかと思う人もいるかもしれません。 BIツールは、データワークロード全体の（重要ではあるが）狭い一断面を表しているに過ぎず、その結果、発生しているワークロードの大部分や、BIレイヤーに到達する前のデータの系譜や用途を可視化することはできません。これらのワークロードを可視化しなければ、必要な深い意味的理解を深めることはできません。その結果、こうした自然言語によるQ&A機能は、まだ広く採用されておりません。データインテリジェンスプラットフォームを使えば、BIツールは基礎となるAIモデルを活用して、より豊かな機能を実現できるようになります。したがって、このコア機能はデータ・プラットフォームに存在すると考えています。

データ・インテリジェンス・プラットフォームとしてのDatabricks

Databricksでは、データレイクハウスの上にデータインテリジェンスプラットフォームを構築しており、個々の機能を追加するにつれて、データプラットフォームにおけるAIの可能性にますます期待が高まっています。私たちは、(1)データとAIにまたがる統一されたガバナンスレイヤーと、(2)ETL、SQL、機械学習、BIにまたがる単一の統一されたクエリーエンジンを備えた業界唯一のデータプラットフォームとして、Databricks Lakehouseの既存のユニークな機能を基盤としています。さらに、私たちはMosaicMLの買収を活用し、DatabricksIQと呼ぶデータ・インテリジェンス層でAIモデルを生成しています。

DatabricksIQはすでに私たちの現在のスタックの多くの層に浸透しています：

自動的に列のインデックスを作成したり、パーティションをレイアウトしたり、レイクハウスの基礎を強固にするなど、プラットフォーム全体にノブを設定します。これにより、お客様にTCOの削減とパフォーマンスの向上を提供します。
UC内のすべてのデータ資産の説明とタグを自動的に挿入することで、Unity Catalog（UC）のガバナンスを改善します。これらは、専門用語、略語、メトリクス、セマンティクスをプラットフォーム全体で認識するために活用されます。これにより、より優れたセマンティック検索、より優れたAIアシスタントの品質、ガバナンス能力の向上が可能になります。
AIアシスタントにおけるPythonとSQLの生成を改善し、text-to-SQLとtext-to-Pythonの両方を強化します。
Photonクエリエンジンのクエリプランニングにデータに関する予測を組み込むことで、これらのクエリをより高速にします。
Delta Live TablesとServerless Jobsの内部では、ワークロードに関する予測に基づいて最適な自動スケーリングを提供し、コストを最小化します。

最後に、しかしおそらくより重要なこととして、データ・インテリジェンス・プラットフォームはエンタープライズAIアプリケーションの開発を大幅に簡素化すると信じています。我々はDatabricksIQを我々のAIプラットフォームであるDatabricksと直接統合し、企業がデータを理解するAIアプリケーションを簡単に作成できるようにしています。 Databricksは現在、企業データをAIシステムに直接統合するための複数の機能を提供しています：

エンドツーエンドの RAG (Retrieval Augmented Generation) は、Databricks Vector Database の"メモリ" を活用し、お客様のカスタムデータ上に高品質の会話エージェントを構築します。
カスタムモデルを組織のデータでゼロからトレーニングするか、MPTやLlama 2のような既存モデルの事前トレーニングを継続することで、対象ドメインの深い理解によってAIアプリケーションをさらに強化します。
効率的でセキュアなサーバーレス推論をエンタープライズデータ上で実現し、Unity Catalogのガバナンスと品質モニタリング機能に接続します。
人気の高いMLflowオープンソースプロジェクトをベースとしたエンドツーエンドのMLOpsで、生成されたすべてのデータは自動的にアクションを起こし、追跡し、レイクハウスで監視することができます。

まとめ

私たちは、AIがすべてのソフトウェアに変革をもたらすと考えており、データ・プラットフォームはAIによるイノベーションが最も適している分野のひとつです。歴史的に、データ・プラットフォームはエンドユーザーにとってアクセスしにくく、データ・チームにとっては管理・統治しにくいものでした。データ・インテリジェンス・プラットフォームは、この2つの課題に直接取り組むことで、この状況を一変させることができます。さらに、データとその利用法についての深い理解は、そのデータを操作する企業向けAIアプリケーションの基礎となります。

AIがソフトウェアの世界を再構築する中、あらゆる業界のリーダーは、データとAIを深く活用し、組織を強化するリーダーになると私たちは信じています。DIプラットフォームは、こうした企業にとって、品質、スピード、敏捷性を備えた次世代のデータおよびAIアプリケーションの開発を可能にする礎石となります。

2013年、一緒に感謝祭を楽しむDatabricksの創設者たち — Databricks founders enjoying Thanksgiving together in 2013

データインテリジェンスプラットフォーム

これまでのデータプラットフォームとその課題

データインテリジェンスプラットフォームの核となる考え方

データ・インテリジェンス・プラットフォームとしてのDatabricks

まとめ

最新の投稿を受信トレイで受け取る

Sign up