Databricks の Mosaic AI は、予測モデルや最新の生成 AI アプリケーションなど、AI と機械学習のソリューションを構築、デプロイ、評価、監視するための統合ツールを提供します。Mosaic AI は、Databricks データインテリジェンスプラットフォームを基盤として構築されており、企業が自社のデータと連携した高品質な AI アプリケーションを、セキュアでコスト効率よく構築することを可能にします。
本番運用の品質
正確で安全、ガバナンスの原則に従った AI アプリケーションを提供
完全な制御
モデルとデータの両方に対する所有権の維持
低コスト
通常の手法と比べて 1/10 の低コストで、独自のカスタム LLM をトレーニングして提供
生成 AI ソリューションの構築を開始する
4 つのアーキテクチャパターンを考慮することは、大規模言語モデル(LLM)ベースのソリューションを構築する際に必要です。4 つのアーキテクチャパターンとは、プロンプトエンジニアリング、検索拡張生成(RAG)、ファインチューニング、事前トレーニングです。Databricks は、これら生成 AI のアーキテクチャパターンの全てに対応する唯一のプロバイダです。最も多くの選択肢を提供し、ビジネス要件の要求に応じて進化させることが可能です。
モデルとデータの完全な所有権
Databricks データインテリジェンスプラットフォームの一部である Mosaic AI は、データ、モデルトレーニング、本番環境を単一のソリューションで統合します。データや IP を社外に送信することなく、企業データを安全に使用して、独自の機械学習および生成 AI モデルを補強、ファインチューニング、構築し、ビジネスのセマンティックな理解に基づいて強化できます。
全ての AI モデルを一元的に展開・ガバナンス
モデルサービングは、AI モデルの展開、ガバナンス、クエリを行うのための統合サービスです。Databricks の統一されたアプローチにより、モデルの実験や本番適用が容易になります。これには、以下が含まれます。
- PyFunc、scikit-learn、LangChain などのカスタム ML モデル
- Llama 3、MPT、Mistral、BGE などの Databricks 上の基盤モデル(FM)
- ChatGPT、Claude 3、Cohere、Stable Diffusion などの他の場所でホストされている基盤モデル
データ、機能、AI モデルを 1 つの場所で監視
Lakehouse Monitoring は、Databricks データインテリジェンスプラットフォーム内に単一の統合された監視ソリューションを提供します。ワンクリックで全てのテーブルの統計特性と品質を監視します。生成 AI を搭載したアプリケーションでは、有害で安全ではないコンテンツの出力をスキャンし、エラーを診断できます。
データからモデルまで、AI のライフサイクル全体でリネージをガバナンス・追跡
厳格なセキュリティとガバナンスの要件を満たすために、適切な権限を強制し、レート制限を設定し、リネージを追跡します。Unity Catalog という単一のツールを使用して、データやモデルなどの全ての ML 資産を管理できます。ML ライフサイクルの開発、展開、メンテナンスに至る各段階で一貫した監視と制御を確保します。
通常の手法と比べて 1/10 の低コストで、独自のカスタム LLM をトレーニングして提供
Mosaic AI を使用すると、モデルの基礎知識が特定のドメインにあわせて調整され、独自の大規模言語モデルをゼロから構築できます。組織の IP をお客さまのデータでトレーニングすることで、独自に差別化されたカスタマイズモデルを作成します。Databricks Mosaic AI の事前トレーニングは、数十億パラメータの LLM を数日で構築し、トレーニングコストを最大 10 倍削減できる最適化されたトレーニングソリューションです。
製品コンポーネント
コラボレーション型 Notebook
Databricks の Notebook は、Python、R、SQL をネイティブにサポートしており、ユーザーは任意の言語やライブラリを使用できます。気づきの視覚化と共有も容易です。
機械学習のランタイム
最も一般的な ML フレームワーク(PyTorch、TensorFlow、scikit-learn など)のスケーラブルかつ信頼性のある分散処理により、事前に構成された ML 最適化クラスタにワンクリックでアクセスできます。このクラスタは、大規模に高性能を実現する最適化を備えています。
特徴量ストア(Feature Store)
自動的にログに記録されたデータソースを活用するデータリネージの検索機能で、特徴量の再利用を促進します。クライアントアプリケーションの変更を不要とするシンプルなモデル展開により、トレーニングやサービスに特徴量を活用できます。
リポジトリ
Repos は、Databricks での Git ワークフローを効率化し、自動化された CI/CD ワークフローとコードのポータビリティの活用を可能にします。
大規模言語モデル(LLM)
Databricks は、デプロイメント、ガバナンス、クエリ、監視などの LLM へのアクセスをシンプルにし、ワークフローに統合し、独自のデータを使用して LLM を検索拡張生成(RAG)またはファインチューニングするためのプラットフォーム機能を提供します。これにより、ドメインの性能が向上します。また、LLM を数日で事前トレーニングするための最適化されたツールも提供しています。しかも、10 倍の低コストです。