メインコンテンツへジャンプ

Mosaic AI Foundation Model Serving

Serve state-of-the-art foundation models for both real-time and batch inference workload needs. This enables you to quickly and easily build applications that leverage high-quality generative AI models without the need to maintain your own model deployment.

Loading...

* Displayed pricing does not guarantee product availability in that region. For product availability see here: AWSAzureGCPSAP
1. Azure Databricks, as a first-party service on Microsoft Azure, offers unified billing and support by Microsoft
1. The Premium tier on Azure Databricks corresponds to the Enterprise tier on AWS and GCP
2. Hourly pricing is charged on a per-minute increment
3. Throughput in a single unit of PT capacity varies by model and query shape (input vs. output tokens). Please use the GenAI Calculator to estimate workload-specific throughput and total cost

基盤モデルサービングの DBU レートとスループット

モデル ペイ・パー・トークン スケーリングバンド用のプロビジョニングされたスループット
1
エントリーバンドのプロビジョニングスループット
(米国、カナダ、ブラジルの基本モデルのみ利用可能)3
DBU / 1 M 入力トークン(グローバル) DBU / 1 M 出力トークン(グローバル) DBU / 時間(グローバル) スループット範囲2(最大トークン / 秒) DBU / 時間(グローバル) 最大トークン/秒
現在のモデル
ラマ 3.1 405B 35.714 142.857 600.000 3,400 150.000 850
ラマ 4 マーベリック 7.143 21.429 85.715 3,875 85.715 3,875
ラマ 3.3 70B 7.143 21.429 342.857 10,500 85.714 2,600
ラマ 3.1 70B N/A N/A 342.857 10,500 85.714 2,600
ラマ 3.1 8B 2.143 6.429 106.000 23,000 53.571 11,500
ラマ 3.2 3B N/A N/A 92.857 22,000 46.429 10,900
ラマ 3.2 1B N/A N/A 85.714 35,000 42.857 15,800
GTE 1.857 N/A 20.000 9,450 20.000 9,450
BGE Large 1.429 N/A 24.000 11,800 24.000 11,800
レガシーモデル
DBRX N/A N/A 171.429 650 171.429 650
Llama 2 70B N/A N/A 212.143 1,000 212.143 1,000
Llama 3 8B N/A N/A 106.000 3,000 106.000 3,000
Llama 2 70B N/A N/A 290.800 1,200 290.800 1,200
Llama 2 13B N/A N/A 112.000 980 112.000 980
Mixtral 8x7B N/A N/A 290.857 620 290.857 5,000
MPT-30B N/A N/A 112.000 450 112.000 450
MPT 7B N/A N/A 20.000 2,450 20.000 2,450

2 スループット範囲は、上記の時間単価で提供されるモデル固有の最大スループット(1 秒あたりのトークン)です。プロビジョニング済みスループットサービングでは、モデルのスループットは特定の「スループット範囲」の単位で提供されます。より高いモデルのスループットでは、お客さまがスループット範囲の適切な倍数を設定する必要があり、その倍数に基づいて上記の時間単価が課金されます。

1 スループットは、入力 3500 トークン、出力 300 トークンの典型的なリアルタイムのユースケースに基づく例です。実際のスループットは、ユースケース、クエリの形状、その他の要因によって異なります。入出力比は、埋め込みモデルには適用されません。

3: エントリーバンドは、AWSでは米国、カナダ、ブラジル、Azureでは米国、カナダ、ブラジル、EUでのみ利用可能です。ベースモデルの微調整版にはエントリーバンドは利用できません。

従量課金制のプランを 14 日間無料でお試しいただけます。コミットに応じた割引価格および、カスタム要件もご用意しております。

Mosaic AI 基盤モデルサービングのよくある質問