Revenir au contenu principal

Mosaic AI Foundation Model Serving

Serve state-of-the-art foundation models for both real-time and batch inference workload needs. This enables you to quickly and easily build applications that leverage high-quality generative AI models without the need to maintain your own model deployment.

Loading...

* Displayed pricing does not guarantee product availability in that region. For product availability see here: AWSAzureGCPSAP
1. Azure Databricks, as a first-party service on Microsoft Azure, offers unified billing and support by Microsoft
1. The Premium tier on Azure Databricks corresponds to the Enterprise tier on AWS and GCP
2. Hourly pricing is charged on a per-minute increment
3. Throughput in a single unit of PT capacity varies by model and query shape (input vs. output tokens). Please use the GenAI Calculator to estimate workload-specific throughput and total cost

Service de modèles de fondation – Tarif des DBU et throughput

Modèle Paiement par jeton Throughput provisionné
pour les bandes de mise à l'échelle1
Throughput provisionné pour la bande d'entrée
(disponible uniquement pour les modèles de base aux États-Unis, au Canada et au Brésil)3
DBU/1 million de jetons d'ENTRÉE
(Global)
DBU/1 million de jetons de SORTIE
(Global)
DBU/heure
(Global)
Bande de throughput2
(jetons max./sec)
DBU/heure
(global)
Jetons max/seconde
Modèles actuels
Llama 3.1 405B 35,714 142,857 600,000 3 400 150 000 850
Llama 4 Maverick 7,143 21,429 85,715 3 875 85,715 3 875
Llama 3.3 70B 7,143 21,429 342,857 10 500 85,714 2 600</td> </tr> <tr> <td>Llama 3.1 70B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">342,857</td> <td class="!text-center">10&nbsp;500</td> <td class="!text-center"> <style type="text/css"><!--td {border: 1px solid #cccccc;}br {mso-data-placement:same-cell;}--> 85,714 2 600</td> </tr> <tr> <td>Llama 3.1 8B</td> <td class="!text-center">2,143</td> <td class="!text-center">6,429</td> <td class="!text-center">106,000</td> <td class="!text-center">23&nbsp;000</td> <td class="!text-center">53,571</td> <td class="!text-center">11&nbsp;500</td> </tr> <tr> <td>Llama 3.2 3B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">92,857</td> <td class="!text-center">22&nbsp;000</td> <td class="!text-center">46,429</td> <td class="!text-center">10&nbsp;900</td> </tr> <tr> <td>Llama 3.2 1B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">85,714</td> <td class="!text-center">35&nbsp;000</td> <td class="!text-center">42,857</td> <td class="!text-center">15&nbsp;800</td> </tr> <tr> <td>GTE</td> <td class="!text-center">1,857</td> <td class="!text-center">N/A</td> <td class="!text-center">20,000</td> <td class="!text-center">9&nbsp;450</td> <td class="!text-center">20,000</td> <td class="!text-center">9&nbsp;450</td> </tr> <tr> <td>BGE Large</td> <td class="!text-center">1,429</td> <td class="!text-center">N/A</td> <td class="!text-center">24,000</td> <td class="!text-center">11&nbsp;800</td> <td class="!text-center">24,000</td> <td class="!text-center">11&nbsp;800</td> </tr> <tr class="bg-navy-600 text-white font-bold"> <td class="!text-center" colspan="7">Modèles hérités</td> </tr> <tr> <td>DBRX</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">171,429</td> <td class="!text-center">650</td> <td class="!text-center">171,429</td> <td class="!text-center">650</td> </tr> <tr> <td>Llama 3 70B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A <style type="text/css"><!--td {border: 1px solid #cccccc;}br {mso-data-placement:same-cell;}--> 212,143 1 000</td> <td class="!text-center">212,143</td> <td class="!text-center">1&nbsp;000</td> </tr> <tr> <td>Llama 3 8B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">106,000</td> <td class="!text-center">3&nbsp;000</td> <td class="!text-center">106,000</td> <td class="!text-center">3&nbsp;000</td> </tr> <tr> <td>Llama 2 70B</td> <td class="!text-center"> <style type="text/css"><!--td {border: 1px solid #cccccc;}br {mso-data-placement:same-cell;}--> N/A N/A 290,800 1 200 290,800 1 200
Llama 2 13B N/A N/A 112,000 980 112,000 980
Mixtral 8x7B N/A N/A 290,857 620 290,857 5 000
MPT 30B N/A N/A 112,000 450 112,000 450
MPT 7B N/A N/A 20,000 2 450</td> <td class="!text-center"> <style type="text/css"><!--td {border: 1px solid #cccccc;}br {mso-data-placement:same-cell;}--> 20,000 2 450</td> </tr> </tbody> </table> <p><sup>1</sup>&nbsp;: La bande de throughput est un throughput maximum (en jetons par seconde) propre au modèle, fourni au tarif horaire indiqué ci-dessus. &nbsp;Dans le cas du service de throughput provisionné, le throughput du modèle est fourni en incréments de la «&nbsp;bande de throughput&nbsp;» spécifique. Pour profiter d'un throughput supérieur, le client devra définir un multiple approprié de la bande de throughput de départ, qui sera facturé en multipliant le tarif horaire ci-dessus.</p> <p><sup>1</sup>&nbsp;:&nbsp; Le throughput indiqué est un exemple basé sur un cas d'usage typique en temps réel avec un nombre d'entrées/sorties de 3&nbsp;500/300&nbsp;jetons. Le throughput réel varie en fonction du cas d'usage, de la forme des requêtes et d'autres facteurs.&nbsp;Les ratios d'entrées/sorties ne s'appliquent pas à l'intégration des modèles.</p> <p><sup>3:</sup>&nbsp;La bande d'entrée est disponible uniquement sur AWS aux États-Unis, au Canada et au Brésil, et sur Azure aux États-Unis, au Canada, au Brésil et en Union européenne. La bande d'entrée n'est pas non plus disponible pour les versions affinées des modèles de base.</p>

Payez à l'utilisation avec un essai gratuit de 14 jours. Ou contactez-nous pour connaître les remises sur engagements de dépenses et nous détailler vos besoins spécifiques.

FAQ du service de modèle de fondation Mosaic AI