Revenir au contenu principal

Mosaic AI Foundation Model Serving

Serve state-of-the-art foundation models for both real-time and batch inference workload needs. This enables you to quickly and easily build applications that leverage high-quality generative AI models without the need to maintain your own model deployment.

Loading...

* For regional availability: AWSAzureGCPSAP
1. Throughput band is defined as a single unit of capacity available for Provisioned Throughput. The throughput in a band varies by the model; see table below for details

2. Maximum provisioned throughput per band for Batch Inference workloads is ~50% higher than for real-time workloads shown in the table

3. Hourly pricing is charged on a per-minute increment

Service de modèles de fondation – Tarif des DBU et throughput

Modèle Paiement par jeton Throughput provisionné
pour les bandes de mise à l'échelle1
Throughput provisionné pour la bande d'entrée
(disponible uniquement pour les modèles de base aux États-Unis, au Canada et au Brésil)3
DBU/1 million de jetons d'ENTRÉE
(Global)
DBU/1 million de jetons de SORTIE
(Global)
DBU/heure
(Global)
Bande de throughput2
(jetons max./sec)
DBU/heure
(global)
Jetons max/seconde
Modèles actuels
Llama 3.1 405B 35,714 142,857 600,000 3 400 150 000 850
Llama 4 Maverick 7,143 21,429 85,715 3 875 85,715 3 875
Llama 3.3 70B 7,143 21,429 342,857 10 500 85,714 2 600</td> </tr> <tr> <td>Llama 3.1 70B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">342,857</td> <td class="!text-center">10&nbsp;500</td> <td class="!text-center"> <style type="text/css"><!--td {border: 1px solid #cccccc;}br {mso-data-placement:same-cell;}--> 85,714 2 600</td> </tr> <tr> <td>Llama 3.1 8B</td> <td class="!text-center">2,143</td> <td class="!text-center">6,429</td> <td class="!text-center">106,000</td> <td class="!text-center">23&nbsp;000</td> <td class="!text-center">53,571</td> <td class="!text-center">11&nbsp;500</td> </tr> <tr> <td>Llama 3.2 3B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">92,857</td> <td class="!text-center">22&nbsp;000</td> <td class="!text-center">46,429</td> <td class="!text-center">10&nbsp;900</td> </tr> <tr> <td>Llama 3.2 1B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">85,714</td> <td class="!text-center">35&nbsp;000</td> <td class="!text-center">42,857</td> <td class="!text-center">15&nbsp;800</td> </tr> <tr> <td>GTE</td> <td class="!text-center">1,857</td> <td class="!text-center">N/A</td> <td class="!text-center">20,000</td> <td class="!text-center">9&nbsp;450</td> <td class="!text-center">20,000</td> <td class="!text-center">9&nbsp;450</td> </tr> <tr> <td>BGE Large</td> <td class="!text-center">1,429</td> <td class="!text-center">N/A</td> <td class="!text-center">24,000</td> <td class="!text-center">11&nbsp;800</td> <td class="!text-center">24,000</td> <td class="!text-center">11&nbsp;800</td> </tr> <tr class="bg-navy-600 text-white font-bold"> <td class="!text-center" colspan="7">Modèles hérités</td> </tr> <tr> <td>DBRX</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">171,429</td> <td class="!text-center">650</td> <td class="!text-center">171,429</td> <td class="!text-center">650</td> </tr> <tr> <td>Llama 3 70B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A <style type="text/css"><!--td {border: 1px solid #cccccc;}br {mso-data-placement:same-cell;}--> 212,143 1 000</td> <td class="!text-center">212,143</td> <td class="!text-center">1&nbsp;000</td> </tr> <tr> <td>Llama 3 8B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">106,000</td> <td class="!text-center">3&nbsp;000</td> <td class="!text-center">106,000</td> <td class="!text-center">3&nbsp;000</td> </tr> <tr> <td>Llama 2 70B</td> <td class="!text-center"> <style type="text/css"><!--td {border: 1px solid #cccccc;}br {mso-data-placement:same-cell;}--> N/A N/A 290,800 1 200 290,800 1 200
Llama 2 13B N/A N/A 112,000 980 112,000 980
Mixtral 8x7B N/A N/A 290,857 620 290,857 5 000
MPT 30B N/A N/A 112,000 450 112,000 450
MPT 7B N/A N/A 20,000 2 450</td> <td class="!text-center"> <style type="text/css"><!--td {border: 1px solid #cccccc;}br {mso-data-placement:same-cell;}--> 20,000 2 450</td> </tr> </tbody> </table> <p><sup>1</sup>&nbsp;: La bande de throughput est un throughput maximum (en jetons par seconde) propre au modèle, fourni au tarif horaire indiqué ci-dessus. &nbsp;Dans le cas du service de throughput provisionné, le throughput du modèle est fourni en incréments de la «&nbsp;bande de throughput&nbsp;» spécifique. Pour profiter d'un throughput supérieur, le client devra définir un multiple approprié de la bande de throughput de départ, qui sera facturé en multipliant le tarif horaire ci-dessus.</p> <p><sup>1</sup>&nbsp;:&nbsp; Le throughput indiqué est un exemple basé sur un cas d'usage typique en temps réel avec un nombre d'entrées/sorties de 3&nbsp;500/300&nbsp;jetons. Le throughput réel varie en fonction du cas d'usage, de la forme des requêtes et d'autres facteurs.&nbsp;Les ratios d'entrées/sorties ne s'appliquent pas à l'intégration des modèles.</p> <p><sup>3:</sup>&nbsp;La bande d'entrée est disponible uniquement sur AWS aux États-Unis, au Canada et au Brésil, et sur Azure aux États-Unis, au Canada, au Brésil et en Union européenne. La bande d'entrée n'est pas non plus disponible pour les versions affinées des modèles de base.</p>

Payez à l'utilisation avec un essai gratuit de 14 jours. Ou contactez-nous pour connaître les remises sur engagements de dépenses et nous détailler vos besoins spécifiques.

FAQ du service de modèle de fondation Mosaic AI