Mosaic AI Foundation Model Serving
Serve state-of-the-art foundation models for both real-time and batch inference workload needs. This enables you to quickly and easily build applications that leverage high-quality generative AI models without the need to maintain your own model deployment.
* For regional availability: AWS, Azure, GCP, SAP
1. Throughput band is defined as a single unit of capacity available for Provisioned Throughput. The throughput in a band varies by the model; see table below for details
2. Maximum provisioned throughput per band for Batch Inference workloads is ~50% higher than for real-time workloads shown in the table
3. Hourly pricing is charged on a per-minute increment
Service de modèles de fondation – Tarif des DBU et throughput
Modèle | Paiement par jeton | Throughput provisionné pour les bandes de mise à l'échelle1 |
Throughput provisionné pour la bande d'entrée (disponible uniquement pour les modèles de base aux États-Unis, au Canada et au Brésil)3 |
|||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
DBU/1 million de jetons d'ENTRÉE (Global) |
DBU/1 million de jetons de SORTIE (Global) |
DBU/heure (Global) |
Bande de throughput2 (jetons max./sec) |
DBU/heure (global) |
Jetons max/seconde | |||||||||
Modèles actuels | ||||||||||||||
Llama 3.1 405B | 35,714 | 142,857 | 600,000 | 3 400 | 150 000 | 850 | ||||||||
Llama 4 Maverick | 7,143 | 21,429 | 85,715 | 3 875 | 85,715 | 3 875 | ||||||||
Llama 3.3 70B | 7,143 | 21,429 | 342,857 | 10 500 | 85,714 | 2 600</td> </tr> <tr> <td>Llama 3.1 70B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">342,857</td> <td class="!text-center">10 500</td> <td class="!text-center"> <style type="text/css"><!--td {border: 1px solid #cccccc;}br {mso-data-placement:same-cell;}--> 85,714 | 2 600</td> </tr> <tr> <td>Llama 3.1 8B</td> <td class="!text-center">2,143</td> <td class="!text-center">6,429</td> <td class="!text-center">106,000</td> <td class="!text-center">23 000</td> <td class="!text-center">53,571</td> <td class="!text-center">11 500</td> </tr> <tr> <td>Llama 3.2 3B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">92,857</td> <td class="!text-center">22 000</td> <td class="!text-center">46,429</td> <td class="!text-center">10 900</td> </tr> <tr> <td>Llama 3.2 1B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">85,714</td> <td class="!text-center">35 000</td> <td class="!text-center">42,857</td> <td class="!text-center">15 800</td> </tr> <tr> <td>GTE</td> <td class="!text-center">1,857</td> <td class="!text-center">N/A</td> <td class="!text-center">20,000</td> <td class="!text-center">9 450</td> <td class="!text-center">20,000</td> <td class="!text-center">9 450</td> </tr> <tr> <td>BGE Large</td> <td class="!text-center">1,429</td> <td class="!text-center">N/A</td> <td class="!text-center">24,000</td> <td class="!text-center">11 800</td> <td class="!text-center">24,000</td> <td class="!text-center">11 800</td> </tr> <tr class="bg-navy-600 text-white font-bold"> <td class="!text-center" colspan="7">Modèles hérités</td> </tr> <tr> <td>DBRX</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">171,429</td> <td class="!text-center">650</td> <td class="!text-center">171,429</td> <td class="!text-center">650</td> </tr> <tr> <td>Llama 3 70B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A <style type="text/css"><!--td {border: 1px solid #cccccc;}br {mso-data-placement:same-cell;}--> | 212,143 | 1 000</td> <td class="!text-center">212,143</td> <td class="!text-center">1 000</td> </tr> <tr> <td>Llama 3 8B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">106,000</td> <td class="!text-center">3 000</td> <td class="!text-center">106,000</td> <td class="!text-center">3 000</td> </tr> <tr> <td>Llama 2 70B</td> <td class="!text-center"> <style type="text/css"><!--td {border: 1px solid #cccccc;}br {mso-data-placement:same-cell;}--> N/A | N/A | 290,800 | 1 200 | 290,800 | 1 200 |
Llama 2 13B | N/A | N/A | 112,000 | 980 | 112,000 | 980 | ||||||||
Mixtral 8x7B | N/A | N/A | 290,857 | 620 | 290,857 | 5 000 | ||||||||
MPT 30B | N/A | N/A | 112,000 | 450 | 112,000 | 450 | ||||||||
MPT 7B | N/A | N/A | 20,000 | 2 450</td> <td class="!text-center"> <style type="text/css"><!--td {border: 1px solid #cccccc;}br {mso-data-placement:same-cell;}--> 20,000 | 2 450</td> </tr> </tbody> </table> <p><sup>1</sup> : La bande de throughput est un throughput maximum (en jetons par seconde) propre au modèle, fourni au tarif horaire indiqué ci-dessus. Dans le cas du service de throughput provisionné, le throughput du modèle est fourni en incréments de la « bande de throughput » spécifique. Pour profiter d'un throughput supérieur, le client devra définir un multiple approprié de la bande de throughput de départ, qui sera facturé en multipliant le tarif horaire ci-dessus.</p> <p><sup>1</sup> : Le throughput indiqué est un exemple basé sur un cas d'usage typique en temps réel avec un nombre d'entrées/sorties de 3 500/300 jetons. Le throughput réel varie en fonction du cas d'usage, de la forme des requêtes et d'autres facteurs. Les ratios d'entrées/sorties ne s'appliquent pas à l'intégration des modèles.</p> <p><sup>3:</sup> La bande d'entrée est disponible uniquement sur AWS aux États-Unis, au Canada et au Brésil, et sur Azure aux États-Unis, au Canada, au Brésil et en Union européenne. La bande d'entrée n'est pas non plus disponible pour les versions affinées des modèles de base.</p> |
Payez à l'utilisation avec un essai gratuit de 14 jours. Ou contactez-nous pour connaître les remises sur engagements de dépenses et nous détailler vos besoins spécifiques.