Mosaic AI Foundation Model Serving
Serve state-of-the-art foundation models for both real-time and batch inference workload needs. This enables you to quickly and easily build applications that leverage high-quality generative AI models without the need to maintain your own model deployment.
* Displayed pricing does not guarantee product availability in that region. For product availability see here: AWS, Azure, GCP, SAP
1. Throughput in a single unit of PT capacity varies by model and query shape (input vs. output tokens). Please use the GenAI Calculator to estimate workload-specific throughput and total cost.
2. Hourly pricing is charged on a per-minute increment.
Taxas de DBU e throughput da disponibilização de modelos básicos
| Modelo | Pagamento por token | Throughput provisionado para bandas de dimensionamento1 |
Throughput provisionado para a banda de entrada (disponível apenas nos EUA, Canadá e Brasil)3 |
|||
|---|---|---|---|---|---|---|
| DBU / 1 milhão de tokens de ENTRADA (Global) |
DBU / 1 milhão de tokens de SAÍDA (Global) |
DBU/hora (Global) |
Banda de tava de transferência2 (máx. tokens/seg) |
DBU/hora (Global) | Máx. de tokens/segundo | |
| Modelos atuais | ||||||
| Llama 3.1 405B | 35,714 | 142,857 | 600,000 | 3.400 | 150,000 | 850 |
| Llama 4 Maverick | 7,143 | 21.429 | 85,715 | 3,875 | 85,715 | 3,875 |
| Llama 3.3 70B | 7,143 | 21.429 | 342,857 | 10.500 | 85,714 | 2.600 |
| Llama 3.1 70B | N/A | N/A | 342,857 | 10.500 | 85,714 | 2.600 |
| Llama 3.1 8B | 2,143 | 6,429 | 106,000 | 23.000 | 53,571 | 11.500 |
| Llama 3.2 3B | N/A | N/A | 92,857 | 22.000 | 46,429 | 10.900 |
| Llama 3.2 1B | N/A | N/A | 85,714 | 35.000 | 42,857 | 15.800 |
| GTE | 1,857 | N/A | 20.000 | 9.450 | 20.000 | 9.450 |
| BGE grande | 1.429 | N/A | 24,000 | 11.800 | 24,000 | 11.800 |
| Modelos legados | ||||||
| DBRX | N/A | N/A | 171,429 | 650 | 171,429 | 650 |
| Llama 3 70B | N/A | N/A | 212.143 | 1.000 | 212.143 | 1.000 |
| Llama 3 8B | N/A | N/A | 106,000 | 3.000 | 106,000 | 3.000 |
| Llama 2 70B | N/A | N/A | 290,800 | 1.200 | 290,800 | 1.200 |
| Llama 2 13B | N/A | N/A | 112.000 | 980 | 112.000 | 980 |
| Mixtral 8x7B | N/A | N/A | 290.857 | 620 | 290.857 | 5.000 |
| MPT 30B | N/A | N/A | 112.000 | 450 | 112.000 | 450 |
| MPT 7B | N/A | N/A | 20.000 | 2.450 | 20.000 | 2.450 |
1: a banda de throughput é uma taxa de throughput máxima específica do modelo (tokens por segundo) fornecida pelo preço por hora acima. Com a disponibilização de throughput provisionado, a taxa de throughput do modelo é fornecida em incrementos de sua banda de "taxa de throughput" específica; uma taxa de throughput de modelo mais alta exigirá que o cliente defina um múltiplo apropriado da banda de taxa de throughput, que é então cobrada no múltiplo do preço por hora acima.
2: o throughput mostrado é um exemplo baseado em um caso de uso típico em tempo real com entrada/saída de 3500/300 tokens. O throughput real pode variar dependendo do caso de uso, do formato da query e de outros fatores. As proporções de entrada/saída não se aplicam aos modelos de incorporação.
3: a banda de entrada está disponível somente para a AWS nos EUA, Canadá, Brasil e para a Azure nos EUA, Canadá, Brasil e União Europeia. A banda de entrada não está disponível para as versões ajustadas dos modelos base.
Pague conforme o uso com um teste gratuito de 14 dias ou entre em contato conosco para obter descontos de uso contínuo ou requisitos personalizados.