Mosaic AI Foundation Model Serving
Serve state-of-the-art foundation models for both real-time and batch inference workload needs. This enables you to quickly and easily build applications that leverage high-quality generative AI models without the need to maintain your own model deployment.
* Displayed pricing does not guarantee product availability in that region. For product availability see here: AWS, Azure, GCP, SAP
1. Azure Databricks, as a first-party service on Microsoft Azure, offers unified billing and support by Microsoft
1. The Premium tier on Azure Databricks corresponds to the Enterprise tier on AWS and GCP
2. Hourly pricing is charged on a per-minute increment
3. Throughput in a single unit of PT capacity varies by model and query shape (input vs. output tokens). Please use the GenAI Calculator to estimate workload-specific throughput and total cost
Taxas de DBU e throughput da disponibilização de modelos básicos
| Modelo | Pagamento por token | Throughput provisionado para bandas de dimensionamento1 |
Throughput provisionado para a banda de entrada (disponível apenas nos EUA, Canadá e Brasil)3 |
|||
|---|---|---|---|---|---|---|
| DBU / 1 milhão de tokens de ENTRADA (Global) |
DBU / 1 milhão de tokens de SAÍDA (Global) |
DBU/hora (Global) |
Banda de tava de transferência2 (máx. tokens/seg) |
DBU/hora (Global) | Máx. de tokens/segundo | |
| Modelos atuais | ||||||
| Llama 3.1 405B | 35,714 | 142,857 | 600,000 | 3.400 | 150,000 | 850 |
| Llama 4 Maverick | 7,143 | 21.429 | 85,715 | 3,875 | 85,715 | 3,875 |
| Llama 3.3 70B | 7,143 | 21.429 | 342,857 | 10.500 | 85,714 | 2.600 |
| Llama 3.1 70B | N/A | N/A | 342,857 | 10.500 | 85,714 | 2.600 |
| Llama 3.1 8B | 2,143 | 6,429 | 106,000 | 23.000 | 53,571 | 11.500 |
| Llama 3.2 3B | N/A | N/A | 92,857 | 22.000 | 46,429 | 10.900 |
| Llama 3.2 1B | N/A | N/A | 85,714 | 35.000 | 42,857 | 15.800 |
| GTE | 1,857 | N/A | 20.000 | 9.450 | 20.000 | 9.450 |
| BGE grande | 1.429 | N/A | 24,000 | 11.800 | 24,000 | 11.800 |
| Modelos legados | ||||||
| DBRX | N/A | N/A | 171,429 | 650 | 171,429 | 650 |
| Llama 3 70B | N/A | N/A | 212.143 | 1.000 | 212.143 | 1.000 |
| Llama 3 8B | N/A | N/A | 106,000 | 3.000 | 106,000 | 3.000 |
| Llama 2 70B | N/A | N/A | 290,800 | 1.200 | 290,800 | 1.200 |
| Llama 2 13B | N/A | N/A | 112.000 | 980 | 112.000 | 980 |
| Mixtral 8x7B | N/A | N/A | 290.857 | 620 | 290.857 | 5.000 |
| MPT 30B | N/A | N/A | 112.000 | 450 | 112.000 | 450 |
| MPT 7B | N/A | N/A | 20.000 | 2.450 | 20.000 | 2.450 |
1: a banda de throughput é uma taxa de throughput máxima específica do modelo (tokens por segundo) fornecida pelo preço por hora acima. Com a disponibilização de throughput provisionado, a taxa de throughput do modelo é fornecida em incrementos de sua banda de "taxa de throughput" específica; uma taxa de throughput de modelo mais alta exigirá que o cliente defina um múltiplo apropriado da banda de taxa de throughput, que é então cobrada no múltiplo do preço por hora acima.
2: o throughput mostrado é um exemplo baseado em um caso de uso típico em tempo real com entrada/saída de 3500/300 tokens. O throughput real pode variar dependendo do caso de uso, do formato da query e de outros fatores. As proporções de entrada/saída não se aplicam aos modelos de incorporação.
3: a banda de entrada está disponível somente para a AWS nos EUA, Canadá, Brasil e para a Azure nos EUA, Canadá, Brasil e União Europeia. A banda de entrada não está disponível para as versões ajustadas dos modelos base.
Pague conforme o uso com um teste gratuito de 14 dias ou entre em contato conosco para obter descontos de uso contínuo ou requisitos personalizados.