Ir para o conteúdo principal

Mosaic AI Foundation Model Serving

Serve state-of-the-art foundation models for both real-time and batch inference workload needs. This enables you to quickly and easily build applications that leverage high-quality generative AI models without the need to maintain your own model deployment.

Loading...

* Displayed pricing does not guarantee product availability in that region. For product availability see here: AWSAzureGCPSAP
1. Azure Databricks, as a first-party service on Microsoft Azure, offers unified billing and support by Microsoft
1. The Premium tier on Azure Databricks corresponds to the Enterprise tier on AWS and GCP
2. Hourly pricing is charged on a per-minute increment
3. Throughput in a single unit of PT capacity varies by model and query shape (input vs. output tokens). Please use the GenAI Calculator to estimate workload-specific throughput and total cost

Taxas de DBU e throughput da disponibilização de modelos básicos

Modelo Pagamento por token Throughput provisionado
para bandas de dimensionamento1
Throughput provisionado para a banda de entrada
(disponível apenas nos EUA, Canadá e Brasil)3
DBU / 1 milhão de tokens de ENTRADA
(Global)
DBU / 1 milhão de tokens de SAÍDA
(Global)
DBU/hora
(Global)
Banda de tava de transferência2
(máx. tokens/seg)
DBU/hora (Global) Máx. de tokens/segundo
Modelos atuais
Llama 3.1 405B 35,714 142,857 600,000 3.400 150,000 850
Llama 4 Maverick 7,143 21.429 85,715 3,875 85,715 3,875
Llama 3.3 70B 7,143 21.429 342,857 10.500 85,714 2.600
Llama 3.1 70B N/A N/A 342,857 10.500 85,714 2.600
Llama 3.1 8B 2,143 6,429 106,000 23.000 53,571 11.500
Llama 3.2 3B N/A N/A 92,857 22.000 46,429 10.900
Llama 3.2 1B N/A N/A 85,714 35.000 42,857 15.800
GTE 1,857 N/A 20.000 9.450 20.000 9.450
BGE grande 1.429 N/A 24,000 11.800 24,000 11.800
Modelos legados
DBRX N/A N/A 171,429 650 171,429 650
Llama 3 70B N/A N/A 212.143 1.000 212.143 1.000
Llama 3 8B N/A N/A 106,000 3.000 106,000 3.000
Llama 2 70B N/A N/A 290,800 1.200 290,800 1.200
Llama 2 13B N/A N/A 112.000 980 112.000 980
Mixtral 8x7B N/A N/A 290.857 620 290.857 5.000
MPT 30B N/A N/A 112.000 450 112.000 450
MPT 7B N/A N/A 20.000 2.450 20.000 2.450

1: a banda de throughput é uma taxa de throughput máxima específica do modelo (tokens por segundo) fornecida pelo preço por hora acima.  Com a disponibilização de throughput provisionado, a taxa de throughput do modelo é fornecida em incrementos de sua banda de "taxa de throughput" específica; uma taxa de throughput de modelo mais alta exigirá que o cliente defina um múltiplo apropriado da banda de taxa de throughput, que é então cobrada no múltiplo do preço por hora acima.

2: o throughput mostrado é um exemplo baseado em um caso de uso típico em tempo real com entrada/saída de 3500/300 tokens. O throughput real pode variar dependendo do caso de uso, do formato da query e de outros fatores. As proporções de entrada/saída não se aplicam aos modelos de incorporação.

3: a banda de entrada está disponível somente para a AWS nos EUA, Canadá, Brasil e para a Azure nos EUA, Canadá, Brasil e União Europeia. A banda de entrada não está disponível para as versões ajustadas dos modelos base.

Pague conforme o uso com um teste gratuito de 14 dias ou entre em contato conosco para obter descontos de uso contínuo ou requisitos personalizados.

Perguntas frequentes sobre a disponibilização do modelo básico do Mosaic AI