Ir para o conteúdo principal

Disponibilização do modelo básico do Mosaic AI

Ofereça modelos básicos abertos de última geração para atender às necessidades de carga de trabalho de inferência em tempo real e em lote. Isso permite criar de forma rápida e fácil aplicações que aproveitam modelos de IA generativa de alta qualidade sem a necessidade de manter sua própria implantação de modelo.

Loading...

Preços do modelo básico sob demanda

* Para disponibilidade regional: AWS, Azure
1. A banda de throughput é definida como uma única unidade de capacidade disponível para throughput de provisionamento. O throughput em uma banda varia de acordo com o modelo; consulte a tabela abaixo para mais detalhes

2. O throughput máximo provisionado por banda para cargas de trabalho de inferência em lote é ~50% maior do que para cargas de trabalho em tempo real exibidas na tabela

3. O preço por hora é cobrado em um incremento por minuto

Taxas de DBU e throughput da disponibilização de modelos básicos

Modelo Pagamento por token Throughput provisionado
para bandas de dimensionamento1
Throughput provisionado para a banda de entrada
(disponível apenas para modelos base nos EUA, Canadá e Brasil)3
DBU / 1 milhão de tokens de ENTRADA
(Global)
DBU / 1 milhão de tokens de SAÍDA
(Global)
DBU/hora
(Global)
Banda de tava de transferência2
(máx. tokens/seg)
DBU/hora (Global) Máx. de tokens/segundo
Modelos atuais
Claude 3.7 Sonnet 35,714 178.571 N/A N/A N/A N/A
Llama 3.1 405B 35,714 142,857 600,000 3.400 150,000 850
Llama 4 Maverick 7,143 21.429 N/A N/A N/A N/A
Llama 3.3 70B 7,143 21.429 342,857 9.500 85,714 2.400
Llama 3.1 70B N/A N/A 342,857 9.500 85,714 2.400
Llama 3.1 8B 2.143 6.429 106,000 19.000 53.571 9.500
Llama 3.2 3B N/A N/A 92,857 22.000 46,429 10.900
Llama 3.2 1B N/A N/A 85,714 35.000 42,857 15.800
GTE 1,857 N/A 20.000 9.450 20.000 9.450
BGE grande 1.429 N/A 24,000 11.800 24,000 11.800
Modelos legados
DBRX 10,714 32,143 171,429 650 171,429 650
Llama 3 70B N/A N/A 212.143 1.000 212.143 1.000
Llama 3 8B N/A N/A 106,000 3.000 106,000 3.000
Llama 2 70B N/A N/A 290,800 1.200 290,800 1.200
Llama 2 13B N/A N/A 112.000 980 112.000 980
Mixtral 8x7B 7,143 14.286 290.857 620 290.857 5.000
MPT 30B N/A N/A 112.000 450 112.000 450
MPT 7B N/A N/A 20.000 2.450 20.000 2.450

1: a banda de throughput é uma taxa de throughput máxima específica do modelo (tokens por segundo) fornecida pelo preço por hora acima.  Com a disponibilização de throughput provisionado, a taxa de throughput do modelo é fornecida em incrementos de sua banda de "taxa de throughput" específica; uma taxa de throughput de modelo mais alta exigirá que o cliente defina um múltiplo apropriado da banda de taxa de throughput, que é então cobrada no múltiplo do preço por hora acima.

2: o throughput mostrado é um exemplo baseado em um caso de uso típico em tempo real com entrada/saída de 3500/300 tokens. O throughput real pode variar dependendo do caso de uso, do formato da query e de outros fatores. As proporções de entrada/saída não se aplicam aos modelos de incorporação.

3: a banda de entrada está disponível somente para a AWS nos EUA, Canadá, Brasil e para a Azure nos EUA, Canadá, Brasil e União Europeia. A banda de entrada não está disponível para as versões ajustadas dos modelos base.

Pague conforme o uso com um teste gratuito de 14 dias ou entre em contato conosco para obter descontos de uso contínuo ou requisitos personalizados.

Perguntas frequentes sobre a disponibilização do modelo básico do Mosaic AI