Disponibilização do modelo básico do Mosaic AI
Ofereça modelos básicos de última geração para atender às necessidades de carga de trabalho de inferência em tempo real e em lote. Isso permite criar de forma rápida e fácil aplicações que aproveitam modelos de IA generativa de alta qualidade sem a necessidade de manter sua própria implantação de modelo.
Preços do modelo básico sob demanda
* Para disponibilidade regional: AWS, Azure, GCP, SAP
1. A banda de taxa de transferência é definida como uma única unidade de capacidade disponível para taxa de transferência provisionada. A taxa de transferência em uma banda varia de acordo com o modelo; consulte a tabela abaixo para mais detalhes
2. O throughput máximo provisionado por banda para cargas de trabalho de inferência em lote é ~50% maior do que para cargas de trabalho em tempo real exibidas na tabela
3. O preço por hora é cobrado em um incremento por minuto
Taxas de DBU e throughput da disponibilização de modelos básicos
Modelo | Pagamento por token | Throughput provisionado para bandas de dimensionamento1 |
Throughput provisionado para a banda de entrada (disponível apenas nos EUA, Canadá e Brasil)3 |
|||
---|---|---|---|---|---|---|
DBU / 1 milhão de tokens de ENTRADA (Global) |
DBU / 1 milhão de tokens de SAÍDA (Global) |
DBU/hora (Global) |
Banda de tava de transferência2 (máx. tokens/seg) |
DBU/hora (Global) | Máx. de tokens/segundo | |
Modelos atuais | ||||||
Llama 3.1 405B | 35,714 | 142,857 | 600,000 | 3.400 | 150,000 | 850 |
Llama 4 Maverick | 7,143 | 21.429 | 85,715 | 3,875 | 85,715 | 3,875 |
Llama 3.3 70B | 7,143 | 21.429 | 342,857 | 10.500 | 85,714 | 2.600 |
Llama 3.1 70B | N/A | N/A | 342,857 | 10.500 | 85,714 | 2.600 |
Llama 3.1 8B | 2,143 | 6,429 | 106,000 | 23.000 | 53,571 | 11.500 |
Llama 3.2 3B | N/A | N/A | 92,857 | 22.000 | 46,429 | 10.900 |
Llama 3.2 1B | N/A | N/A | 85,714 | 35.000 | 42,857 | 15.800 |
GTE | 1,857 | N/A | 20.000 | 9.450 | 20.000 | 9.450 |
BGE grande | 1.429 | N/A | 24,000 | 11.800 | 24,000 | 11.800 |
Modelos legados | ||||||
DBRX | N/A | N/A | 171,429 | 650 | 171,429 | 650 |
Llama 3 70B | N/A | N/A | 212.143 | 1.000 | 212.143 | 1.000 |
Llama 3 8B | N/A | N/A | 106,000 | 3.000 | 106,000 | 3.000 |
Llama 2 70B | N/A | N/A | 290,800 | 1.200 | 290,800 | 1.200 |
Llama 2 13B | N/A | N/A | 112.000 | 980 | 112.000 | 980 |
Mixtral 8x7B | N/A | N/A | 290.857 | 620 | 290.857 | 5.000 |
MPT 30B | N/A | N/A | 112.000 | 450 | 112.000 | 450 |
MPT 7B | N/A | N/A | 20.000 | 2.450 | 20.000 | 2.450 |
1: a banda de throughput é uma taxa de throughput máxima específica do modelo (tokens por segundo) fornecida pelo preço por hora acima. Com a disponibilização de throughput provisionado, a taxa de throughput do modelo é fornecida em incrementos de sua banda de "taxa de throughput" específica; uma taxa de throughput de modelo mais alta exigirá que o cliente defina um múltiplo apropriado da banda de taxa de throughput, que é então cobrada no múltiplo do preço por hora acima.
2: o throughput mostrado é um exemplo baseado em um caso de uso típico em tempo real com entrada/saída de 3500/300 tokens. O throughput real pode variar dependendo do caso de uso, do formato da query e de outros fatores. As proporções de entrada/saída não se aplicam aos modelos de incorporação.
3: a banda de entrada está disponível somente para a AWS nos EUA, Canadá, Brasil e para a Azure nos EUA, Canadá, Brasil e União Europeia. A banda de entrada não está disponível para as versões ajustadas dos modelos base.
Pague conforme o uso com um teste gratuito de 14 dias ou entre em contato conosco para obter descontos de uso contínuo ou requisitos personalizados.