Mosaic AI Foundation Model Serving
Serve state-of-the-art foundation models for both real-time and batch inference workload needs. This enables you to quickly and easily build applications that leverage high-quality generative AI models without the need to maintain your own model deployment.
* For regional availability: AWS, Azure, GCP, SAP
1. Throughput band is defined as a single unit of capacity available for Provisioned Throughput. The throughput in a band varies by the model; see table below for details
2. Maximum provisioned throughput per band for Batch Inference workloads is ~50% higher than for real-time workloads shown in the table
3. Hourly pricing is charged on a per-minute increment
Tariffe in DBU e throughput del serving di modelli di base
Modello | Pay-per-token | Throughput fornito per bande scalabili1 |
Throughput fornito per la banda di ingresso (disponibile solo per i modelli base negli Stati Uniti, in Canada e in Brasile)3 |
|||
---|---|---|---|---|---|---|
DBU/1M token di INPUT (Globale) |
DBU/1M token di OUTPUT (Globale) |
DBU/ora (Globale) |
Banda di throughput2 (numero massimo di token/sec) |
DBU/ora (Globale) | Token massimi/secondo | |
Modelli attuali | ||||||
Llama 3.1 405B | 35,714 | 142,857 | 600,000 | 3.400 | 150,000 | 850 |
Llama 4 Maverick | 7,143 | 21,429 | 85,715 | 3.875 | 85,715 | 3.875 |
Llama 3.3 70B | 7,143 | 21,429 | 342,857 | 10.500 | 85,714 | 2.600 |
Llama 3.1 70B | n/a | n/a | 342,857 | 10.500 | 85,714 | 2.600 |
Llama 3.1 8B | 2,143 | 6,429 | 106,000 | 23.000 | 53,571 | 11.500 |
Llama 3.2 3B | n/a | n/a | 92,857 | 22.000 | 46,429 | 10.900 |
Llama 3.2 1B | n/a | n/a | 85,714 | 35.000 | 42,857 | 15.800 |
GTE | 1,857 | n/a | 20,000 | 9.450 | 20,000 | 9.450 |
BGE Large | 1,429 | n/a | 24,000 | 11.800 | 24,000 | 11.800 |
Modelli legacy | ||||||
DBRX | n/a | n/a | 171,429 | 650 | 171,429 | 650 |
Llama 3 70B | n/a | n/a | 212,143 | 1.000 | 212,143 | 1.000 |
Llama 3 8B | n/a | n/a | 106,000 | 3.000 | 106,000 | 3.000 |
Llama 2 70B | n/a | n/a | 290,800 | 1.200 | 290,800 | 1.200 |
Llama 2 13B | n/a | n/a | 112,000 | 980 | 112,000 | 980 |
Mixtral 8x7B | n/a | n/a | 290,857 | 620 | 290,857 | 5.000 |
MPT-30B | n/a | n/a | 112,000 | 450 | 112,000 | 450 |
MPT 7B | n/a | n/a | 20,000 | 2.450 | 20,000 | 2.450 |
1: La banda di throughput è il throughput massimo specifico del modello (espresso in token al secondo) fornito alla tariffa oraria sopra indicata. Con il Provisioned Throughput Serving, il throughput effettivo del modello viene fornito in incrementi della sua "banda di throughput" specifica; per ottenere un throughput più elevato, il cliente dovrà impostare un multiplo appropriato della banda di throughput, che verrà quindi addebitato al multiplo del prezzo orario di cui sopra.
2: Il throughput mostrato è un esempio basato su un tipico caso d'uso in tempo reale con input/output di 3500/300 token. La velocità effettiva varia a seconda del caso d'uso, della forma della query e di altri fattori. I rapporti input/output non si applicano ai modelli di embedding.
3: La banda di ingresso è disponibile solo per AWS negli Stati Uniti, in Canada e in Brasile, e per Azure negli Stati Uniti, in Canada, in Brasile e nell'UE. La banda di ingresso non è inoltre disponibile per le versioni ottimizzate dei modelli base.
Pagamento a consumo con prova gratuita di 14 giorni oppure contattaci per sconti sui livelli di utilizzo garantiti o requisiti personalizzati.