Mosaic AI Foundation Model Serving
Serve state-of-the-art foundation models for both real-time and batch inference workload needs. This enables you to quickly and easily build applications that leverage high-quality generative AI models without the need to maintain your own model deployment.
* For regional availability: AWS, Azure, GCP, SAP
1. Throughput in a single unit of PT capacity varies by model and query shape (input vs. output tokens). Please use the GenAI Calculator to estimate workload-specific throughput and total cost.
2. Hourly pricing is charged on a per-minute increment.
Tariffe in DBU e throughput del serving di modelli di base
Modello | Pay-per-token | Throughput fornito per bande scalabili1 |
Throughput fornito per la banda di ingresso (disponibile solo per i modelli base negli Stati Uniti, in Canada e in Brasile)3 |
|||
---|---|---|---|---|---|---|
DBU/1M token di INPUT (Globale) |
DBU/1M token di OUTPUT (Globale) |
DBU/ora (Globale) |
Banda di throughput2 (numero massimo di token/sec) |
DBU/ora (Globale) | Token massimi/secondo | |
Modelli attuali | ||||||
Llama 3.1 405B | 35,714 | 142,857 | 600,000 | 3.400 | 150,000 | 850 |
Llama 4 Maverick | 7,143 | 21,429 | 85,715 | 3.875 | 85,715 | 3.875 |
Llama 3.3 70B | 7,143 | 21,429 | 342,857 | 10.500 | 85,714 | 2.600 |
Llama 3.1 70B | n/a | n/a | 342,857 | 10.500 | 85,714 | 2.600 |
Llama 3.1 8B | 2,143 | 6,429 | 106,000 | 23.000 | 53,571 | 11.500 |
Llama 3.2 3B | n/a | n/a | 92,857 | 22.000 | 46,429 | 10.900 |
Llama 3.2 1B | n/a | n/a | 85,714 | 35.000 | 42,857 | 15.800 |
GTE | 1,857 | n/a | 20,000 | 9.450 | 20,000 | 9.450 |
BGE Large | 1,429 | n/a | 24,000 | 11.800 | 24,000 | 11.800 |
Modelli legacy | ||||||
DBRX | n/a | n/a | 171,429 | 650 | 171,429 | 650 |
Llama 3 70B | n/a | n/a | 212,143 | 1.000 | 212,143 | 1.000 |
Llama 3 8B | n/a | n/a | 106,000 | 3.000 | 106,000 | 3.000 |
Llama 2 70B | n/a | n/a | 290,800 | 1.200 | 290,800 | 1.200 |
Llama 2 13B | n/a | n/a | 112,000 | 980 | 112,000 | 980 |
Mixtral 8x7B | n/a | n/a | 290,857 | 620 | 290,857 | 5.000 |
MPT-30B | n/a | n/a | 112,000 | 450 | 112,000 | 450 |
MPT 7B | n/a | n/a | 20,000 | 2.450 | 20,000 | 2.450 |
1: La banda di throughput è il throughput massimo specifico del modello (espresso in token al secondo) fornito alla tariffa oraria sopra indicata. Con il Provisioned Throughput Serving, il throughput effettivo del modello viene fornito in incrementi della sua "banda di throughput" specifica; per ottenere un throughput più elevato, il cliente dovrà impostare un multiplo appropriato della banda di throughput, che verrà quindi addebitato al multiplo del prezzo orario di cui sopra.
2: Il throughput mostrato è un esempio basato su un tipico caso d'uso in tempo reale con input/output di 3500/300 token. La velocità effettiva varia a seconda del caso d'uso, della forma della query e di altri fattori. I rapporti input/output non si applicano ai modelli di embedding.
3: La banda di ingresso è disponibile solo per AWS negli Stati Uniti, in Canada e in Brasile, e per Azure negli Stati Uniti, in Canada, in Brasile e nell'UE. La banda di ingresso non è inoltre disponibile per le versioni ottimizzate dei modelli base.
Pagamento a consumo con prova gratuita di 14 giorni oppure contattaci per sconti sui livelli di utilizzo garantiti o requisiti personalizzati.