Serving del modello di base Mosaic AI

Mosaic AI Foundation Model Serving

Serve state-of-the-art foundation models for both real-time and batch inference workload needs. This enables you to quickly and easily build applications that leverage high-quality generative AI models without the need to maintain your own model deployment.

* Displayed pricing does not guarantee product availability in that region. For product availability see here: AWS, Azure, GCP, SAP
1. Throughput in a single unit of PT capacity varies by model and query shape (input vs. output tokens). Please use the GenAI Calculator to estimate workload-specific throughput and total cost
2. Hourly pricing is charged on a per-minute increment

Tariffe in DBU e throughput del serving di modelli di base

Modello	Pay-per-token		Throughput fornito per bande scalabili¹		Throughput fornito per la banda di ingresso (disponibile solo per i modelli base negli Stati Uniti, in Canada e in Brasile)³
Modello	DBU/1M token di INPUT (Globale)	DBU/1M token di OUTPUT (Globale)	DBU/ora (Globale)	Banda di throughput² (numero massimo di token/sec)	DBU/ora (Globale)	Token massimi/secondo
Modelli attuali
Llama 3.1 405B	35,714	142,857	600,000	3.400	150,000	850
Llama 4 Maverick	7,143	21,429	85,715	3.875	85,715	3.875
Llama 3.3 70B	7,143	21,429	342,857	10.500	85,714	2.600
Llama 3.1 70B	n/a	n/a	342,857	10.500	85,714	2.600
Llama 3.1 8B	2,143	6,429	106,000	23.000	53,571	11.500
Llama 3.2 3B	n/a	n/a	92,857	22.000	46,429	10.900
Llama 3.2 1B	n/a	n/a	85,714	35.000	42,857	15.800
GTE	1,857	n/a	20,000	9.450	20,000	9.450
BGE Large	1,429	n/a	24,000	11.800	24,000	11.800
Modelli legacy
DBRX	n/a	n/a	171,429	650	171,429	650
Llama 3 70B	n/a	n/a	212,143	1.000	212,143	1.000
Llama 3 8B	n/a	n/a	106,000	3.000	106,000	3.000
Llama 2 70B	n/a	n/a	290,800	1.200	290,800	1.200
Llama 2 13B	n/a	n/a	112,000	980	112,000	980
Mixtral 8x7B	n/a	n/a	290,857	620	290,857	5.000
MPT-30B	n/a	n/a	112,000	450	112,000	450
MPT 7B	n/a	n/a	20,000	2.450	20,000	2.450

¹: La banda di throughput è il throughput massimo specifico del modello (espresso in token al secondo) fornito alla tariffa oraria sopra indicata. Con il Provisioned Throughput Serving, il throughput effettivo del modello viene fornito in incrementi della sua "banda di throughput" specifica; per ottenere un throughput più elevato, il cliente dovrà impostare un multiplo appropriato della banda di throughput, che verrà quindi addebitato al multiplo del prezzo orario di cui sopra.

²: Il throughput mostrato è un esempio basato su un tipico caso d'uso in tempo reale con input/output di 3500/300 token. La velocità effettiva varia a seconda del caso d'uso, della forma della query e di altri fattori. I rapporti input/output non si applicano ai modelli di embedding.

^3: La banda di ingresso è disponibile solo per AWS negli Stati Uniti, in Canada e in Brasile, e per Azure negli Stati Uniti, in Canada, in Brasile e nell'UE. La banda di ingresso non è inoltre disponibile per le versioni ottimizzate dei modelli base.

Pagamento a consumo con prova gratuita di 14 giorni oppure contattaci per sconti sui livelli di utilizzo garantiti o requisiti personalizzati.

Comincia la prova gratuita Contatti

Mosaic AI Foundation Model Serving

Tariffe in DBU e throughput del serving di modelli di base

Domande frequenti sul serving del modello di base Mosaic AI