Mosaic AI Foundation Model Serving
Serve state-of-the-art foundation models for both real-time and batch inference workload needs. This enables you to quickly and easily build applications that leverage high-quality generative AI models without the need to maintain your own model deployment.
* Displayed pricing does not guarantee product availability in that region. For product availability see here: AWS, Azure, GCP, SAP
1. Azure Databricks, as a first-party service on Microsoft Azure, offers unified billing and support by Microsoft
1. The Premium tier on Azure Databricks corresponds to the Enterprise tier on AWS and GCP
2. Hourly pricing is charged on a per-minute increment
3. Throughput in a single unit of PT capacity varies by model and query shape (input vs. output tokens). Please use the GenAI Calculator to estimate workload-specific throughput and total cost
Service de modèles de fondation – Tarif des DBU et throughput
| Modèle | Paiement par jeton | Throughput provisionné pour les bandes de mise à l'échelle1 |
Throughput provisionné pour la bande d'entrée (disponible uniquement pour les modèles de base aux États-Unis, au Canada et au Brésil)3 |
|||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| DBU/1 million de jetons d'ENTRÉE (Global) |
DBU/1 million de jetons de SORTIE (Global) |
DBU/heure (Global) |
Bande de throughput2 (jetons max./sec) |
DBU/heure (global) |
Jetons max/seconde | |||||||||
| Modèles actuels | ||||||||||||||
| Llama 3.1 405B | 35,714 | 142,857 | 600,000 | 3 400 | 150 000 | 850 | ||||||||
| Llama 4 Maverick | 7,143 | 21,429 | 85,715 | 3 875 | 85,715 | 3 875 | ||||||||
| Llama 3.3 70B | 7,143 | 21,429 | 342,857 | 10 500 | 85,714 | 2 600</td> </tr> <tr> <td>Llama 3.1 70B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">342,857</td> <td class="!text-center">10 500</td> <td class="!text-center"> <style type="text/css"><!--td {border: 1px solid #cccccc;}br {mso-data-placement:same-cell;}--> 85,714 | 2 600</td> </tr> <tr> <td>Llama 3.1 8B</td> <td class="!text-center">2,143</td> <td class="!text-center">6,429</td> <td class="!text-center">106,000</td> <td class="!text-center">23 000</td> <td class="!text-center">53,571</td> <td class="!text-center">11 500</td> </tr> <tr> <td>Llama 3.2 3B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">92,857</td> <td class="!text-center">22 000</td> <td class="!text-center">46,429</td> <td class="!text-center">10 900</td> </tr> <tr> <td>Llama 3.2 1B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">85,714</td> <td class="!text-center">35 000</td> <td class="!text-center">42,857</td> <td class="!text-center">15 800</td> </tr> <tr> <td>GTE</td> <td class="!text-center">1,857</td> <td class="!text-center">N/A</td> <td class="!text-center">20,000</td> <td class="!text-center">9 450</td> <td class="!text-center">20,000</td> <td class="!text-center">9 450</td> </tr> <tr> <td>BGE Large</td> <td class="!text-center">1,429</td> <td class="!text-center">N/A</td> <td class="!text-center">24,000</td> <td class="!text-center">11 800</td> <td class="!text-center">24,000</td> <td class="!text-center">11 800</td> </tr> <tr class="bg-navy-600 text-white font-bold"> <td class="!text-center" colspan="7">Modèles hérités</td> </tr> <tr> <td>DBRX</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">171,429</td> <td class="!text-center">650</td> <td class="!text-center">171,429</td> <td class="!text-center">650</td> </tr> <tr> <td>Llama 3 70B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A <style type="text/css"><!--td {border: 1px solid #cccccc;}br {mso-data-placement:same-cell;}--> | 212,143 | 1 000</td> <td class="!text-center">212,143</td> <td class="!text-center">1 000</td> </tr> <tr> <td>Llama 3 8B</td> <td class="!text-center">N/A</td> <td class="!text-center">N/A</td> <td class="!text-center">106,000</td> <td class="!text-center">3 000</td> <td class="!text-center">106,000</td> <td class="!text-center">3 000</td> </tr> <tr> <td>Llama 2 70B</td> <td class="!text-center"> <style type="text/css"><!--td {border: 1px solid #cccccc;}br {mso-data-placement:same-cell;}--> N/A | N/A | 290,800 | 1 200 | 290,800 | 1 200 |
| Llama 2 13B | N/A | N/A | 112,000 | 980 | 112,000 | 980 | ||||||||
| Mixtral 8x7B | N/A | N/A | 290,857 | 620 | 290,857 | 5 000 | ||||||||
| MPT 30B | N/A | N/A | 112,000 | 450 | 112,000 | 450 | ||||||||
| MPT 7B | N/A | N/A | 20,000 | 2 450</td> <td class="!text-center"> <style type="text/css"><!--td {border: 1px solid #cccccc;}br {mso-data-placement:same-cell;}--> 20,000 | 2 450</td> </tr> </tbody> </table> <p><sup>1</sup> : La bande de throughput est un throughput maximum (en jetons par seconde) propre au modèle, fourni au tarif horaire indiqué ci-dessus. Dans le cas du service de throughput provisionné, le throughput du modèle est fourni en incréments de la « bande de throughput » spécifique. Pour profiter d'un throughput supérieur, le client devra définir un multiple approprié de la bande de throughput de départ, qui sera facturé en multipliant le tarif horaire ci-dessus.</p> <p><sup>1</sup> : Le throughput indiqué est un exemple basé sur un cas d'usage typique en temps réel avec un nombre d'entrées/sorties de 3 500/300 jetons. Le throughput réel varie en fonction du cas d'usage, de la forme des requêtes et d'autres facteurs. Les ratios d'entrées/sorties ne s'appliquent pas à l'intégration des modèles.</p> <p><sup>3:</sup> La bande d'entrée est disponible uniquement sur AWS aux États-Unis, au Canada et au Brésil, et sur Azure aux États-Unis, au Canada, au Brésil et en Union européenne. La bande d'entrée n'est pas non plus disponible pour les versions affinées des modèles de base.</p> | |||||||||
Payez à l'utilisation avec un essai gratuit de 14 jours. Ou contactez-nous pour connaître les remises sur engagements de dépenses et nous détailler vos besoins spécifiques.