Service de modèle de fondation

Servez des modèles de fondation haut de gamme pour vos charges de travail d'inférence en batch et en temps réel. Créez des applications rapidement et simplement en profitant de modèles d'IA générative de grande qualité, sans avoir à maintenir votre propre déploiement.

* Les tarifs affichés ne garantissent pas la disponibilité des produits dans cette région. Pour connaître la disponibilité des produits, consultez : AWS, Azure, GCP, SAP
1. Azure Databricks, en tant que service de première partie sur Microsoft Azure, propose une facturation et un support unifiés par Microsoft
Le niveau Premium sur Azure Databricks correspond au niveau Entreprise sur AWS et GCP
2. La tarification horaire est facturée à la minute
3. Le throughput dans une seule unité de capacité PT varie en fonction du modèle et de la forme de la query (jetons d'entrée par rapport aux jetons de sortie). Veuillez utiliser le Calculateur GenAI pour estimer le workload-specific throughput et le coût total

Tarifs DBU de Model Serving de fondation

Modèle	Paiement par jeton		Throughput provisionné
Modèle	DBU / M de tokens d'entrée	DBU / M de tokens de sortie	DBU / heure (capacité d'entrée)	DBU/heure (capacité de mise à l'échelle)
Llama 4 Maverick	7.143	21.429	85.714	85.714
Llama 3.3 70B	7.143	21.429	85.714	342.857
Qwen 3 Next 80B	2.143	17.143	78.571	78.571
Qwen 3.5 122B	3.143	31.429	85.714	85.714
GPT OSS 120B	2.143	8.571	71.429	71.429
Gemma 3 12B	2.143	7.143	71.429	71.429
Llama 3.1 8B	2.143	6.429	53.571	106.000
GPT OSS 20B	1.000	4.286	53.571	53.571
Llama 3.2 3B	N/A	N/A	46.429	92.857
Llama 3.2 1B	N/A	N/A	42.857	85.714
Qwen 3 0.6B Embedding	0.286	N/A	25.000	25.000
GTE	1.857	N/A	20.000	20.000
BGE Large	1.429	N/A	24.000	24.000

¹: La capacité d'entrée est la petite unité de capacité PT à faible coût, conçue pour offrir un point de départ plus abordable aux clients. Celles-ci fournissent un throughput proportionnellement réduit par rapport à la capacité de mise à l'échelle. Ils ne sont disponibles que sur Azure et AWS pour les régions des États-Unis, du Canada et du Brésil, et uniquement pour les modèles de base (non affinés).

²: La capacité de mise à l'échelle est l'incrément de capacité PT standard qui peut être provisionné pour un modèle. Au-delà de la capacité d'entrée (disponible dans certains clouds et régions), la capacité de throughput provisionné s'adapte à la hausse et à la baisse par incréments de ces unités de capacité de mise à l'échelle. Dans les clouds/régions où la capacité d'entrée n'est pas disponible, l'incrément d'achat de PT minimum est l'unité de capacité de mise à l'échelle complète.

Payez à l'utilisation avec un essai gratuit de 14 jours. Ou contactez-nous pour connaître les remises sur engagements de dépenses et nous détailler vos besoins spécifiques.

Démarrez votre essai gratuit Nous contacter