Revenir au contenu principal

Service de modèle de fondation

Servez des modèles de fondation haut de gamme pour vos charges de travail d'inférence en batch et en temps réel. Créez des applications rapidement et simplement en profitant de modèles d'IA générative de grande qualité, sans avoir à maintenir votre propre déploiement.

Loading...

* Les Tarifs affichés ne garantissent pas la disponibilité des produits dans cette région. Pour la disponibilité des produits, voir ici : AWS, Azure, GCP, SAP
1. Azure Databricks, en tant que service de première partie sur Microsoft Azure, offre une facturation unifiée et un support par Microsoft
   Le niveau Premium sur Azure Databricks correspond au niveau Enterprise sur AWS et GCP
2. Le Tarifs horaire est facturé par minute
3. Le débit dans une unité unique de capacité PT varie selon le modèle et la forme de query (jetons d’entrée vs. sortie). Veuillez utiliser le Calculateur GenAI pour estimer le throughput spécifique à la charge de travail et le coût total.

Tarifs DBU de Model Serving de fondation

ModèlePaiement par jetonThroughput provisionné
DBU / M de jetons
d'entrée
DBU / M de tokens
de sortie
DBU / heure
(capacité d'entrée)
DBU / heure
(capacité de mise à l'échelle)
Llama 4 Maverick7,14321,42985,71485,714
Llama 3.3 70B7,14321,42985,714342,857
Qwen 3 Next 80B2,14317,14378,57178,571
GPT OSS 120B2,1438,57171,42971,429
Gemma 3 12B2,1437,14371,42971,429
Llama 3.1 8B2,1436,42953,571106,000
GPT OSS 20B1,0004,28653,57153,571
Llama 3.2 3BN/AN/A46,42992,857
Llama 3.2 1BN/AN/A42,85785,714
Plongement Qwen 3 0.6B0,286N/A25,00025,000
GTE1,857N/A20,00020,000
BGE Large1,429N/A24,00024,000

1: La capacité d'entrée est la petite unité de capacité PT à faible coût, conçue pour offrir un point de départ plus abordable aux clients. Ceux-ci fournissent un throughput proportionnellement réduit par rapport à la capacité de mise à l'échelle. Ils ne sont disponibles que sur Azure et AWS pour les régions États-Unis, Canada et Brésil, et uniquement pour les modèles de base (non affinés).

2: La capacité de mise à l'échelle est l'incrément de capacité PT standard qui peut être provisionné pour un modèle. Au-delà de la capacité de base (disponible dans certains clouds et régions), la capacité de throughput provisionné évolue à la hausse et à la baisse par incréments de ces unités de capacité de mise à l'échelle. Dans les clouds/régions où la capacité d'entrée n'est pas disponible, l'incrément d'achat minimal de PT correspond à l'unité de capacité de scaling complète.

Payez à l'utilisation avec un essai gratuit de 14 jours. Ou contactez-nous pour connaître les remises sur engagements de dépenses et nous détailler vos besoins spécifiques.

Service de modèle de fondation