Service de modèle de fondation
Servez des modèles de fondation haut de gamme pour vos charges de travail d'inférence en batch et en temps réel. Créez des applications rapidement et simplement en profitant de modèles d'IA générative de grande qualité, sans avoir à maintenir votre propre déploiement.
* Les Tarifs affichés ne garantissent pas la disponibilité des produits dans cette région. Pour la disponibilité des produits, voir ici : AWS, Azure, GCP, SAP
1. Azure Databricks, en tant que service de première partie sur Microsoft Azure, offre une facturation unifiée et un support par Microsoft
Le niveau Premium sur Azure Databricks correspond au niveau Enterprise sur AWS et GCP
2. Le Tarifs horaire est facturé par minute
3. Le débit dans une unité unique de capacité PT varie selon le modèle et la forme de query (jetons d’entrée vs. sortie). Veuillez utiliser le Calculateur GenAI pour estimer le throughput spécifique à la charge de travail et le coût total.
Tarifs DBU de Model Serving de fondation
| Modèle | Paiement par jeton | Throughput provisionné | ||
|---|---|---|---|---|
| DBU / M de jetons d'entrée | DBU / M de tokens de sortie | DBU / heure (capacité d'entrée) | DBU / heure (capacité de mise à l'échelle) | |
| Llama 4 Maverick | 7,143 | 21,429 | 85,714 | 85,714 |
| Llama 3.3 70B | 7,143 | 21,429 | 85,714 | 342,857 |
| Qwen 3 Next 80B | 2,143 | 17,143 | 78,571 | 78,571 |
| GPT OSS 120B | 2,143 | 8,571 | 71,429 | 71,429 |
| Gemma 3 12B | 2,143 | 7,143 | 71,429 | 71,429 |
| Llama 3.1 8B | 2,143 | 6,429 | 53,571 | 106,000 |
| GPT OSS 20B | 1,000 | 4,286 | 53,571 | 53,571 |
| Llama 3.2 3B | N/A | N/A | 46,429 | 92,857 |
| Llama 3.2 1B | N/A | N/A | 42,857 | 85,714 |
| Plongement Qwen 3 0.6B | 0,286 | N/A | 25,000 | 25,000 |
| GTE | 1,857 | N/A | 20,000 | 20,000 |
| BGE Large | 1,429 | N/A | 24,000 | 24,000 |
1: La capacité d'entrée est la petite unité de capacité PT à faible coût, conçue pour offrir un point de départ plus abordable aux clients. Ceux-ci fournissent un throughput proportionnellement réduit par rapport à la capacité de mise à l'échelle. Ils ne sont disponibles que sur Azure et AWS pour les régions États-Unis, Canada et Brésil, et uniquement pour les modèles de base (non affinés).
2: La capacité de mise à l'échelle est l'incrément de capacité PT standard qui peut être provisionné pour un modèle. Au-delà de la capacité de base (disponible dans certains clouds et régions), la capacité de throughput provisionné évolue à la hausse et à la baisse par incréments de ces unités de capacité de mise à l'échelle. Dans les clouds/régions où la capacité d'entrée n'est pas disponible, l'incrément d'achat minimal de PT correspond à l'unité de capacité de scaling complète.
Payez à l'utilisation avec un essai gratuit de 14 jours. Ou contactez-nous pour connaître les remises sur engagements de dépenses et nous détailler vos besoins spécifiques.