Foundation-Modellbereitstellung

Stellen Sie hochmoderne offene Foundation Models bereit, die auf die Anforderungen von Echtzeit- und Batch-Inferenz-Workloads abgestimmt sind. So können Sie im Handumdrehen mühelos Anwendungen erstellen, die hochwertige GenAI-Modelle nutzen, ohne selbst eine eigene Modellimplementierung betreuen zu müssen.

* Die angezeigten Preise garantieren nicht die Produktverfügbarkeit in dieser Region. Informationen zur Produktverfügbarkeit finden Sie hier: AWS, Azure, GCP, SAP
1. Azure Databricks bietet als First-Party-Dienst auf Microsoft Azure eine einheitliche Abrechnung und Support durch Microsoft
Der Premium-Tier auf Azure Databricks entspricht dem Enterprise-Tier auf AWS und GCP
2. Die stündliche Abrechnung erfolgt im Minutentakt
3. Der Durchsatz in einer einzelnen Einheit der PT-Kapazität variiert je nach Modell und Abfrageform (Eingabe- vs. Ausgabe-Token). Bitte verwenden Sie den GenAI-Rechner, um den arbeitslastspezifischen Durchsatz und die Gesamtkosten zu schätzen.

DBU-Raten für Foundation Model Serving

Modell	Pay-Per-Token		Bereitgestellter Durchsatz
Modell	DBU / M Input- Tokens	DBU / Mio. Ausgabe Token	DBU / Stunde (Einstiegskapazität)	DBU / Stunde (Skalierungskapazität)
Llama 4 Maverick	7.143	21.429	85.714	85.714
Llama 3.3 70B	7.143	21.429	85.714	342.857
Qwen 3 Next 80B	2.143	17.143	78.571	78.571
Qwen 3.5 122B	3.143	31.429	85.714	85.714
GPT OSS 120B	2.143	8.571	71.429	71.429
Gemma 3 12B	2.143	7.143	71.429	71.429
Llama 3.1 8B	2.143	6.429	53.571	106.000
GPT OSS 20B	1.000	4.286	53.571	53.571
Llama 3.2 3B	N/A	N/A	46.429	92.857
Llama 3.2 1B	N/A	N/A	42.857	85.714
Qwen 3 0.6B Embedding	0.286	N/A	25.000	25.000
GTE	1.857	N/A	20.000	20.000
BGE Large	1.429	N/A	24.000	24.000

¹: Die Einstiegskapazität ist die kleine, kostengünstigere PT-Kapazitätseinheit, die dafür konzipiert ist, Kunden einen erschwinglicheren Einstieg zu bieten. Diese bieten einen proportional reduzierten Durchsatz im Vergleich zur Skalierungskapazität. Diese sind nur in Azure und AWS für die Regionen USA, Kanada und Brasilien und nur für Basismodelle (nicht für feinabgestimmte Modelle) verfügbar.

²: Die Skalierungskapazität ist das standardmäßige PT-Kapazitätsinkrement, das für ein Modell bereitgestellt werden kann. Über die Einstiegskapazität hinaus (verfügbar in ausgewählten Clouds und Regionen) wird die bereitgestellte Durchsatzkapazität in Schritten dieser Kapazitätsskalierungseinheiten nach oben und unten skaliert. In Clouds/Regionen, in denen keine Einstiegskapazität verfügbar ist, ist die minimale PT-Kaufschrittgröße die volle Skalierungskapazitätseinheit.

Nutzungsbasierte Abrechnung mit einer 14-tägigen kostenlosen Testversion oder kontaktieren Sie uns für Rabatte für die verbindliche Nutzung oder benutzerdefinierte Anforderungen.

Jetzt kostenlos testen Kontakt