Servicio de modelos fundacionales

Modelo de Fundación Servicio

Sirva modelos fundacionales de última generación para las necesidades de cargas de trabajo de inferencia tanto en tiempo real como por lotes. Esto le permite crear aplicaciones de forma rápida y sencilla que aprovechan modelos de IA generativa de alta calidad sin la necesidad de mantener su propia implementación de modelos.

* Los precios mostrados no garantizan la disponibilidad del producto en esa región. Para la disponibilidad de productos, consulta aquí: AWS, Azure, GCP, SAP
1. Azure Databricks, como servicio de primera mano en Microsoft Azure, ofrece facturación unificada y soporte por parte de Microsoft
El nivel Premium en Azure Databricks corresponde al nivel Enterprise en AWS y GCP
2. Se cobra por hora con un incremento por minuto
3. El rendimiento en una sola unidad de capacidad de PT varía según el modelo y la forma de consulta (tokens de entrada vs. salida). Por favor, emplea la calculadora GenAI para estimar el rendimiento específico de la carga de trabajo y el costo total

Modelo Fundación que sirve a las tasas de DBU

Modelo	Pago por token		Rendimiento aprovisionado
Modelo	DBU/M de tokens de entrada	DBU / M de tokens de salida	DBU por hora (capacidad de entrada)	DBU / hora (capacidad de escalado)
Llama 4 Maverick	7.143	21.429	85.714	85.714
Llama 3.3 70B	7.143	21.429	85.714	342.857
Qwen 3 Next 80B	2.143	17.143	78.571	78.571
Qwen 3.5 122B	3.143	31.429	85.714	85.714
GPT OSS 120B	2.143	8.571	71.429	71.429
Gemma 3 12B	2.143	7.143	71.429	71.429
Llama 3.1 8B	2.143	6.429	53.571	106.000
GPT OSS 20B	1.000	4.286	53.571	53.571
Llama 3.2 3B	n/a	n/a	46.429	92.857
Llama 3.2 1B	n/a	n/a	42.857	85.714
Qwen 3 0.6B Embedding	0.286	n/a	25.000	25.000
GTE	1.857	n/a	20.000	20.000
BGE Grande	1.429	n/a	24.000	24.000

¹: La capacidad de entrada es la unidad de capacidad de PT pequeña y de menor costo, diseñada para ofrecer un punto de partida más asequible para los clientes. Estas proporcionan un rendimiento reducido proporcionalmente en comparación con la capacidad de escalamiento. Solo están disponibles en Azure y AWS para las regiones de EE. UU., Canadá y Brasil, y solo para modelos base (no ajustados).

²: La capacidad de escalabilidad es el incremento estándar de capacidad PT que puede aprovisionar para un modelo. Más allá de la capacidad de entrada (disponible en nubes y regiones seleccionadas), la capacidad de Débito Provisionado escala hacia arriba y hacia abajo en incrementos de estas unidades de capacidad escalable. En nubes o regiones donde la capacidad de entrada no está disponible, el incremento mínimo de compra de PT es la unidad de capacidad de escalabilidad completa.

Pago por uso con una prueba gratuita de 14 días o contáctenos para obtener descuentos por uso comprometido o requisitos personalizados.

Comenzar prueba gratuita Contáctenos

Modelo de Fundación Servicio

Modelo Fundación que sirve a las tasas de DBU

Preguntas frecuentes sobre el servicio de modelos fundacionales