Servicio de modelos fundacionales de Mosaic AI
Ofrece modelos fundacionales de última generación para las necesidades de cargas de trabajo de inferencia tanto en tiempo real como por lotes. Esto le permite crear aplicaciones de forma rápida y sencilla que aprovechan los modelos de IA generativa de alta calidad sin necesidad de mantener su propia implementación de modelos.
* Los precios que se muestran no garantizan la disponibilidad del producto en esa región. Para consultar la disponibilidad del producto, haz clic aquí: AWS, Azure, GCP, SAP
1. Azure Databricks, como servicio propio de Microsoft Azure, ofrece facturación unificada y soporte por parte de Microsoft
1. El nivel Premium en Azure Databricks corresponde al nivel Enterprise en AWS y GCP
2. Los precios por hora se cobran en incrementos por minuto
3. El rendimiento en una sola unidad de capacidad de PT varía según el modelo y la forma de la consulta (tokens de entrada frente a tokens de salida). Utiliza la calculadora de GenAI para estimar el rendimiento específico de la carga de trabajo y el costo total
Tarifas de DBU del servicio de modelos fundacionales
| Modelo | Pago por token | Rendimiento aprovisionado | ||
|---|---|---|---|---|
| DBU / M de tokens de entrada | DBU/M de tokens de salida | DBU / hora (capacidad de entrada) | DBU/hora (capacidad de escalamiento) | |
| Llama 4 Maverick | 7.143 | 21.429 | 85.714 | 85.714 |
| Llama 3.3 70B | 7.143 | 21.429 | 85.714 | 342.857 |
| GPT OSS 120B | 2.143 | 8.571 | 71.429 | 71.429 |
| Gemma 3 12B | 2.143 | 7.143 | 71.429 | 71.429 |
| Llama 3.1 8B | 2.143 | 6.429 | 53.571 | 106.000 |
| GPT OSS 20B | 1.000 | 4.286 | 53.571 | 53.571 |
| Llama 3.2 3B | No aplica | No aplica | 46.429 | 92.857 |
| Llama 3.2 1B | No aplica | No aplica | 42.857 | 85.714 |
| GTE | 1.857 | No aplica | 20.000 | 20.000 |
| BGE Large | 1.429 | No aplica | 24.000 | 24.000 |
1: La capacidad de entrada es la unidad de capacidad de PT pequeña y de menor costo, diseñada para ofrecer un punto de partida más asequible para los clientes. Estas proporcionan un throughput reducido proporcionalmente en comparación con la capacidad de escalamiento. Solo están disponibles en Azure y AWS para las regiones de EE. UU., Canadá y Brasil, y solo para modelos base (no ajustados con precisión).
2: La capacidad de escalado es el incremento de capacidad de PT estándar que se puede aprovisionar para un modelo. Más allá de la capacidad de entrada (disponible en nubes y regiones seleccionadas), la capacidad de Provisioned Throughput aumenta y disminuye en incrementos de estas unidades de capacidad de escalado. En las nubes o regiones donde la capacidad de entrada no está disponible, el incremento mínimo de compra de PT es la unidad de capacidad de escalado completa.
Pague sobre la marcha con una prueba gratuita de 14 días o contáctenos para obtener descuentos por uso comprometido o requisitos personalizados.