Disponibilização de modelos básicos

Ofereça modelos básicos de última geração para atender às necessidades de carga de trabalho de inferência em tempo real e em lote. Isso permite criar de forma rápida e fácil aplicações que aproveitam modelos de IA generativa de alta qualidade sem a necessidade de manter sua própria implantação de modelo.

* Os preços exibidos não garantem a disponibilidade do produto na região. Para consultar a disponibilidade do produto, veja aqui: AWS, Azure, GCP, SAP
1. O Azure Databricks, como um serviço primário no Microsoft Azure, oferece faturamento e suporte unificados pela Microsoft
O nível Premium no Azure Databricks corresponde ao nível Enterprise na AWS e no GCP
2. O preço por hora é cobrado em incrementos por minuto
3. A throughput em uma única unidade de capacidade de PT varia de acordo com o modelo e o formato da query (tokens de entrada vs. tokens de saída). Use a GenAI Calculator para estimar o throughput específico da carga de trabalho e o custo total.

Taxas de DBU para Foundation Model Serving

Modelo	Pagamento por token		Throughput provisionado
Modelo	DBU / M de tokens de entrada	DBU / M de saída tokens	DBU/hora (capacidade de entrada)	DBU / hora (capacidade de escalonamento)
Llama 4 Maverick	7.143	21.429	85.714	85.714
Llama 3.3 70B	7.143	21.429	85.714	342.857
Qwen 3 Next 80B	2.143	17.143	78.571	78.571
Qwen 3.5 122B	3.143	31.429	85.714	85.714
GPT OSS 120B	2.143	8.571	71.429	71.429
Gemma 3 12B	2.143	7.143	71.429	71.429
Llama 3.1 8B	2.143	6.429	53.571	106.000
GPT OSS 20B	1.000	4.286	53.571	53.571
Llama 3.2 3B	N/A	N/A	46.429	92.857
Llama 3.2 1B	N/A	N/A	42.857	85.714
Qwen 3 0.6B Embedding	0.286	N/A	25.000	25.000
GTE	1.857	N/A	20.000	20.000
BGE grande	1.429	N/A	24.000	24.000

¹: A capacidade de entrada é a unidade de capacidade PT pequena e de baixo custo, projetada para oferecer um ponto de partida mais acessível aos clientes. Estes fornecem uma throughput proporcionalmente reduzida em comparação com a capacidade de escalonamento. Estes estão disponíveis apenas na Azure e na AWS para as regiões dos EUA, Canadá e Brasil, e apenas para modelos de base (sem ajuste fino).

²: A capacidade de escalonamento é o incremento de capacidade de PT padrão que pode ser provisionado para um modelo. Além da capacidade de entrada (disponível em nuvens e regiões selecionadas), a capacidade de Throughput Provisionado aumenta e diminui em incrementos dessas unidades de capacidade de escalonamento. Em nuvens/regiões onde a capacidade de entrada não está disponível, o incremento mínimo de compra de PT é a unidade de capacidade de escalonamento completa.

Pague conforme o uso com um teste gratuito de 14 dias ou entre em contato conosco para obter descontos de uso contínuo ou requisitos personalizados.

Inicie o teste gratuito Entre em contato