15 ottobre 2025

Crea agenti specifici per dominio di alta qualità a un costo inferiore del 95%

Introduzione del prezzo basato sui token per la valutazione GenAI di MLflow

di Avesh Singh, Euirim Choi, Samraj Moorjani e Yuki Watanabe

Costi di valutazione inferiori del 95%: il nuovo prezzo basato sui token in MLflow riduce i costi di valutazione giornalieri senza sacrificare il rigore.
Prompt open-sourced: accedi a prompt di valutazione testati in produzione che coprono finanza, sanità, documentazione tecnica, sicurezza e altro.
Opzioni di giudice flessibili: utilizza modelli ottimizzati integrati o porta i tuoi LLM per soddisfare le esigenze di conformità, costo e specifiche del dominio su larga scala.

Gli agenti GenAI di alta qualità devono essere valutati continuamente. Ma quando si aumenta la scala dei test, i costi possono superare il budget. Con MLflow su Databricks, i team possono testare gli agenti su molteplici metriche senza che i costi diventino un ostacolo.

Nuovo modello di prezzo basato su token per giudici predefiniti

Man mano che gli agenti passano dal prototipo alla produzione, il successo dipende dalla comprensione del proprio dominio (ad es. contratti, assistenza clienti, depositi), non solo dai benchmark generali. I giudici predefiniti di MLflow aiutano valutando automaticamente correttezza, fedeltà, pertinenza, sicurezza e recupero, piuttosto che fare affidamento sull'ingegneria dei prompt.

I clienti ci hanno chiesto di esaminare come possiamo migliorare i costi di valutazione su scala di produzione. Pertanto, oggi lanciamo prezzi basati su token per i giudici anziché pagare per blocchi fissi.

Ti verranno addebitati $0,15 per milione di token di input
E $0,60 per milione di token di output
In media, i costi si riducono di circa il 95% senza perdita di accuratezza

Esempio per 10.000 tracce

Prima

$0,0175 per richiesta di giudice
5.000 token per richiesta
Risultato: 10.000 tracce × 5 giudici = $875/giorno

Ora

$0,15 per 1 milione di token di input
$0,60 per 1 milione di token di output
Risultato: 10.000 tracce × 5 giudici = $45/giorno
- Input: 50.000 richieste × 4.000 token × $0,15/1M = $30
- Output: 50.000 richieste × 500 token × $0,60/1M = $15

L'approccio basato su token consente sia una drastica riduzione dei costi che una completa trasparenza su come vengono calcolati.

Le tracce in MLflow possono essere valutate automaticamente da giudici LLM o da annotatori umani.

Rilascio open-source di prompt di valutazione testati sul campo

La creazione di prompt di valutazione efficaci richiede il bilanciamento tra accuratezza ed efficienza dei token, in particolare per applicazioni specifiche del dominio. I team trascorrono settimane a perfezionarli per finanza, sanità o documentazione tecnica, con ogni gruppo che ripete il lavoro.

Per aiutare, stiamo rilasciando open-source i prompt di valutazione dietro MLflow GenAI. Sono stati perfezionati in contesti specifici del settore come finanza, sanità, documentazione tecnica e sicurezza per funzionare bene in scenari reali. Usali così come sono o adattali ai tuoi casi d'uso specifici.

Puoi esplorare i nostri prompt di livello di produzione qui.

Questi prompt sono stati convalidati su benchmark rigorosi tra cui:

FinanceBench: Risposta a domande su documenti finanziari
HotPotQA: Ragionamento multi-hop tra documenti
DocsQA: Comprensione della documentazione tecnica
RAGTruth: Accuratezza della generazione aumentata dal recupero
Natural Questions: Query di ricerca Google reali
HarmBench: Sicurezza LLM
Set di dati dei clienti Databricks (con permesso)

Oltre i giudici integrati: porta il tuo modello

I nostri giudici integrati sono potenti, ma alcune organizzazioni necessitano di un controllo completo. Ora, puoi collegare il tuo modello (OpenAI, Anthropic o il tuo modello perfezionato) per la valutazione senza costi aggiuntivi. Paghi solo per l'utilizzo del modello.

Ciò ti consente di:

Soddisfare requisiti di conformità specifici per la selezione del modello
Sfruttare gli accordi aziendali esistenti con i fornitori LLM
Utilizzare modelli specializzati addestrati sui tuoi dati
Controllare l'intera pipeline di valutazione

Pronto per la produzione fin dal primo giorno

Una valutazione conveniente non significa nulla se non può scalare con le tue esigenze di produzione. La valutazione MLflow GenAI su Databricks fornisce:

Integrazione Unity Catalog: Governa tracce e dati di valutazione con sicurezza di livello enterprise
Archiviazione Delta Lake: Archivia tracce e dati di valutazione in formato Delta, consentendoti di creare dashboard personalizzati e pipeline di dati da tracce e dati di valutazione
Integrazione completa MLflow: Visualizza tracce e risultati di valutazione direttamente in MLflow
Calcolo serverless: Paga solo per ciò che usi, senza gestione dell'infrastruttura

Inizia oggi stesso

I nuovi prezzi e i prompt open-source sono immediatamente disponibili per tutti i clienti Databricks. Ecco come iniziare:

Per gli utenti esistenti della valutazione MLflow: i tuoi giudici utilizzeranno automaticamente il nuovo modello di prezzo, nessuna azione richiesta
Per i nuovi utenti: inizia con la nostra guida rapida. Puoi anche esplorare i nostri ultimi corsi per capire come costruire agenti AI su Databricks.
1. Fondamenti degli agenti AI: un corso introduttivo di 90 minuti sulle basi degli agenti AI con esempi reali di come creano valore per la tua organizzazione.
2. Inizia con gli agenti AI: In poco più di due ore, passa dalla teoria alla creazione e distribuzione del tuo primo agente su Databricks.
Per gli utenti MLflow OSS: aggiorna a MLflow 3.4.0+ per accedere ai prompt open-sourced

Un nuovo capitolo per la valutazione delle applicazioni GenAI

Riducendo i costi del 95% e rendendo open-source i prompt testati in produzione, rendiamo la valutazione accessibile su larga scala. Sia nel settore finanziario, sanitario o CX, puoi monitorare continuamente la qualità dell'agente senza sforare il tuo budget.

Pronto a trasformare la tua strategia di valutazione degli agenti? Inizia gratuitamente o esplora la nostra documentazione.

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Ricevi gli ultimi articoli nella tua casella di posta

Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.

Visualizza tutti i blog