Introduzione del prezzo basato sui token per la valutazione GenAI di MLflow
di Avesh Singh, Euirim Choi, Samraj Moorjani e Yuki Watanabe
Gli agenti GenAI di alta qualità devono essere valutati continuamente. Ma quando si aumenta la scala dei test, i costi possono superare il budget. Con MLflow su Databricks, i team possono testare gli agenti su molteplici metriche senza che i costi diventino un ostacolo.
Man mano che gli agenti passano dal prototipo alla produzione, il successo dipende dalla comprensione del proprio dominio (ad es. contratti, assistenza clienti, depositi), non solo dai benchmark generali. I giudici predefiniti di MLflow aiutano valutando automaticamente correttezza, fedeltà, pertinenza, sicurezza e recupero, piuttosto che fare affidamento sull'ingegneria dei prompt.
I clienti ci hanno chiesto di esaminare come possiamo migliorare i costi di valutazione su scala di produzione. Pertanto, oggi lanciamo prezzi basati su token per i giudici anziché pagare per blocchi fissi.
Esempio per 10.000 tracce
Prima
Ora
L'approccio basato su token consente sia una drastica riduzione dei costi che una completa trasparenza su come vengono calcolati.
La creazione di prompt di valutazione efficaci richiede il bilanciamento tra accuratezza ed efficienza dei token, in particolare per applicazioni specifiche del dominio. I team trascorrono settimane a perfezionarli per finanza, sanità o documentazione tecnica, con ogni gruppo che ripete il lavoro.
Per aiutare, stiamo rilasciando open-source i prompt di valutazione dietro MLflow GenAI. Sono stati perfezionati in contesti specifici del settore come finanza, sanità, documentazione tecnica e sicurezza per funzionare bene in scenari reali. Usali così come sono o adattali ai tuoi casi d'uso specifici.
Puoi esplorare i nostri prompt di livello di produzione qui.
Questi prompt sono stati convalidati su benchmark rigorosi tra cui:
I nostri giudici integrati sono potenti, ma alcune organizzazioni necessitano di un controllo completo. Ora, puoi collegare il tuo modello (OpenAI, Anthropic o il tuo modello perfezionato) per la valutazione senza costi aggiuntivi. Paghi solo per l'utilizzo del modello.
Ciò ti consente di:
Una valutazione conveniente non significa nulla se non può scalare con le tue esigenze di produzione. La valutazione MLflow GenAI su Databricks fornisce:
I nuovi prezzi e i prompt open-source sono immediatamente disponibili per tutti i clienti Databricks. Ecco come iniziare:
Riducendo i costi del 95% e rendendo open-source i prompt testati in produzione, rendiamo la valutazione accessibile su larga scala. Sia nel settore finanziario, sanitario o CX, puoi monitorare continuamente la qualità dell'agente senza sforare il tuo budget.
Pronto a trasformare la tua strategia di valutazione degli agenti? Inizia gratuitamente o esplora la nostra documentazione.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.