Einführung der tokenbasierten Preisgestaltung für MLflow GenAI-Evaluierung
von Avesh Singh, Euirim Choi, Samraj Moorjani und Yuki Watanabe
Hochwertige GenAI-Agenten müssen kontinuierlich evaluiert werden. Aber wenn Sie die Tests skalieren, können die Kosten Ihr Budget übersteigen. Mit MLflow auf Databricks können Teams Agenten anhand vieler Metriken testen, ohne dass die Kosten zu einer Hürde werden.
Wenn Agenten von der Prototypenphase in die Produktion übergehen, hängt der Erfolg vom Verständnis Ihrer Domäne (z. B. Verträge, Kundensupport, Einreichungen) ab, nicht nur von allgemeinen Benchmarks. Die vordefinierten Judges von MLflow helfen, indem sie Korrektheit, Treue, Relevanz, Sicherheit und Abruf automatisch bewerten, anstatt sich auf Prompt-Engineering zu verlassen.
Kunden baten uns, uns anzusehen, wie wir die Evaluationskosten im Produktionsmaßstab verbessern können. Daher führen wir heute eine tokenbasierte Preisgestaltung für Judges ein, anstatt für feste Blöcke zu bezahlen.
Beispiel für 10.000 Spuren
Vorher
Jetzt
Der tokenbasierte Ansatz ermöglicht sowohl eine drastische Kostensenkung als auch vollständige Transparenz darüber, wie die Kosten berechnet werden.
Das Erstellen effektiver Evaluations-Prompts erfordert ein Gleichgewicht zwischen Genauigkeit und Token-Effizienz, insbesondere für domänenspezifische Anwendungen. Teams verbringen Wochen damit, sie für Finanzen, Gesundheitswesen oder technische Dokumentation zu optimieren, wobei jede Gruppe Arbeit wiederholt.
Um zu helfen, stellen wir die Evaluations-Prompts hinter MLflow GenAI Open Source zur Verfügung. Sie wurden in branchenspezifischen Kontexten wie Finanzen, Gesundheitswesen, technischer Dokumentation und Sicherheit verfeinert, um in realen Szenarien gut zu funktionieren. Verwenden Sie sie wie sie sind oder passen Sie sie an Ihre spezifischen Anwendungsfälle an.
Sie können unsere produktionsreifen Prompts hier erkunden.
Diese Prompts wurden auf strengen Benchmarks validiert, darunter:
Unsere integrierten Judges sind leistungsstark, aber einige Organisationen benötigen die volle Kontrolle. Jetzt können Sie Ihr eigenes Modell (OpenAI, Anthropic oder Ihr feinabgestimmtes Modell) zur Auswertung ohne zusätzliche Kosten einbinden. Sie zahlen nur für die Modellnutzung.
Dies ermöglicht Ihnen:
Eine kostengünstige Auswertung ist bedeutungslos, wenn sie nicht mit Ihren Produktionsanforderungen skaliert werden kann. MLflow GenAI-Auswertung auf Databricks bietet:
Die neue Preisgestaltung und die Open-Source-Prompts sind ab sofort für alle Databricks-Kunden verfügbar. So legen Sie los:
Durch Kosteneinsparungen von 95 % und die Open-Source-Bereitstellung von produktionserprobten Prompts machen wir die Bewertung im großen Maßstab zugänglich. Ob in den Bereichen Finanzen, Gesundheitswesen oder CX – Sie können die Agentenqualität kontinuierlich überwachen, ohne Ihr Budget zu sprengen.
Sind Sie bereit, Ihre Strategie zur Agentenbewertung zu transformieren? Starten Sie kostenlos oder erkunden Sie unsere Dokumentation.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.