Direkt zum Hauptinhalt
Produkt

Erstellen Sie hochwertige, domänenspezifische Agenten zu 95 % geringeren Kosten

Einführung der tokenbasierten Preisgestaltung für MLflow GenAI-Evaluierung

von Avesh Singh, Euirim Choi, Samraj Moorjani und Yuki Watanabe

  • 95% geringere Evaluierungskosten: Die neue tokenbasierte Preisgestaltung in MLflow senkt die täglichen Evaluierungskosten, ohne die Genauigkeit zu beeinträchtigen.
  • Open-Source-Prompts: Greifen Sie auf produktionserprobte Evaluierungs-Prompts für Finanzen, Gesundheitswesen, technische Dokumentation, Sicherheit und mehr zu.
  • Flexible Judge-Optionen: Nutzen Sie integrierte optimierte Modelle oder bringen Sie Ihre eigenen LLMs mit, um Compliance-, Kosten- und domänenspezifische Anforderungen in großem Maßstab zu erfüllen.

Hochwertige GenAI-Agenten müssen kontinuierlich evaluiert werden. Aber wenn Sie die Tests skalieren, können die Kosten Ihr Budget übersteigen. Mit MLflow auf Databricks können Teams Agenten anhand vieler Metriken testen, ohne dass die Kosten zu einer Hürde werden.

Neues tokenbasiertes Preismodell für vordefinierte Judges

Wenn Agenten von der Prototypenphase in die Produktion übergehen, hängt der Erfolg vom Verständnis Ihrer Domäne (z. B. Verträge, Kundensupport, Einreichungen) ab, nicht nur von allgemeinen Benchmarks. Die vordefinierten Judges von MLflow helfen, indem sie Korrektheit, Treue, Relevanz, Sicherheit und Abruf automatisch bewerten, anstatt sich auf Prompt-Engineering zu verlassen.

Kunden baten uns, uns anzusehen, wie wir die Evaluationskosten im Produktionsmaßstab verbessern können. Daher führen wir heute eine tokenbasierte Preisgestaltung für Judges ein, anstatt für feste Blöcke zu bezahlen.

  • Sie zahlen 0,15 $ pro Million Eingabetoken
  • Und 0,60 $ pro Million Ausgabetoken
  • Im Durchschnitt sinken die Kosten um etwa 95 % ohne Genauigkeitsverlust

Beispiel für 10.000 Spuren

Vorher

  • 0,0175 $ pro Judge-Anfrage
  • 5.000 Token pro Anfrage
  • Ergebnis: 10.000 Spuren × 5 Judges = 875 $/Tag

Jetzt

  • 0,15 $ pro 1 Mio. Eingabetoken
  • 0,60 $ pro 1 Mio. Ausgabetoken
  • Ergebnis: 10.000 Spuren × 5 Judges = 45 $/Tag
    • Eingabe: 50.000 Anfragen × 4.000 Token × 0,15 $/1 Mio. = 30 $
    • Ausgabe: 50.000 Anfragen × 500 Token × 0,60 $/1 Mio. = 15 $

Der tokenbasierte Ansatz ermöglicht sowohl eine drastische Kostensenkung als auch vollständige Transparenz darüber, wie die Kosten berechnet werden.

Traces in MLflow can be automatically assessed by LLM judges, or by human annotators.
Traces in MLflow can be automatically assessed by LLM judges, or by human annotators.

Open-Sourcing von praxiserprobten Evaluations-Prompts

Das Erstellen effektiver Evaluations-Prompts erfordert ein Gleichgewicht zwischen Genauigkeit und Token-Effizienz, insbesondere für domänenspezifische Anwendungen. Teams verbringen Wochen damit, sie für Finanzen, Gesundheitswesen oder technische Dokumentation zu optimieren, wobei jede Gruppe Arbeit wiederholt.

Um zu helfen, stellen wir die Evaluations-Prompts hinter MLflow GenAI Open Source zur Verfügung. Sie wurden in branchenspezifischen Kontexten wie Finanzen, Gesundheitswesen, technischer Dokumentation und Sicherheit verfeinert, um in realen Szenarien gut zu funktionieren. Verwenden Sie sie wie sie sind oder passen Sie sie an Ihre spezifischen Anwendungsfälle an.

Sie können unsere produktionsreifen Prompts hier erkunden.

Diese Prompts wurden auf strengen Benchmarks validiert, darunter:

  • FinanceBench: Fragebeantwortung zu Finanzdokumenten
  • HotPotQA: Multi-Hop-Reasoning über Dokumente hinweg
  • DocsQA: Verständnis technischer Dokumentation
  • RAGTruth: Genauigkeit der Retrieval-Augmented Generation
  • Natural Questions: Echte Google-Suchanfragen
  • HarmBench: LLM-Sicherheit
  • Databricks-Kundendatensätze (mit Erlaubnis)

Über integrierte Judges hinaus: Bringen Sie Ihr eigenes Modell mit

Unsere integrierten Judges sind leistungsstark, aber einige Organisationen benötigen die volle Kontrolle. Jetzt können Sie Ihr eigenes Modell (OpenAI, Anthropic oder Ihr feinabgestimmtes Modell) zur Auswertung ohne zusätzliche Kosten einbinden. Sie zahlen nur für die Modellnutzung.

Dies ermöglicht Ihnen:

  • Erfüllung spezifischer Compliance-Anforderungen für die Modellauswahl
  • Nutzung bestehender Unternehmensvereinbarungen mit LLM-Anbietern
  • Verwendung spezialisierter Modelle, die auf Ihren Daten trainiert wurden
  • Kontrolle Ihrer gesamten Evaluationspipeline

Produktionsreif von Anfang an

Eine kostengünstige Auswertung ist bedeutungslos, wenn sie nicht mit Ihren Produktionsanforderungen skaliert werden kann. MLflow GenAI-Auswertung auf Databricks bietet:

  • Unity Catalog-Integration: Verwalten Sie Spuren und Evaluationsdaten mit unternehmensweiter Sicherheit
  • Delta Lake-Speicher: Speichern Sie Spuren und Evaluationsdaten im Delta-Format, sodass Sie benutzerdefinierte Dashboards und Datenpipelines aus Spuren- und Bewertungsdaten erstellen können
  • Vollständige MLflow-Integration: Zeigen Sie Spuren und Evaluationsergebnisse direkt in MLflow an
  • Serverless Compute: Zahlen Sie nur für das, was Sie nutzen, ohne Infrastrukturmanagement

Jetzt loslegen

Die neue Preisgestaltung und die Open-Source-Prompts sind ab sofort für alle Databricks-Kunden verfügbar. So legen Sie los:

  1. Für bestehende MLflow-Evaluationsnutzer: Ihre Judges verwenden automatisch das neue Preismodell – keine Aktion erforderlich
  2. Für neue Nutzer: Beginnen Sie mit unserer Schnellstartanleitung. Sie können auch unsere neuesten Kurse erkunden, um zu verstehen, wie Sie KI-Agenten auf Databricks erstellen.
    1. Grundlagen von KI-Agenten: Ein 90-minütiger Einführungskurs über die Grundlagen von KI-Agenten mit realen Beispielen, wie sie für Ihr Unternehmen Wert schaffen.
    2. Erste Schritte mit KI-Agenten: In etwas mehr als zwei Stunden von der Theorie zum Erstellen und Bereitstellen Ihres ersten Agenten auf Databricks.
  3. Für MLflow OSS-Benutzer: Aktualisieren Sie auf MLflow 3.4.0+, um auf die Open-Source-Prompts zuzugreifen

Ein neues Kapitel für die Bewertung von GenAI-Anwendungen

Durch Kosteneinsparungen von 95 % und die Open-Source-Bereitstellung von produktionserprobten Prompts machen wir die Bewertung im großen Maßstab zugänglich. Ob in den Bereichen Finanzen, Gesundheitswesen oder CX – Sie können die Agentenqualität kontinuierlich überwachen, ohne Ihr Budget zu sprengen.

Sind Sie bereit, Ihre Strategie zur Agentenbewertung zu transformieren? Starten Sie kostenlos oder erkunden Sie unsere Dokumentation.

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.