Große Sprachmodelle (Large Language Models, LLMs) sind schwer an neue Unternehmensaufgaben anzupassen. Prompting ist fehleranfällig und erzielt nur begrenzte Qualitätssteigerungen, während Fine-Tuning große Mengen menschlich gelabelter Daten erfordert, die für die meisten Unternehmensaufgaben nicht verfügbar sind. Heute stellen wir eine neue Methode zur Modelloptimierung vor, die nur ungelabelte Nutzungsdaten benötigt. Damit können Unternehmen die Qualität und Kosten von KI verbessern, indem sie nur die Daten verwenden, die sie bereits haben. Unsere Methode, Test-time Adaptive Optimization (TAO), nutzt Test-Zeit-Rechenleistung (wie von o1 und R1 popularisiert) und Reinforcement Learning (RL), um einem Modell beizubringen, eine Aufgabe basierend auf vergangenen Eingabebeispielen besser zu lösen. Das bedeutet, dass sie mit einem einstellbaren Optimierungs-Rechenbudget skaliert, nicht mit menschlichem Labeling-Aufwand. Entscheidend ist, dass TAO zwar Test-Zeit-Rechenleistung nutzt, dies aber als Teil des Prozesses zur Trainierung eines Modells tut; dieses Modell führt dann die Aufgabe direkt mit geringen Inferenzkosten aus (d. h. es ist keine zusätzliche Rechenleistung zur Inferenzzeit erforderlich). Überraschenderweise kann TAO selbst ohne gelabelte Daten eine bessere Modellqualität erzielen als traditionelles Fine-Tuning und kann kostengünstige Open-Source-Modelle wie Llama auf die Qualität teurer proprietärer Modelle wie GPT-4o und o3-mini bringen.
TAO ist Teil des Programms unseres Forschungsteams zu Data Intelligence – dem Problem, KI in spezifischen Domänen mithilfe der Daten, die Unternehmen bereits haben, exzellent zu machen. Mit TAO erzielen wir drei spannende Ergebnisse:
Abbildung 1 zeigt, wie TAO Llama-Modelle bei drei Unternehmensaufgaben verbessert: FinanceBench, DB Enterprise Arena und BIRD-SQL (unter Verwendung des Databricks SQL-Dialekts)². TAO übertrifft trotz des ausschließlichen Zugriffs auf LLM-Eingaben das traditionelle Fine-Tuning (FT) mit Tausenden von gelabelten Beispielen und bringt Llama in den gleichen Bereich wie teure proprietäre Modelle.


Abbildung 1: TAO auf Llama 3.1 8B und Llama 3.3 70B über drei Unternehmens-Benchmarks. TAO führt zu erheblichen Qualitätsverbesserungen, übertrifft Fine-Tuning und fordert teure proprietäre LLMs heraus.
TAO ist jetzt in der Vorschau für Databricks-Kunden verfügbar, die Llama optimieren möchten, und wird mehrere kommende Produkte unterstützen. Füllen Sie dieses Formular aus, um Ihr Interesse an der Ausprobierung für Ihre Aufgaben im Rahmen der privaten Vorschau zu bekunden. In diesem Beitrag beschreiben wir genauer, wie TAO funktioniert und welche Ergebnisse wir damit erzielt haben.
Anstatt menschlich annotierter Ausgabedaten zu benötigen, besteht die Kernidee von TAO darin, Test-Zeit-Rechenleistung zu nutzen, damit ein Modell plausible Antworten für eine Aufgabe erkunden kann. Anschließend wird Reinforcement Learning verwendet, um ein LLM basierend auf der Bewertung dieser Antworten zu aktualisieren. Diese Pipeline kann mithilfe von Test-Zeit-Rechenleistung anstelle von teurem menschlichem Aufwand skaliert werden, um die Qualität zu verbessern. Darüber hinaus kann sie einfach mit aufgabenspezifischen Erkenntnissen (z. B. benutzerdefinierten Regeln) angepasst werden. Überraschenderweise führt die Anwendung dieser Skalierung mit hochwertigen Open-Source-Modellen in vielen Fällen zu besseren Ergebnissen als menschliche Labels.

Konkret umfasst TAO vier Stufen:
Entscheidend ist, dass TAO zwar Test-Zeit-Rechenleistung nutzt, dies aber zur Trainierung eines Modells tut, das dann eine Aufgabe direkt mit geringen Inferenzkosten ausführt. Das bedeutet, dass die von TAO produzierten Modelle die gleichen Inferenzkosten und die gleiche Geschwindigkeit wie das ursprüngliche Modell haben – erheblich weniger als Test-Zeit-Rechenleistungsmodelle wie o1, o3 und R1. Wie unsere Ergebnisse zeigen, können effiziente Open-Source-Modelle, die mit TAO trainiert wurden, führende proprietäre Modelle in Bezug auf die Qualität herausfordern.
TAO bietet eine leistungsstarke neue Methode im Werkzeugkasten zur Optimierung von KI-Modellen. Im Gegensatz zum Prompt Engineering, das langsam und fehleranfällig ist, und zum Fine-Tuning, das die Erstellung teurer und qualitativ hochwertiger menschlicher Labels erfordert, ermöglicht TAO KI-Ingenieuren, großartige Ergebnisse zu erzielen, indem sie einfach repräsentative Eingabebeispiele ihrer Aufgabe bereitstellen.
TAO ist eine äußerst flexible Methode, die bei Bedarf angepasst werden kann, aber unsere Standardimplementierung in Databricks funktioniert bei vielfältigen Unternehmensaufgaben gut. Im Kern unserer Implementierung stehen neue Reinforcement Learning- und Reward Modeling-Techniken, die unser Team entwickelt hat und die es TAO ermöglichen, durch Exploration zu lernen und dann das zugrunde liegende Modell mithilfe von RL zu optimieren. Ein Bestandteil von TAO ist beispielsweise ein benutzerdefiniertes Reward-Modell, das wir für Unternehmensaufgaben trainiert haben, DBRM, das genaue Bewertungssignale für eine Vielzahl von Aufgaben liefern kann.
In diesem Abschnitt gehen wir näher darauf ein, wie wir TAO zur Optimierung von LLMs für spezialisierte Unternehmensaufgaben eingesetzt haben. Wir haben drei repräsentative Benchmarks ausgewählt, darunter beliebte Open-Source-Benchmarks und interne, die wir im Rahmen unserer Domain Intelligence Benchmark Suite (DIBS) entwickelt haben.

Für jede Aufgabe haben wir mehrere Ansätze evaluiert:
Wie in Tabelle 3 gezeigt, verbessert TAO über alle drei Benchmarks und beide Llama-Modelle hinweg die Leistung des Basis-Llama-Modells signifikant, sogar über die des Fine-Tunings hinaus.

Ähnlich wie bei klassischem Test-Time-Compute liefert TAO qualitativ hochwertigere Ergebnisse, wenn mehr Rechenleistung zur Verfügung steht (siehe Abbildung 3 als Beispiel). Im Gegensatz zum Test-Time-Compute wird diese zusätzliche Rechenleistung jedoch nur während der Tuning-Phase verwendet; das endgültige LLM hat die gleichen Inferenzkosten wie das ursprüngliche LLM. Beispielsweise erzeugt o3-mini 5-10x mehr Ausgabetokens als die anderen Modelle bei unseren Aufgaben, was zu proportional höheren Inferenzkosten führt, während TAO die gleichen Inferenzkosten wie das ursprüngliche Llama-Modell hat.
Bisher haben wir TAO verwendet, um LLMs für einzelne, eng definierte Aufgaben wie die SQL-Generierung zu verbessern. Da Agenten jedoch immer komplexer werden, benötigen Unternehmen zunehmend LLMs, die mehr als eine Aufgabe ausführen können. In diesem Abschnitt zeigen wir, wie TAO die Modellleistung über eine Reihe von Unternehmensaufgaben hinweg breit verbessern kann.
In diesem Experiment haben wir 175.000 Prompts gesammelt, die eine Vielzahl von Unternehmensaufgaben widerspiegeln, darunter Codierung, Mathematik, Fragenbeantwortung, Dokumentenverständnis und Chat. Anschließend haben wir TAO auf Llama 3.1 70B und Llama 3.3 70B ausgeführt. Schließlich haben wir eine Reihe von unternehmensrelevanten Aufgaben getestet, darunter gängige LLM-Benchmarks (z. B. Arena Hard, LiveBench, GPQA Diamond, MMLU Pro, HumanEval, MATH) und interne Benchmarks in mehreren für Unternehmen relevanten Bereichen.
TAO verbessert die Leistung beider Modelle sinnvoll[t][u]. Llama 3.3 70B und Llama 3.1 70B verbessern sich um 2,4 bzw. 4,0 Prozentpunkte. TAO bringt Llama 3.3 70B bei Unternehmensaufgaben signifikant näher an GPT-4o heran[v][w]. All dies wird ohne Kosten für menschliche Beschriftungen erreicht, nur mit repräsentativen LLM-Nutzungsdaten und unserer Produktionsimplementierung von TAO. Die Qualität verbessert sich bei allen Subscores, außer bei der Codierung, wo die Leistung statisch ist.
TAO ist eine leistungsstarke Tuning-Methode, die bei vielen Aufgaben überraschend gut funktioniert, indem sie Test-Time-Compute nutzt. Um sie erfolgreich für Ihre eigenen Aufgaben einzusetzen, benötigen Sie:
Eine Best Practice, die TAO und andere Methoden zur Modellverbesserung ermöglicht, ist die Erstellung eines Daten-Flywheels für Ihre KI-Anwendungen. Sobald Sie eine KI-Anwendung bereitstellen, können Sie über Dienste wie Databricks Inference Tables Inputs, Modellausgaben und andere Ereignisse sammeln. Sie können dann nur die Inputs verwenden, um TAO auszuführen. Je mehr Leute Ihre Anwendung nutzen, desto mehr Daten haben Sie zum Trainieren, und dank TAO wird Ihr LLM immer besser.
In diesem Blog haben wir Test-time Adaptive Optimization (TAO) vorgestellt, eine neue Modell-Tuning-Technik, die hochwertige Ergebnisse ohne die Notwendigkeit von gelabelten Daten erzielt. Wir haben TAO entwickelt, um eine zentrale Herausforderung zu lösen, mit der Enterprise-Kunden konfrontiert waren: Ihnen fehlten die für das Standard-Fine-Tuning benötigten gelabelten Daten. TAO nutzt Test-Time-Compute und Reinforcement Learning, um Modelle mithilfe von Daten zu verbessern, die Unternehmen bereits haben, wie z. B. Eingabebeispiele. Dies erleichtert die Verbesserung der Qualität jeder bereitgestellten KI-Anwendung und die Reduzierung der Kosten durch die Verwendung kleinerer Modelle. TAO ist eine äußerst flexible Methode, die die Leistungsfähigkeit von Test-Time-Compute für die spezialisierte KI-Entwicklung zeigt, und wir glauben, dass sie Entwicklern ein leistungsfähiges und einfaches neues Werkzeug neben Prompting und Fine-Tuning bietet.
Databricks-Kunden nutzen TAO auf Llama bereits in der privaten Vorschau. Füllen Sie dieses Formular aus, um Ihr Interesse an der Ausprobierung für Ihre Aufgaben im Rahmen der privaten Vorschau zu bekunden. TAO wird auch in viele unserer bevorstehenden KI-Produktupdates und -einführungen integriert – bleiben Sie dran!
¹ Autoren: Raj Ammanabrolu, Ashutosh Baheti, Jonathan Chang, Xing Chen, Ta-Chung Chi, Brian Chu, Brandon Cui, Erich Elsen, Jonathan Frankle, Ali Ghodsi, Pallavi Koppol, Sean Kulinski, Jonathan Li, Dipendra Misra, Jose Javier Gonzalez Ortiz, Sean Owen, Mihir Patel, Mansheej Paul, Cory Stephenson, Alex Trott, Ziyi Yang, Matei Zaharia, Andy Zhang, Ivan Zhou
² Wir verwenden o3-mini-medium in diesem Blog.
³ Dies ist der BIRD-SQL-Benchmark, modifiziert für das SQL-Dialekt und die Produkte von Databricks.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.