12. April 2023

Kostenloser Dolly: Vorstellung des weltweit ersten wirklich offenen, auf Anweisungen abgestimmten LLM

von Mike Conover, Matt Hayes, Ankit Mathur, Jianwei Xie, Jun Wan, Sam Shah, Ali Ghodsi, Patrick Wendell, Matei Zaharia und Reynold Xin

Vor zwei Wochen haben wir Dolly veröffentlicht, ein großes Sprachmodell (LLM), das für weniger als 30 US-Dollar trainiert wurde, um eine ChatGPT-ähnliche menschliche Interaktivität (auch bekannt als Befolgen von Anweisungen) zu zeigen. Heute veröffentlichen wir Dolly 2.0, das erste Open-Source-LLM, das Anweisungen befolgt und auf einem von Menschen erstellten Datensatz für Anweisungen feinabgestimmt wurde, der für Forschungs- und kommerzielle Zwecke lizenziert ist.

Dolly 2.0 ist ein Sprachmodell mit 12 Milliarden Parametern, das auf der EleutherAI pythia-Modellfamilie basiert und ausschließlich auf einem neuen, qualitativ hochwertigen, von Menschen erstellten Datensatz für das Befolgen von Anweisungen feinabgestimmt wurde, der unter Databricks-Mitarbeitern gesammelt wurde.

Wir stellen die Gesamtheit von Dolly 2.0 als Open Source zur Verfügung, einschließlich des Trainingscodes, des Datensatzes und der Modellgewichte, die alle für die kommerzielle Nutzung geeignet sind. Das bedeutet, dass jede Organisation leistungsstarke LLMs erstellen, besitzen und anpassen kann, die mit Menschen kommunizieren können, ohne API-Zugangsgebühren zu zahlen oder Daten an Dritte weiterzugeben.

databricks-dolly-15k Datensatz

databricks-dolly-15k enthält 15.000 hochwertige, von Menschen erstellte Prompt/Antwort-Paare, die speziell für das Instruction Tuning von großen Sprachmodellen entwickelt wurden. Gemäß den Lizenzbedingungen für databricks-dolly-15k (Creative Commons Attribution-ShareAlike 3.0 Unported License) kann jeder diesen Datensatz für jeden Zweck, einschließlich kommerzieller Anwendungen, nutzen, modifizieren oder erweitern.

Nach unserem besten Wissen ist dieser Datensatz der erste Open-Source-Datensatz mit von Menschen erstellten Anweisungen, der speziell entwickelt wurde, um großen Sprachmodellen die magische Interaktivität von ChatGPT zu verleihen. databricks-dolly-15k wurde im März und April 2023 von mehr als 5.000 Databricks-Mitarbeitern erstellt. Diese Trainingsdatensätze sind natürlich, ausdrucksstark und darauf ausgelegt, eine breite Palette von Verhaltensweisen darzustellen, von Brainstorming und Inhaltserstellung bis hin zur Informationsextraktion und Zusammenfassung.

Warum haben wir einen neuen Datensatz erstellt?

Sobald wir Dolly 1.0 veröffentlichten, wurden wir mit Anfragen von Leuten überschwemmt, die es ausprobieren wollten. Die häufigste Frage, die wir immer wieder hörten, war: „Kann ich das kommerziell nutzen?“

Ein entscheidender Schritt bei der Erstellung von Dolly 1.0 oder jedem anderen LLM, das Anweisungen befolgt, ist das Training des Modells mit einem Datensatz von Anweisungs- und Antwortpaaren. Dolly 1.0 wurde für 30 US-Dollar mit einem Datensatz trainiert, den das Stanford Alpaca-Team mit der OpenAI API erstellt hatte. Dieser Datensatz enthielt Ausgaben von ChatGPT, und wie das Stanford-Team darauf hinwies, versuchen die Nutzungsbedingungen zu verhindern, dass jemand ein Modell erstellt, das mit OpenAI konkurriert. Daher war die Antwort auf diese häufige Frage leider: „Wahrscheinlich nicht!“

Soweit wir wissen, leiden alle bekannten Instruction-Following-Modelle (Alpaca, Koala, GPT4All, Vicuna) unter dieser Einschränkung, die die kommerzielle Nutzung verbietet. Um dieses Dilemma zu umgehen, begannen wir, nach Wegen zu suchen, einen neuen Datensatz zu erstellen, der nicht für die kommerzielle Nutzung „verunreinigt“ ist.

Wie haben wir das gemacht?

Wir wussten aus dem OpenAI-Forschungs Paper, dass das ursprüngliche InstructGPT-Modell auf einem Datensatz mit 13.000 Demonstrationen von Anweisungsbefolgungsverhalten trainiert wurde. Davon inspiriert, machten wir uns daran zu sehen, ob wir ein ähnliches Ergebnis mit Databricks-Mitarbeitern als Vorreiter erzielen könnten.

Es stellt sich heraus, dass die Erstellung von 13.000 Fragen und Antworten schwieriger ist, als es scheint. Jede Antwort muss originell sein. Sie darf nicht von ChatGPT oder irgendwo im Web kopiert werden, sonst würde sie unseren Datensatz verunreinigen. Es schien entmutigend, aber Databricks hat über 5.000 Mitarbeiter, die sich sehr für LLMs interessieren. Also dachten wir, wir könnten sie sammeln, um einen Datensatz von noch höherer Qualität zu erstellen als die 40 Labeler, die für OpenAI erstellt hatten. Aber wir wussten, dass sie alle beschäftigt waren und Vollzeitjobs hatten, also mussten wir sie dafür anreizen.

Wir veranstalteten einen Wettbewerb, bei dem die 20 besten Labeler eine große Auszeichnung erhalten würden. Wir haben auch 7 sehr spezifische Aufgaben umrissen:

Offene Fragen und Antworten: Zum Beispiel „Warum mögen Menschen Komödien?“ oder „Was ist die Hauptstadt von Frankreich?“ In einigen Fällen gibt es keine richtige Antwort, und in anderen muss man auf Wissen über die Welt im Allgemeinen zurückgreifen.
Geschlossene Fragen und Antworten: Dies sind Fragen, die nur mit den Informationen beantwortet werden können, die in einem Referenztextabschnitt enthalten sind. Zum Beispiel könnte man angesichts eines Absatzes aus Wikipedia über das Atom fragen: „Wie ist das Verhältnis zwischen Protonen und Neutronen im Kern?“
Informationen aus Wikipedia extrahieren: Hier würde ein Annotator einen Absatz aus Wikipedia kopieren und Entitäten oder andere sachliche Informationen wie Gewichte oder Messungen aus dem Abschnitt extrahieren.
Informationen aus Wikipedia zusammenfassen: Hierfür stellten die Annotatoren einen Wikipedia-Abschnitt zur Verfügung und wurden gebeten, ihn zu einer kurzen Zusammenfassung zu destillieren.
Brainstorming: Diese Aufgabe erforderte offene Ideenfindung und eine zugehörige Liste möglicher Optionen. Zum Beispiel: „Was sind lustige Aktivitäten, die ich dieses Wochenende mit meinen Freunden unternehmen kann?“
Klassifizierung: Bei dieser Aufgabe wurden die Annotatoren gebeten, Urteile über Klassenmitgliedschaften abzugeben (z. B. ob die Elemente in einer Liste Tiere, Mineralien oder Gemüse sind) oder die Eigenschaften eines kurzen Textabschnitts zu beurteilen, wie z. B. die Stimmung einer Filmkritik.
Kreatives Schreiben: Diese Aufgabe würde Dinge wie das Schreiben eines Gedichts oder eines Liebesbriefs beinhalten.

Beispiel für offene Fragen und Antworten in databricks-dolly-15k

Wie baue ich ein Lagerfeuer auf?

Sicherheit sollte beim Entfachen eines Lagerfeuers immer an erster Stelle stehen. Stellen Sie sicher, dass Sie Wasser oder eine andere Möglichkeit haben, Ihr Feuer leicht zu löschen. Verwenden Sie einen Lagerfeuerring, eine Grube oder reinigen Sie einen großen Bereich um Ihren Lagerfeuerplatz. Stellen Sie außerdem sicher, dass Lagerfeuer in Ihrer Gegend erlaubt sind.

Wenn die Sicherheit geklärt ist, benötigt ein Feuer nur Hitze, Brennstoff und Sauerstoff. Jedes brennbare Material kann ein Feuer entfachen, aber gute Brennstoffquellen für Lagerfeuer sind Zunder, Anzündholz und trockene Scheite.

Verwenden Sie Materialien wie trockene Kiefernnadeln, trockene Blätter, Gräser und Holzspäne als Zunder. Sie können auch Zeitungspapier (oder jedes Papier), Trocknerflusen oder Pappe verwenden. Verwenden Sie für das Anzündholz kleinere Holzstücke, wie Zweige und Stöcke, die nicht dicker als 1 Zoll im Durchmesser sind (etwa die Dicke Ihres Daumens).

Trockene oder gut abgelagerte Scheite sorgen für ein gutes Brennen. Stapeln Sie das Holz so, dass der Sauerstoff leicht an Ihre Flamme gelangen kann. Viele bevorzugen ein Tipi- oder Blockhaus-Stapeldesign. Verwenden Sie nun eine Wärmequelle, um eine Flamme oder einen Funken zu erzeugen, und wenden Sie diese auf Ihren Zunder an. Sobald der Zunder entzündet ist, sollte er das Anzündholz entzünden, und das Anzündholz sollte schließlich Ihre Scheite entzünden. Wenn alles gut geht, sollten Sie nun Ihr Lagerfeuer genießen.

Beispiel für Brainstorming in databricks-dolly-15k

Anstatt eines Erdnussbutter-Marmeladen-Sandwiches, was könnte ich noch mit Erdnussbutter in einem Sandwich kombinieren? Nenne fünf Ideen.

Anstatt Marmelade probieren Sie eines der folgenden mit Erdnussbutter in einem Sandwich:

Honig
Rosinen
Fruchtkonfitüre
Bananen
Apfelscheiben

Wir waren anfangs skeptisch, ob wir 10.000 Ergebnisse erreichen würden. Aber mit nächtlicher Leaderboard-Gamification haben wir es geschafft, innerhalb einer Woche über 15.000 Ergebnisse zu erzielen. Aus Angst, unsere Produktivität zu beeinträchtigen, haben wir den Wettbewerb beendet.

Unsere Reise zur Schaffung eines kommerziell nutzbaren Modells

Wir wollten auch ein Open-Source-Modell produzieren, das kommerziell genutzt werden kann. Obwohl databricks-dolly-15k erheblich kleiner ist als Alpaca, der Datensatz, auf dem Dolly 1.0 trainiert wurde, zeigte das resultierende Dolly 2.0-Modell, basierend auf EleutherAI's pythia-12b, eine qualitativ hochwertige Befolgung von Anweisungen. Rückblickend ist das keine Überraschung. Viele der in den letzten Monaten veröffentlichten Instruction-Tuning-Datensätze enthalten synthetisierte Daten, die oft Halluzinationen und sachliche Fehler enthalten.

databricks-dolly-15k hingegen wird von Profis generiert, ist von hoher Qualität und enthält lange Antworten auf die meisten Aufgaben.

Sie können sich selbst einige Beispiele ansehen, wie Dolly 2.0 für Zusammenfassungen und Inhaltserstellung verwendet werden kann. Basierend auf unserem anfänglichen Kundenfeedback ist klar, dass Fähigkeiten wie diese weitreichende Anwendungen im gesamten Unternehmen haben werden.

Dolly 2.0 fasst Databricks-Dokumentation zusammen

Anweisung

Antwort

Was ist die Standardkonfiguration für neue DBSQL-Warehouses?

Eingabe:

Databricks SQL Serverless unterstützt Serverless-Computing. Administratoren können Serverless SQL-Warehouses (früher SQL-Endpunkte) erstellen, die sofortige Rechenleistung ermöglichen und von Databricks verwaltet werden. Serverless SQL-Warehouses verwenden Compute-Cluster in Ihrem Databricks-Konto. Verwenden Sie sie mit Databricks SQL-Abfragen, genau wie Sie es normalerweise mit den ursprünglichen kundengehosteten SQL-Warehouses tun würden, die jetzt als klassische SQL-Warehouses bezeichnet werden. Databricks hat den Namen von SQL-Endpunkt in SQL-Warehouse geändert, da sich Endpoint in der Branche entweder auf ein entferntes Computergerät bezieht, das mit einem Netzwerk kommuniziert, an das es angeschlossen ist, oder auf einen Einstiegspunkt zu einem Cloud-Dienst. Ein Data Warehouse ist ein Datenmanagementsystem, das aktuelle und historische Daten aus mehreren Quellen auf eine für Unternehmen günstige Weise speichert, um Einblicke und Berichte zu erleichtern. SQL-Warehouse beschreibt die vollen Fähigkeiten dieser Rechenressource genau. Wenn Serverless SQL-Warehouses für Ihr Konto aktiviert sind, beachten Sie Folgendes: Neue SQL-Warehouses sind standardmäßig serverlos, wenn Sie sie über die Benutzeroberfläche erstellen. Neue SQL-Warehouses sind nicht standardmäßig serverlos, wenn Sie sie über die API erstellen, die erfordert, dass Sie explizit Serverless angeben. Sie können auch neue Pro- oder klassische SQL-Warehouses mit beiden Methoden erstellen. Sie können ein Pro- oder klassisches SQL-Warehouse auf ein Serverless SQL-Warehouse oder ein klassisches SQL-Warehouse auf ein Pro-SQL-Warehouse upgraden. Sie können auch von Serverless auf Pro oder Classic downgraden. Dieses Feature wirkt sich nur auf Databricks SQL aus. Es wirkt sich nicht darauf aus, wie Databricks Runtime-Cluster mit Notebooks und Jobs in den Arbeitsumgebungen Data Science & Engineering oder Databricks Machine Learning funktionieren. Databricks Runtime-Cluster laufen immer in der klassischen Datenebene in Ihrem AWS-Konto. Siehe Serverless-Kontingente. Wenn Ihr Konto aktualisierte Nutzungsbedingungen benötigt, werden Workspace-Administratoren in der Databricks SQL-Benutzeroberfläche aufgefordert. Wenn Ihr Workspace über ein AWS-Instanzprofil verfügt, müssen Sie möglicherweise die Vertrauensbeziehung aktualisieren, um Serverless-Computing zu unterstützen, abhängig davon, wie und wann es erstellt wurde.

Standardmäßig ist ein neues DBSQL-Warehouse, das Sie über die Benutzeroberfläche erstellen, ein Serverless SQL-Warehouse. Wenn Sie dasselbe jedoch über die API erstellen, müssen Sie explizit angeben, dass es sich um ein Pro-SQL-Warehouse handelt.

Dolly 2.0 generiert Inhalte für einen Tweet

Anweisung

Antwort

Schreibe mir einen Tweet über den Start von Dolly 2.0, unserem neuen LLM.

Dolly 2.0 ist da 🤩

Wir haben unser LLM aufgerüstet und es effizienter, leistungsfähiger und für ein breiteres Publikum zugänglicher gemacht.

Erfahre mehr ⬇️

https://t.co/KxzT3HXCPb

Wirklich offene große Sprachmodelle

Wir haben wiederholt von unseren Kunden gehört, dass sie am besten bedient wären, wenn sie ihre eigenen Modelle besitzen würden, was es ihnen ermöglicht, qualitativ hochwertigere Modelle für ihre domänenspezifischen Anwendungen zu erstellen, ohne ihre sensiblen Daten an Dritte weiterzugeben.

Wir glauben auch, dass die wichtigen Themen Bias, Rechenschaftspflicht und KI-Sicherheit von einer breiten Gemeinschaft verschiedener Interessengruppen angegangen werden sollten und nicht nur von wenigen großen Unternehmen. Open-Source-Datensätze und -Modelle fördern Kommentare, Forschung und Innovation, die dazu beitragen werden, dass alle von Fortschritten in der KI-Technologie profitieren.

Als technisches und Forschungsartefakt erwarten wir nicht, dass Dolly in Bezug auf die Effektivität auf dem neuesten Stand der Technik ist. Wir erwarten jedoch, dass Dolly und der Open-Source-Datensatz als Keim für eine Vielzahl von Folgearbeiten dienen werden, die dazu beitragen können, noch leistungsfähigere Sprachmodelle zu entwickeln.

Wie fange ich heute an?

Um die Dolly 2.0-Modellgewichte herunterzuladen, besuchen Sie einfach die Databricks Hugging Face-Seite und besuchen Sie das Dolly-Repo auf databricks-labs, um den databricks-dolly-15k-Datensatz herunterzuladen. Und nehmen Sie an unserem Webinar teil, um zu erfahren, wie Sie LLMs für Ihr Unternehmen nutzen können.

Ressourcen

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Alle Blogs anzeigen