Vor zwei Wochen haben wir Dolly veröffentlicht, ein großes Sprachmodell (LLM), das für weniger als 30 US-Dollar trainiert wurde, um eine ChatGPT-ähnliche menschliche Interaktivität (auch bekannt als Befolgen von Anweisungen) zu zeigen. Heute veröffentlichen wir Dolly 2.0, das erste Open-Source-LLM, das Anweisungen befolgt und auf einem von Menschen erstellten Datensatz für Anweisungen feinabgestimmt wurde, der für Forschungs- und kommerzielle Zwecke lizenziert ist.
Dolly 2.0 ist ein Sprachmodell mit 12 Milliarden Parametern, das auf der EleutherAI pythia-Modellfamilie basiert und ausschließlich auf einem neuen, qualitativ hochwertigen, von Menschen erstellten Datensatz für das Befolgen von Anweisungen feinabgestimmt wurde, der unter Databricks-Mitarbeitern gesammelt wurde.
Wir stellen die Gesamtheit von Dolly 2.0 als Open Source zur Verfügung, einschließlich des Trainingscodes, des Datensatzes und der Modellgewichte, die alle für die kommerzielle Nutzung geeignet sind. Das bedeutet, dass jede Organisation leistungsstarke LLMs erstellen, besitzen und anpassen kann, die mit Menschen kommunizieren können, ohne API-Zugangsgebühren zu zahlen oder Daten an Dritte weiterzugeben.
databricks-dolly-15k enthält 15.000 hochwertige, von Menschen erstellte Prompt/Antwort-Paare, die speziell für das Instruction Tuning von großen Sprachmodellen entwickelt wurden. Gemäß den Lizenzbedingungen für databricks-dolly-15k (Creative Commons Attribution-ShareAlike 3.0 Unported License) kann jeder diesen Datensatz für jeden Zweck, einschließlich kommerzieller Anwendungen, nutzen, modifizieren oder erweitern.
Nach unserem besten Wissen ist dieser Datensatz der erste Open-Source-Datensatz mit von Menschen erstellten Anweisungen, der speziell entwickelt wurde, um großen Sprachmodellen die magische Interaktivität von ChatGPT zu verleihen. databricks-dolly-15k wurde im März und April 2023 von mehr als 5.000 Databricks-Mitarbeitern erstellt. Diese Trainingsdatensätze sind natürlich, ausdrucksstark und darauf ausgelegt, eine breite Palette von Verhaltensweisen darzustellen, von Brainstorming und Inhaltserstellung bis hin zur Informationsextraktion und Zusammenfassung.
Sobald wir Dolly 1.0 veröffentlichten, wurden wir mit Anfragen von Leuten überschwemmt, die es ausprobieren wollten. Die häufigste Frage, die wir immer wieder hörten, war: „Kann ich das kommerziell nutzen?“
Ein entscheidender Schritt bei der Erstellung von Dolly 1.0 oder jedem anderen LLM, das Anweisungen befolgt, ist das Training des Modells mit einem Datensatz von Anweisungs- und Antwortpaaren. Dolly 1.0 wurde für 30 US-Dollar mit einem Datensatz trainiert, den das Stanford Alpaca-Team mit der OpenAI API erstellt hatte. Dieser Datensatz enthielt Ausgaben von ChatGPT, und wie das Stanford-Team darauf hinwies, versuchen die Nutzungsbedingungen zu verhindern, dass jemand ein Modell erstellt, das mit OpenAI konkurriert. Daher war die Antwort auf diese häufige Frage leider: „Wahrscheinlich nicht!“
Soweit wir wissen, leiden alle bekannten Instruction-Following-Modelle (Alpaca, Koala, GPT4All, Vicuna) unter dieser Einschränkung, die die kommerzielle Nutzung verbietet. Um dieses Dilemma zu umgehen, begannen wir, nach Wegen zu suchen, einen neuen Datensatz zu erstellen, der nicht für die kommerzielle Nutzung „verunreinigt“ ist.
Wir wussten aus dem OpenAI-Forschungs Paper, dass das ursprüngliche InstructGPT-Modell auf einem Datensatz mit 13.000 Demonstrationen von Anweisungsbefolgungsverhalten trainiert wurde. Davon inspiriert, machten wir uns daran zu sehen, ob wir ein ähnliches Ergebnis mit Databricks-Mitarbeitern als Vorreiter erzielen könnten.
Es stellt sich heraus, dass die Erstellung von 13.000 Fragen und Antworten schwieriger ist, als es scheint. Jede Antwort muss originell sein. Sie darf nicht von ChatGPT oder irgendwo im Web kopiert werden, sonst würde sie unseren Datensatz verunreinigen. Es schien entmutigend, aber Databricks hat über 5.000 Mitarbeiter, die sich sehr für LLMs interessieren. Also dachten wir, wir könnten sie sammeln, um einen Datensatz von noch höherer Qualität zu erstellen als die 40 Labeler, die für OpenAI erstellt hatten. Aber wir wussten, dass sie alle beschäftigt waren und Vollzeitjobs hatten, also mussten wir sie dafür anreizen.
Wir veranstalteten einen Wettbewerb, bei dem die 20 besten Labeler eine große Auszeichnung erhalten würden. Wir haben auch 7 sehr spezifische Aufgaben umrissen:
Wie baue ich ein Lagerfeuer auf? Sicherheit sollte beim Entfachen eines Lagerfeuers immer an erster Stelle stehen. Stellen Sie sicher, dass Sie Wasser oder eine andere Möglichkeit haben, Ihr Feuer leicht zu löschen. Verwenden Sie einen Lagerfeuerring, eine Grube oder reinigen Sie einen großen Bereich um Ihren Lagerfeuerplatz. Stellen Sie außerdem sicher, dass Lagerfeuer in Ihrer Gegend erlaubt sind. Wenn die Sicherheit geklärt ist, benötigt ein Feuer nur Hitze, Brennstoff und Sauerstoff. Jedes brennbare Material kann ein Feuer entfachen, aber gute Brennstoffquellen für Lagerfeuer sind Zunder, Anzündholz und trockene Scheite. Verwenden Sie Materialien wie trockene Kiefernnadeln, trockene Blätter, Gräser und Holzspäne als Zunder. Sie können auch Zeitungspapier (oder jedes Papier), Trocknerflusen oder Pappe verwenden. Verwenden Sie für das Anzündholz kleinere Holzstücke, wie Zweige und Stöcke, die nicht dicker als 1 Zoll im Durchmesser sind (etwa die Dicke Ihres Daumens). |
Anstatt eines Erdnussbutter-Marmeladen-Sandwiches, was könnte ich noch mit Erdnussbutter in einem Sandwich kombinieren? Nenne fünf Ideen. Anstatt Marmelade probieren Sie eines der folgenden mit Erdnussbutter in einem Sandwich:
|
Wir waren anfangs skeptisch, ob wir 10.000 Ergebnisse erreichen würden. Aber mit nächtlicher Leaderboard-Gamification haben wir es geschafft, innerhalb einer Woche über 15.000 Ergebnisse zu erzielen. Aus Angst, unsere Produktivität zu beeinträchtigen, haben wir den Wettbewerb beendet.
Wir wollten auch ein Open-Source-Modell produzieren, das kommerziell genutzt werden kann. Obwohl databricks-dolly-15k erheblich kleiner ist als Alpaca, der Datensatz, auf dem Dolly 1.0 trainiert wurde, zeigte das resultierende Dolly 2.0-Modell, basierend auf EleutherAI's pythia-12b, eine qualitativ hochwertige Befolgung von Anweisungen. Rückblickend ist das keine Überraschung. Viele der in den letzten Monaten veröffentlichten Instruction-Tuning-Datensätze enthalten synthetisierte Daten, die oft Halluzinationen und sachliche Fehler enthalten.
databricks-dolly-15k hingegen wird von Profis generiert, ist von hoher Qualität und enthält lange Antworten auf die meisten Aufgaben.
Sie können sich selbst einige Beispiele ansehen, wie Dolly 2.0 für Zusammenfassungen und Inhaltserstellung verwendet werden kann. Basierend auf unserem anfänglichen Kundenfeedback ist klar, dass Fähigkeiten wie diese weitreichende Anwendungen im gesamten Unternehmen haben werden.
Anweisung | Antwort |
Was ist die Standardkonfiguration für neue DBSQL-Warehouses? Eingabe: Databricks SQL Serverless unterstützt Serverless-Computing. Administratoren können Serverless SQL-Warehouses (früher SQL-Endpunkte) erstellen, die sofortige Rechenleistung ermöglichen und von Databricks verwaltet werden. Serverless SQL-Warehouses verwenden Compute-Cluster in Ihrem Databricks-Konto. Verwenden Sie sie mit Databricks SQL-Abfragen, genau wie Sie es normalerweise mit den ursprünglichen kundengehosteten SQL-Warehouses tun würden, die jetzt als klassische SQL-Warehouses bezeichnet werden. Databricks hat den Namen von SQL-Endpunkt in SQL-Warehouse geändert, da sich Endpoint in der Branche entweder auf ein entferntes Computergerät bezieht, das mit einem Netzwerk kommuniziert, an das es angeschlossen ist, oder auf einen Einstiegspunkt zu einem Cloud-Dienst. Ein Data Warehouse ist ein Datenmanagementsystem, das aktuelle und historische Daten aus mehreren Quellen auf eine für Unternehmen günstige Weise speichert, um Einblicke und Berichte zu erleichtern. SQL-Warehouse beschreibt die vollen Fähigkeiten dieser Rechenressource genau. Wenn Serverless SQL-Warehouses für Ihr Konto aktiviert sind, beachten Sie Folgendes: Neue SQL-Warehouses sind standardmäßig serverlos, wenn Sie sie über die Benutzeroberfläche erstellen. Neue SQL-Warehouses sind nicht standardmäßig serverlos, wenn Sie sie über die API erstellen, die erfordert, dass Sie explizit Serverless angeben. Sie können auch neue Pro- oder klassische SQL-Warehouses mit beiden Methoden erstellen. Sie können ein Pro- oder klassisches SQL-Warehouse auf ein Serverless SQL-Warehouse oder ein klassisches SQL-Warehouse auf ein Pro-SQL-Warehouse upgraden. Sie können auch von Serverless auf Pro oder Classic downgraden. Dieses Feature wirkt sich nur auf Databricks SQL aus. Es wirkt sich nicht darauf aus, wie Databricks Runtime-Cluster mit Notebooks und Jobs in den Arbeitsumgebungen Data Science & Engineering oder Databricks Machine Learning funktionieren. Databricks Runtime-Cluster laufen immer in der klassischen Datenebene in Ihrem AWS-Konto. Siehe Serverless-Kontingente. Wenn Ihr Konto aktualisierte Nutzungsbedingungen benötigt, werden Workspace-Administratoren in der Databricks SQL-Benutzeroberfläche aufgefordert. Wenn Ihr Workspace über ein AWS-Instanzprofil verfügt, müssen Sie möglicherweise die Vertrauensbeziehung aktualisieren, um Serverless-Computing zu unterstützen, abhängig davon, wie und wann es erstellt wurde. | Standardmäßig ist ein neues DBSQL-Warehouse, das Sie über die Benutzeroberfläche erstellen, ein Serverless SQL-Warehouse. Wenn Sie dasselbe jedoch über die API erstellen, müssen Sie explizit angeben, dass es sich um ein Pro-SQL-Warehouse handelt. |
Anweisung | Antwort |
| Schreibe mir einen Tweet über den Start von Dolly 2.0, unserem neuen LLM. | Dolly 2.0 ist da 🤩 Wir haben unser LLM aufgerüstet und es effizienter, leistungsfähiger und für ein breiteres Publikum zugänglicher gemacht. Erfahre mehr ⬇️ https://t.co/KxzT3HXCPb |
Wir haben wiederholt von unseren Kunden gehört, dass sie am besten bedient wären, wenn sie ihre eigenen Modelle besitzen würden, was es ihnen ermöglicht, qualitativ hochwertigere Modelle für ihre domänenspezifischen Anwendungen zu erstellen, ohne ihre sensiblen Daten an Dritte weiterzugeben.
Wir glauben auch, dass die wichtigen Themen Bias, Rechenschaftspflicht und KI-Sicherheit von einer breiten Gemeinschaft verschiedener Interessengruppen angegangen werden sollten und nicht nur von wenigen großen Unternehmen. Open-Source-Datensätze und -Modelle fördern Kommentare, Forschung und Innovation, die dazu beitragen werden, dass alle von Fortschritten in der KI-Technologie profitieren.
Als technisches und Forschungsartefakt erwarten wir nicht, dass Dolly in Bezug auf die Effektivität auf dem neuesten Stand der Technik ist. Wir erwarten jedoch, dass Dolly und der Open-Source-Datensatz als Keim für eine Vielzahl von Folgearbeiten dienen werden, die dazu beitragen können, noch leistungsfähigere Sprachmodelle zu entwickeln.
Um die Dolly 2.0-Modellgewichte herunterzuladen, besuchen Sie einfach die Databricks Hugging Face-Seite und besuchen Sie das Dolly-Repo auf databricks-labs, um den databricks-dolly-15k-Datensatz herunterzuladen. Und nehmen Sie an unserem Webinar teil, um zu erfahren, wie Sie LLMs für Ihr Unternehmen nutzen können.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
