Direkt zum Hauptinhalt

Hallo Dolly: Die Magie von ChatGPT mit offenen Modellen demokratisieren

Hello Dolly: Democratizing the magic of ChatGPT with open models

Update vom 12. April 2023: Wir haben Dolly 2.0 veröffentlicht, das sowohl für die Forschung als auch für die kommerzielle Nutzung lizenziert ist. Den neuen Blogpost finden Sie hier.

Übersicht

Wir zeigen, dass jeder ein veraltetes, handelsübliches Open-Source-Large-Language-Model (LLM) nehmen und ihm durch das Training mit hochwertigen Trainingsdaten in nur 30 Minuten auf einem einzigen Rechner magische, ChatGPT-ähnliche Fähigkeiten zur Befolgung von Anweisungen verleihen kann. Überraschenderweise scheint die Befolgung von Anweisungen nicht die neuesten oder größten Modelle vorauszusetzen: Unser Modell hat nur 6 Milliarden Parameter, verglichen mit 175 Milliarden bei GPT-3. Wir veröffentlichen den Code für unser Modell (Dolly) als Open Source und zeigen, wie es auf Databricks nachgebildet werden kann. Wir glauben, dass Modelle wie Dolly dabei helfen werden, LLMs zu demokratisieren und sie von etwas, das sich nur sehr wenige Unternehmen leisten können, in ein Produkt zu verwandeln, das jedes Unternehmen besitzen und zur Verbesserung seiner Produkte anpassen kann.

Hintergrund

ChatGPT, ein proprietäres, anweisungsorientiertes Modell, wurde im November 2022 veröffentlicht und eroberte die Welt im Sturm. Das Modell wurde auf Billionen von Wörtern aus dem Web trainiert, und seine Entwicklung erforderte eine riesige Anzahl von GPUs. Dies führte schnell dazu, dass Google und andere Unternehmen ihre eigenen proprietären, anweisungsempfänglichen Modelle veröffentlichten. Im Februar 2023 veröffentlichte Meta die Gewichte für eine Reihe hochwertiger (aber nicht anweisungsgesteuerter) Sprachmodelle namens LLaMA für akademische Forscher, die jeweils über 80.000 GPU-Stunden trainiert wurden. Im März entwickelte Stanford dann das Alpaca -Modell, das auf LLaMA basierte, aber auf einem kleinen Dataset von 50.000 menschenähnlichen Fragen und Antworten abgestimmt wurde, wodurch es überraschenderweise eine ChatGPT-ähnliche Interaktivität aufwies.

Wir stellen Dolly vor

Heute stellen wir Dolly vor, ein kostengünstig zu erstellendes LLM, das ein überraschendes Maß an den von ChatGPT bekannten Fähigkeiten zur Befolgung von Anweisungen aufweist. Während die Arbeit des Alpaca-Teams gezeigt hat, dass hochmoderne Modelle zu einem hochwertigen, anweisungsfolgenden Verhalten gebracht werden können, stellen wir fest, dass selbst jahrealte Open-Source-Modelle mit viel früheren Architekturen bemerkenswerte Verhaltensweisen aufweisen, wenn sie auf einem kleinen Korpus von Anweisungs-Trainingsdaten einem Fine-Tuning unterzogen werden. Dolly funktioniert, indem ein bestehendes Open-Source- Modell mit 6 Milliarden Parametern von EleutherAI genommen und unter Verwendung von Daten von Alpaca geringfügig modifiziert wird, um Fähigkeiten wie Brainstorming und Textgenerierung hervorzurufen, die im ursprünglichen Modell nicht vorhanden sind.

Das Dolly zugrundeliegende Modell hat nur 6 Milliarden Parameter, im Vergleich zu 175 Milliarden bei GPT-3, und ist zwei Jahre alt, weshalb es besonders überraschend ist, dass es so gut funktioniert. Dies legt nahe, dass ein Großteil der qualitativen Fortschritte bei State-of-the-Art-Modellen wie ChatGPT auf gezielte Korpora von anweisungsgesteuerten Trainingsdaten zurückzuführen sein könnte und nicht auf größere oder besser abgestimmte Basismodelle. Wir nennen das Modell Dolly – nach dem Schaf Dolly, dem ersten geklonten Säugetier –, weil es ein Open-Source-Klon eines Alpaca ist, inspiriert von einem LLaMA. Wir stehen am Anfang der Demokratisierung der KI für Unternehmen und es gibt noch viel zu tun. Wir glauben aber, dass die Technologie hinter Dolly eine aufregende neue Möglichkeit für Unternehmen darstellt, die kostengünstig ihre eigenen anweisungsempfänglichen Modelle erstellen möchten.

Wir haben Dolly hinsichtlich der im InstructGPT -Paper beschriebenen Fähigkeiten zur Befolgung von Anweisungen evaluiert, auf dem ChatGPT basiert, und festgestellt, dass es viele der gleichen qualitativen Fähigkeiten aufweist, darunter Textgenerierung, Brainstorming und offene Q&A. Besonders bemerkenswert an diesen Beispielen ist nicht die Qualität des generierten Textes, sondern vielmehr die enorme Verbesserung der Fähigkeit, Anweisungen zu befolgen, die sich aus dem Fine-Tuning eines jahrealten Open Source-Modells mit einem kleinen, hochwertigen Dataset ergibt.

Generierung

Ursprüngliches ModellDolly
Schreibe einen Liebesbrief an Edgar Allan Poe.

Originalmodell:

Verlauf: Edgar Allan Poe wurde im 19. Jahrhundert berühmt. Er wurde oft mit den großen Dichtern der Romantik verglichen und gilt als Vater der modernen Kurzgeschichte sowie als Begründer der amerikanischen Kriminalliteratur. Er ist seit 130 Jahren tot.

PATRICK CAMPOS: Man sollte niemals versuchen, einen Liebesbrief an eine tote Person zu schreiben.

PATRICK CAMPOS: Poe war mehr als nur der Autor von „Der Rabe“. Er war ein Meister der Atmosphäre.

BUDDY FRITZLER: Edgar Allan Poe lebte von 1831 bis zu seinem Tod 1849 in Baltimore. Er ist vor allem für seine Kurzgeschichten bekannt. Seine größten Beiträge zur Entwicklung der Literatur sind das Konzept der Detektivgeschichte, der Kriminalgeschichte und der Kurzgeschichte.

BUDDY FRITZLER: Poes berühmteste Geschichte, "Der Goldkäfer", wurde 1843 geschrieben. Sie handelt von einem Schatzsucher, der nach einem vergrabenen Schatz sucht. In dieser Kurzgeschichte liefert er die Blaupause für jeden Kriminalroman, der seither geschrieben wurde.

BUDDY FRITZLER: Der Kerngedanke, dass man nach Hinweisen suchen muss, ist sehr ansprechend. Es wurde sogar als … verwendet.

Dolly:

Liebster Edgar Allan Poe,

Ich bin dir zuerst im schummrigen Treppenhaus des alten Hauses begegnet, und ich weiß, dass ich dich in dem Moment, als ich dich sah, nie wiedersehen wollte. Du wirktest so distanziert und so erfüllt von den Schatten der Vergangenheit, dass ich für immer fernbleiben wollte.

Aber ich konnte nicht anders, als von dir besessen zu sein, und meine Gefühle für dich sind über die Jahre nur noch stärker geworden. Auch jetzt noch spüre ich eine tiefe Verbindung zu dir, die ich mir nie erklären kann.

Ich hoffe, dass Sie in dem Leben, das Sie nun führen, glücklich werden. Ich bin mir sicher, dass Sie Großes vollbringen werden, und ich stehe für immer in Ihrer Schuld.

Mit freundlichen Grüßen,

[Dein Name]

Schreibe einen Tweet, der Dolly, ein großes Sprachmodell von Databricks, ankündigt.

Originalmodell:

Gib in deinem Tweet eine kurze Zusammenfassung der Herausforderung, wie du sie analysiert hast und wie Dolly abgeschnitten hat.

Nach Ihrem Tweet werde ich ihn an den Twitter-Account von Databricks retweeten.

Bereinige deine Social-Media-Seite für die nächste Woche, indem du alle Erwähnungen von Dolly oder Databricks entfernst.

Datenvorbereitung

Unser erster Schritt ist es, Wortvektor-Einbettungen für jedes Dokument zu generieren. Wir können diese Vektordarstellungen auf zwei verschiedene Arten erhalten:

Verwendung eines tokenisierten Dokumentsatzes (in diesem Fall alles in unserem Download-Ordner)

Lädt ein word2vec-Modell von der Google Search API (in diesem Fall vector2vec.c)

In unserem Fall möchten wir die erste Methode verwenden, die einfacher ist, aber die zweite ist möglicherweise robuster. Wir werden das obige word2vec-Modell verwenden, um eine Vokabeldatei für alle neuen Wörter zu erstellen, die in der Datei gefunden werden. Dieser Prozess bietet uns eine schnelle Möglichkeit, neue Wörter zu identifizieren und kontextbezogene Begriffe zu finden.

Wir können damit starten, word2vec.c in ein lokales Verzeichnis namens /tmp/word2vec zu kopieren.

#/tmp/word2vec/word2vec.c FILE_NAME /tmp/word

Dolly:

Databricks hat gerade Dolly angekündigt – ein neues Sprachmodell für die Verarbeitung natürlicher Sprache mit großer Kapazität und verbesserter Effizienz!

#DataScience #NaturalLanguageProcessing

[Link zur Veröffentlichung des Dolly-Modells]

Ich verkaufe meine Nikon D-750. Schreibe einen kurzen Werbetext für meine Anzeige.

Originalmodell:

Ich bin mir nicht sicher, ob du einen Standort posten kannst – alles auf der Website ist in Ordnung.

Ich habe es erst seit einer Woche. Es ist in neuwertigem Zustand, mit intaktem Ladekabel und intakter Schutzhülle. Ich habe es für 1800 $ zur Abholung in einem Geschäft in San Francisco gekauft. Zuzüglich Steuern und dem nicht genannten Costco-Preis.

Kann mir bitte jemand sagen, dass das ein Betrug und nicht wirklich ein Angebot ist.

Ich habe gerade eine E-Mail erhalten, in der stand, dass die Kamera bei jemandem zu Hause ist, damit sie jemand anderes abholen kann, und ob ich ihnen eine Nachricht schreiben wollte. Also nein, ich verkaufe sie, da ich niemals …

Dolly:

Suchen Sie eine zuverlässige Kamera für Foto- und Videoarbeiten? Schau dir die Nikon D-750 an! Diese elegante, leichte Kamera hat einen 24,2-MP-Sensor und eine 1080/60p-Videoaufnahme und ist damit eine großartige Wahl, um die besonderen Momente des Lebens festzuhalten. Der ergonomische Griff und das Neun-Punkt-Autofokussystem erleichtern die Handhabung und ermöglichen problemloses Fotografieren. Mit WLAN können Sie Ihre Bilder einfach auf Ihren Computer oder Ihr Smartphone uploaden, ohne einen dedizierten externen Speicher kaufen zu müssen. Kaufen Sie jetzt die Nikon D-750, um zu erleben, warum sie die beste Wahl für Fotografie und Videografie ist!

Offenes Q&A

Ursprüngliches ModellDolly
Erklären Sie mir den Unterschied zwischen Kernspaltung und Kernfusion.

Originalmodell:

Das Erste, was einem auffällt, ist die Ähnlichkeit in Aussehen und Funktion zwischen dem Atom und der Sonne. Der Zentralkörper in der Sonne ist die Energiequelle, und die gesamte Struktur der Sonne besteht aus Millionen Tonnen des für uns so wichtigen Wasserstoffgases. Es ist das, wozu der gesamte Wasserstoff in der Sonne fusioniert, und deshalb bestehen wir daraus: Fusion.

Der Atomkern im Zentrum besteht aus Protonen, und die Elektronen umkreisen ihn. Im Zentrum befindet sich eine winzige, kugelförmige Masse mit vielen Protonen (und daher viel positiver Ladung), die als Atomkern bezeichnet wird. Die Elektronen sind nicht so winzig, aber ihre Ladung ist negativ, da ein positiver Kern und negative Elektronen für Stabilität sorgen (aufgrund des Ladungsausgleichs). Protonen sind positiv geladen, und obwohl sie sich selbst nicht fortbewegen können, stoßen sie Elektronen ab. Es gibt einen Kern aus Neutronen, die keine Ladung haben, aber von den Protonen dort gehalten werden. Protonen stoßen auch Neutronen ab.

Diese einfache Tatsache ist die grundlegende Form unserer Sonne und macht alle Elemente der Erde aus. Wasserstoff ist das häufigste Element in …

Dolly:

Der Unterschied zwischen Kernspaltung und Kernfusion ist die Methode, mit der die Energie des Atomkerns freigesetzt wird. Bei der Kernspaltung spaltet sich ein einzelner Atomkern in zwei kleinere Kerne. Dieser Prozess wird genutzt, um Energie durch die Freisetzung einer großen Energiemenge in Form von Wärme zu erzeugen. Bei der Fusion hingegen vereinigen sich zwei Atomkerne zu einem einzigen Kern. Dieser Prozess setzt im Vergleich zur Spaltung eine viel größere Energiemenge frei, die in Form von Licht und Wärme abgegeben wird. Die Fusion hat das Potenzial, eine viel effizientere Methode der Energiegewinnung zu sein. Jedoch ist es viel …

Brainstorming

Ursprüngliches ModellDolly
Gib mir eine Liste mit 5 Science-Fiction-Büchern, die ich als Nächstes lesen sollte.

Originalmodell:

Ich weiß, es ist früh, und ich sollte mich schämen, auch nur daran zu denken, aber ich habe die schreckliche Angewohnheit zu prokrastinieren und lese nur, wenn ich absolut muss.

Deshalb habe ich dieses Jahr nichts gelesen, egal in welchem Genre.

Sobald ich eine Reihe von Ideen für einen Artikel habe, überlasse ich es den Ideen und der Gliederung, dafür zu sorgen, dass ich nicht mit dem Schreiben anfange. Eine leere Seite und ein leerer Geist haben etwas Besonderes.

Allerdings muss ich das ändern, und als ich die obige Frage las, wurde mir klar, wie sehr ich ..… will.

Dolly:

1. 2001: Odyssee im Weltraum von Arthur C. Clarke

2. Per Anhalter durch die Galaxis von Douglas Adams

3. Der Herr der Ringe von J.R.R. Tolkien

4. Per Anhalter durch die Galaxis von Douglas Adams

5. 1984 von George Orwell.

Warum offene Modelle?

Es gibt viele Gründe, warum ein Unternehmen lieber ein eigenes Modell entwickelt, anstatt Daten an einen zentralen LLM-Anbieter zu senden, der ein proprietäres Modell über eine API bereitstellt. Für viele Unternehmen stellen die Probleme und Datasets, die am ehesten von KI profitieren, ihr sensibelstes und proprietäres geistiges Eigentum dar, und die Übergabe an Dritte ist möglicherweise inakzeptabel. Darüber hinaus haben Organisationen möglicherweise unterschiedliche Abwägungen in Bezug auf Modellqualität, Kosten und gewünschtes Verhalten. Wir sind davon überzeugt, dass es für die meisten ML-Nutzer langfristig am besten ist, ihre Modelle direkt zu besitzen.

Wir stellen ein einfaches Databricks Notebook als Open Source zur Verfügung, mit dem Sie Dolly auf Databricks selbst erstellen können. Um das Modell herunterzuladen und damit zu experimentieren, besuchen Sie die Hugging Face -Seite von Databricks! 

Was kommt als Nächstes?

Die Veröffentlichung von Dolly ist die erste in einer Reihe von Ankündigungen von Databricks, die darauf abzielen, jede Organisation dabei zu unterstützen, die Leistungsfähigkeit von großen Sprachmodellen zu nutzen. Wir glauben an die unglaubliche Kraft der künstlichen Intelligenz, die Produktivität jeder Organisation und jedes Einzelnen zu transformieren, und laden Sie ein, uns auf dieser Reise zu begleiten. Bleiben Sie dran, in den kommenden Wochen gibt es hier mehr dazu! 

In unserem Webinar am 25. April können Sie außerdem erfahren, wie Ihr Unternehmen von LLMs profitieren kann und wie Databricks Dolly entwickelt hat. Mach mit!

Wir freuen uns außerdem darauf, auf dem diesjährigen Data and KI Summit mehr über Dolly zu berichten, darunter ein Hands-on-Training und einen tieferen Einblick in unsere LLM-Roadmap. Wir laden Sie ein, sich zu registrieren, um vor Ort oder virtuell teilzunehmen.

Danksagung

Diese Arbeit ist den Anstrengungen und Erkenntnissen vieler großartiger Organisationen zu verdanken. Dies wäre nicht möglich gewesen, ohne dass EleutherAI GPT-J als Open-Source-Software veröffentlicht und trainiert hätte. Wir wurden von den großartigen Ideen und Daten des Stanford Center for Research on Foundation Models und insbesondere von dem Team hinter Alpaca inspiriert. Die Kernidee hinter der überproportionalen Leistungsfähigkeit kleiner Datasets ist dem ursprünglichen Paper über Self-Instruct zu verdanken. Wir sind auch Hugging Face dankbar für das Hosting, die Open-Source-Bereitstellung und die Pflege unzähliger Modelle und Bibliotheken; ihr Beitrag zum Stand der Technik kann nicht hoch genug eingeschätzt werden.

Haftungsausschluss: Generative KI ist eine aufstrebende Technologie, und wir befinden uns in einem frühen Forschungsstadium, wie wir Faktentreue, Voreingenommenheit, beleidigende Antworten, allgemeine Toxizität und Halluzinationen in LLMs angehen können. Dolly kann, wie andere Sprachmodelle auch, manchmal diese Verhaltensweisen aufweisen, und wir bitten unsere Nutzer dringend, bei der Gestaltung von Anwendungen dieser Technologie Urteilsvermögen walten zu lassen.

Verpassen Sie keinen Beitrag von Databricks

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Was kommt als Nächstes?

Databricks Named a Leader in 2024 Gartner® Magic Quadrant™ for Cloud Database Management Systems

Notícias

December 23, 2024/8 min de leitura

Databricks nomeada líder no Quadrante Mágico da Gartner® de 2024 para sistemas de gerenciamento de banco de dados em nuvem

AI Accelerator Announcement Blog

Notícias

September 18, 2025/6 min de leitura

Alimentando a Próxima Geração de IA: Anunciando o Programa Acelerador de IA da Databricks