Aggiornamento del 12 aprile 2023: abbiamo rilasciato Dolly 2.0, con licenza per uso sia di ricerca che commerciale. Leggi il nuovo post su un blog qui.
Riepilogo
Dimostriamo che chiunque può prendere un modello linguistico di grandi dimensioni (LLM) open source, pronto all'uso ma datato, e conferirgli una magica capacità di seguire le istruzioni simile a ChatGPT, addestrandolo in 30 minuti su una singola macchina con dati di addestramento di alta qualità. Sorprendentemente, la capacità di seguire le istruzioni non sembra richiedere i modelli più recenti o più grandi: il nostro modello ha solo 6 miliardi di parametri, rispetto ai 175 miliardi di GPT-3. Rendiamo open source il codice del nostro modello (Dolly) e mostriamo come può essere ricreato su Databricks. Crediamo che modelli come Dolly contribuiranno a democratizzare i LLM, trasformandoli da qualcosa che pochissime aziende possono permettersi in un prodotto di base che ogni azienda può possedere e personalizzare per migliorare i propri prodotti.
Sfondo
ChatGPT, un modello proprietario addestrato a seguire istruzioni, è stato rilasciato a novembre 2022 e ha conquistato il mondo. Il modello è stato addestrato su trilioni di parole dal web, richiedendo un numero enorme di GPU per lo sviluppo. Ciò ha portato rapidamente Google e altre aziende a rilasciare i propri modelli instruction-following proprietari. A febbraio 2023, Meta ha rilasciato ai ricercatori accademici i pesi per una serie di modelli linguistici di alta qualità (ma non di tipo instruction-following) chiamati LLaMA, addestrati per oltre 80.000 ore-GPU ciascuno. Poi, a marzo, Stanford ha creato il modello Alpaca, basato su LLaMA, ma ottimizzato su un piccolo set di dati di 50.000 domande e risposte simili a quelle umane che, sorprendentemente, gli ha conferito un'interattività simile a quella di ChatGPT.
Vi presentiamo Dolly
Oggi presentiamo Dolly, un LLM economico da realizzare che presenta un sorprendente livello di capacità di seguire le istruzioni, come quelle dimostrate da ChatGPT. Mentre il lavoro del team di Alpaca ha mostrato che i modelli all'avanguardia potevano essere indotti ad adottare un comportamento di alta qualità nel seguire le istruzioni, noi abbiamo scoperto che anche i modelli open source di vecchia data con architetture molto precedenti mostrano comportamenti sorprendenti quando vengono sottoposti a fine-tuning su un piccolo corpus di dati di addestramento basati su istruzioni. Dolly funziona prendendo un modello open source esistente da 6 miliardi di parametri di EleutherAI e modificandolo leggermente per ottenere capacità di seguire istruzioni, come il brainstorming e la generazione di testo, non presenti nel modello originale, utilizzando i dati di Alpaca.
Il modello alla base di Dolly ha solo 6 miliardi di parametri, rispetto ai 175 miliardi di GPT-3, e ha due anni, il che rende particolarmente sorprendente il suo ottimo funzionamento. Ciò suggerisce che gran parte dei miglioramenti qualitativi nei modelli all'avanguardia come ChatGPT potrebbero essere dovuti a corpus mirati di dati di addestramento per il seguire le istruzioni, piuttosto che a modelli di base più grandi o meglio ottimizzati. Abbiamo chiamato il modello Dolly, in onore della pecora Dolly, il primo mammifero clonato, perché è un clone open source di un Alpaca, ispirato a un LLaMA. Siamo agli albori della democratizzazione dell'IA per le aziende e c'è ancora molto lavoro da fare, ma crediamo che la tecnologia alla base di Dolly rappresenti una nuova ed entusiasmante opportunità per le aziende che vogliono creare in modo economico i propri modelli instruction-following.
Abbiamo valutato Dolly per le sue abilità nel seguire le istruzioni, descritte nel paper InstructGPT su cui si basa ChatGPT, e abbiamo riscontrato che mostra molte delle stesse capacità qualitative, tra cui la generazione di testo, il brainstorming e le sessioni di domande e risposte aperte. Ciò che è particolarmente degno di nota in questi esempi non è la qualità del testo generato, ma piuttosto l'enorme miglioramento della capacità di seguire le istruzioni che deriva dal fine-tuning di un modello open-source di diversi anni su un set di dati piccolo e di alta qualità.
| Modello originale | Dolly |
|---|---|
| Scrivi una lettera d'amore a Edgar Allan Poe. | |
Modello originale: STORIA: Edgar Allan Poe divenne famoso nel XIX secolo. Spesso paragonato ai grandi poeti romantici, Poe è considerato il padre del racconto moderno e il fondatore del romanzo poliziesco americano. È morto da 130 anni. PATRICK CAMPOS: Non si dovrebbe mai provare a scrivere una lettera d'amore a una persona morta. PATRICK CAMPOS: Poe era più del semplice autore de Il corvo. Era un maestro dell'atmosfera. BUDDY FRITZLER: Edgar Allan Poe visse a Baltimora dal 1831 fino alla sua morte nel 1849. È noto soprattutto per i suoi racconti. I suoi più grandi contributi allo sviluppo della letteratura sono stati l'ideazione del racconto poliziesco, del racconto del mistero e del racconto breve. BUDDY FRITZLER: Il racconto più famoso di Poe, "The Gold-Bug", fu scritto nel 1843. Parla di un cacciatore di tesori che cerca tesori sepolti. In questo racconto breve, fornisce un modello per ogni giallo scritto da allora in poi. BUDDY FRITZLER: L'idea centrale di dover cercare indizi è molto affascinante. È stato persino usato come... | Dolly: Carissimo Edgar Allan Poe, Ti ho incontrato per la prima volta nel vano scale poco illuminato della vecchia casa, e so che dal momento in cui ti ho visto, non ho mai più voluto rivederti. Sembravi così distante e così pieno delle ombre del passato che ho voluto starti lontano per sempre. Ma non ho potuto fare a meno di avere un'ossessione per te, e i miei sentimenti nei tuoi confronti sono solo cresciuti nel corso degli anni. Anche adesso, sento una profonda connessione con te che non potrò mai spiegare. Spero che tu possa trovare la felicità nella vita che conduci ora. Sono sicuro che farai grandi cose e ti sarò per sempre debitore. Cordiali saluti, [Il tuo nome] |
| Scrivi un tweet che annunci Dolly, un modello linguistico di grandi dimensioni di Databricks. | |
Modello originale: Nel tuo tweet, fornisci un breve riassunto della sfida, di come l'hai analizzata e di come si è comportata Dolly. Dopo il tuo tweet, lo retwitterò sull'account Twitter di Databricks. Ripulisci la tua pagina social per la prossima settimana rimuovendo qualsiasi menzione di Dolly o Databricks. Preparazione dei dati Il nostro primo passo è generare embedding vettoriali di parole per ogni documento. Possiamo ottenere queste rappresentazioni vettoriali in due modi diversi: Utilizzando un set di documenti tokenizzato (in questo caso, tutto ciò che si trova nella nostra cartella di download) Carica un modello word2vec dalla Google Search API (in questo caso, vector2vec.c) Nel nostro caso, vogliamo usare il primo metodo, che è più facile, ma il secondo potrebbe essere più robusto. Useremo il modello word2vec di cui sopra per creare un file di vocabolario per le nuove parole trovate nel file. Questo processo ci fornisce un modo rapido per identificare nuove parole e trovare termini contestualmente correlati. Possiamo startare copiando word2vec.c in una directory locale chiamata /tmp/word2vec. #/tmp/word2vec/word2vec.c FILE_NAME /tmp/word | Dolly: Databricks ha appena annunciato Dolly, un nuovo modello linguistico per l'elaborazione del linguaggio naturale con grande capacità e un'efficienza migliorata! |
#DataScience #NaturalLanguageProcessing
[Link al rilascio del modello Dolly]
Modello originale:
Non sono sicuro se puoi pubblicare un luogo, qualsiasi cosa sul sito web andrà bene.
Ce l'ho solo da una settimana. È in perfette condizioni, con il cavo di ricarica e la custodia con finestra intatti. L'ho acquistato a 1800 $ con ritiro in un negozio di San Francisco. Più tasse e il prezzo non comunicato di Costco.
Qualcuno mi faccia sapere se si tratta di una truffa e non di un'offerta reale.
Ho appena ricevuto un'e-mail in cui si diceva che la fotocamera è a casa di qualcuno, quindi qualcun altro può ritirarla, e mi chiedeva se volessi inviargli un messaggio. Beh, no, la sto vendendo perché non potrei mai…
Dolly:
Cerchi una fotocamera affidabile per lavori di foto e video? Dai un'occhiata alla Nikon D-750! Questa fotocamera elegante e leggera ha un sensore da 24,2 MP e registrazione video 1080/60p, che la rendono un'ottima scelta per catturare i momenti della vita. L'impugnatura ergonomica e il sistema di autofocus a nove punti la rendono facile da usare per scattare senza problemi. Con il Wi-Fi, puoi upload facilmente le tue foto sul tuo computer o smartphone senza dover acquistare un'unità di archiviazione esterna dedicata. Acquista subito la Nikon D-750 per scoprire perché è la scelta migliore per la fotografia e la videografia!
| Modello originale | Dolly |
|---|---|
| Spiegami la differenza tra fissione e fusione nucleare. | |
Modello originale: La prima cosa che colpisce è la somiglianza nell'aspetto e nella funzione tra l'atomo e il sole. Il corpo centrale del sole è la fonte di energia e l'intera struttura del sole è costituita da un milione di tonnellate di idrogeno gassoso, così importante per noi. È ciò in cui si fonde tutto l'idrogeno nel sole, ed è per questo che ne siamo fatti: la fusione. Il nucleo dell'atomo, al centro, è composto da protoni e gli elettroni gli orbitano attorno. Al centro si trova una minuscola massa sferica con molti protoni (e quindi molta carica positiva) chiamata nucleo. Gli elettroni non sono così piccoli, ma la loro carica è negativa, poiché un nucleo positivo ed elettroni negativi creano stabilità (grazie all'equilibrio delle cariche). I protoni hanno una carica positiva, quindi anche se non possono spostarsi da nessuna parte, respingono gli elettroni. C'è un nucleo di neutroni, che non hanno alcuna carica, ma sono trattenuti lì dai protoni. I protoni respingono anche i neutroni. Questo semplice fatto è la forma base del nostro sole, ed è ciò che costituisce tutti gli elementi della Terra. L'idrogeno è l'elemento più abbondante in... | Dolly: La differenza tra fissione e fusione nucleare è il metodo con cui viene rilasciata l'energia del nucleo. Nella fissione nucleare, un singolo nucleo atomico si divide in due nuclei più piccoli. Questo processo viene utilizzato per creare energia attraverso il rilascio di una grande quantità di energia sotto forma di calore. D'altra parte, la fusione comporta l'unione di due nuclei atomici per formare un unico nucleo. Questo processo viene utilizzato per creare una quantità di energia molto maggiore rispetto alla fissione, e l'energia viene rilasciata attraverso il rilascio di luce e calore. La fusione ha il potenziale per essere un modo molto più efficiente per creare energia. Tuttavia, è molto … |
| Modello originale | Dolly |
|---|---|
| Dammi una lista di 5 libri di fantascienza da leggere. | |
Modello originale: So che è presto e dovrei vergognarmi anche solo di pensarci, ma ho la terribile tendenza a procrastinare e a leggere solo quando è assolutamente necessario. Di conseguenza, quest'anno non ho letto niente, di nessun genere. Non appena ho una serie di idee per un articolo, lascio che le idee e la scaletta facciano il lavoro di assicurarsi che io non inizi a scrivere. C'è qualcosa di speciale in una pagina bianca e una mente vuota. Detto questo, devo cambiarlo, e leggere la domanda qui sopra mi ha fatto capire quanto lo voglia... | Dolly: 1. 2001: Odissea nello spazio di Arthur C. Clarke 2. Guida galattica per gli autostoppisti di Douglas Adams 3. Il Signore degli Anelli di J.R.R. Tolkien 4. Guida galattica per gli autostoppisti di Douglas Adams 5. 1984 di George Orwell. |
Perché i modelli aperti?
Ci sono molte ragioni per cui un'azienda preferirebbe creare il proprio modello piuttosto che inviare dati a un fornitore di LLM centralizzato che eroga un modello proprietario tramite un'API. Per molte aziende, i problemi e i set di dati che hanno maggiori probabilità di trarre vantaggio dall'AI rappresentano la loro proprietà intellettuale più sensibile e proprietaria, e affidarla a terzi può essere inaccettabile. Inoltre, le organizzazioni possono dover scendere a compromessi diversi in termini di qualità del modello, costo e comportamento desiderato. Riteniamo che la maggior parte degli utenti di ML tragga maggiori benefici a lungo termine dal possedere direttamente i propri modelli.
Stiamo rendendo open source un semplice notebook di Databricks che puoi usare per creare Dolly autonomamente su Databricks. Per scaricare e sperimentare con il modello, visita la pagina Hugging Face di Databricks!
E adesso?
Il rilascio di Dolly è il primo di una serie di annunci di Databricks volti ad aiutare ogni organizzazione a sfruttare la potenza dei modelli linguistici di grandi dimensioni. Crediamo nell'incredibile potere dell'intelligenza artificiale di trasformare la produttività di ogni organizzazione e individuo e ti invitiamo a unirti a noi in questo viaggio. Restate sintonizzati per ulteriori novità in questo settore nelle prossime settimane!
Puoi anche scoprire in che modo la tua azienda può trarre vantaggio dagli LLM e come Databricks ha creato Dolly nel nostro webinar del 25 aprile. Unisciti a noi!
Siamo anche entusiasti di condividere molto di più su Dolly, inclusa l'addestramento pratico e un approfondimento sulla nostra roadmap per i LLM, al Data and AI Summit di quest'anno. Vi invitiamo a registrarvi per unirvi a noi di persona o virtualmente.
Ringraziamenti
Questo lavoro deve molto agli sforzi e agli approfondimenti di molte organizzazioni incredibili. Questo non sarebbe stato possibile senza EleutherAI, che ha reso open-source e ha fornito l'addestramento di GPT-J. Traiamo ispirazione dalle idee e dai dati incredibili dello Stanford Center for Research on Foundation Models e in particolare dal team dietro ad Alpaca. L'idea di base dietro il potere smisurato dei piccoli set di dati si deve all'articolo originale su Self-Instruct. Siamo anche grati a Hugging Face per aver ospitato, reso open source e mantenuto innumerevoli modelli e librerie; il loro contributo allo stato dell'arte non può essere sopravvalutato.
Avvertenza: l'AI generativa è una tecnologia emergente e siamo nelle prime fasi della ricerca su come affrontare l'accuratezza dei fatti, il bias, le risposte offensive, la tossicità generale e le allucinazioni negli LLM. Dolly, come altri modelli linguistici, può talvolta manifestare questi comportamenti ed esortiamo i nostri utenti a usare il buon senso nella progettazione di applicazioni basate su questa tecnologia.
Notícias
December 23, 2024/8 min de leitura
Notícias
September 18, 2025/6 min de leitura


