12 aprile 2023

Dolly Gratuito: Presentazione del primo LLM al mondo veramente open source e instruction-tuned

di Mike Conover, Matt Hayes, Ankit Mathur, Jianwei Xie, Jun Wan, Sam Shah, Ali Ghodsi, Patrick Wendell, Matei Zaharia e Reynold Xin

Due settimane fa, abbiamo rilasciato Dolly, un large language model (LLM) addestrato per meno di $30 per esibire un'interattività umana simile a ChatGPT (nota anche come instruction-following). Oggi, rilasciamo Dolly 2.0, il primo LLM open source instruction-following, ottimizzato su un dataset di istruzioni generato da esseri umani con licenza per ricerca e uso commerciale.

Dolly 2.0 è un modello linguistico da 12 miliardi di parametri basato sulla famiglia di modelli pythia di EleutherAI e ottimizzato esclusivamente su un nuovo dataset di alta qualità generato da esseri umani per l'instruction-following, raccolto tra i dipendenti di Databricks.

Stiamo rilasciando open source l'intera Dolly 2.0, inclusi il codice di addestramento, il dataset e i pesi del modello, tutti adatti all'uso commerciale. Ciò significa che qualsiasi organizzazione può creare, possedere e personalizzare potenti LLM in grado di comunicare con le persone, senza pagare per l'accesso API o condividere dati con terze parti.

Dataset databricks-dolly-15k

databricks-dolly-15k contiene 15.000 coppie prompt/risposta di alta qualità generate da esseri umani, specificamente progettate per l'ottimizzazione delle istruzioni (instruction tuning) dei large language models. Secondo i termini di licenza di databricks-dolly-15k (Creative Commons Attribution-ShareAlike 3.0 Unported License), chiunque può utilizzare, modificare o estendere questo dataset per qualsiasi scopo, comprese le applicazioni commerciali.

Per quanto ne sappiamo, questo dataset è il primo dataset open source generato da esseri umani per l'instruction-following, specificamente progettato per far sì che i large language models esibiscano l'interattività magica di ChatGPT. databricks-dolly-15k è stato creato da oltre 5.000 dipendenti Databricks durante marzo e aprile 2023. Questi record di addestramento sono naturali, espressivi e progettati per rappresentare un'ampia gamma di comportamenti, dal brainstorming alla generazione di contenuti, dall'estrazione di informazioni alla sintesi.

Perché abbiamo creato un nuovo dataset?

Non appena abbiamo rilasciato Dolly 1.0, siamo stati sommersi da richieste da parte di persone che volevano provarlo. La domanda numero uno che continuavamo a ricevere era: "posso usarlo commercialmente?"

Un passaggio critico nella creazione di Dolly 1.0, o di qualsiasi LLM instruction-following, è addestrare il modello su un dataset di coppie istruzione-risposta. Dolly 1.0 è stato addestrato per $30 utilizzando un dataset che il team Stanford Alpaca aveva creato utilizzando l'API di OpenAI. Quel dataset conteneva output da ChatGPT e, come aveva sottolineato il team di Stanford, i termini di servizio cercano di impedire a chiunque di creare un modello che competa con OpenAI. Quindi, sfortunatamente, la risposta a questa domanda comune era: "probabilmente no!"

Per quanto ne sappiamo, tutti i modelli instruction-following ben noti esistenti (Alpaca, Koala, GPT4All, Vicuna) soffrono di questa limitazione, vietando l'uso commerciale. Per aggirare questo dilemma, abbiamo iniziato a cercare modi per creare un nuovo dataset non "contaminato" per l'uso commerciale.

Come abbiamo fatto?

Sapevamo dalla ricerca OpenAI paper che il modello InstructGPT originale era stato addestrato su un dataset composto da 13.000 dimostrazioni di comportamento instruction-following. Ispirati da questo, ci siamo prefissati di vedere se potevamo ottenere un risultato simile con i dipendenti Databricks in prima linea.

A quanto pare, generare 13.000 domande e risposte è più difficile di quanto sembri. Ogni risposta deve essere originale. Non può essere copiata da ChatGPT o da nessun'altra parte sul web, altrimenti contaminerebbe il nostro dataset. Sembrava scoraggiante, ma Databricks ha oltre 5.000 dipendenti molto interessati agli LLM. Quindi abbiamo pensato di poter raccogliere contributi da loro per creare un dataset di qualità ancora superiore rispetto ai 40 etichettatori che avevano creato per OpenAI. Ma sapevamo che erano tutti impegnati e avevano lavori a tempo pieno, quindi dovevamo incentivarli a farlo.

Abbiamo organizzato un concorso, in cui i 20 migliori etichettatori avrebbero ricevuto un grosso premio. Abbiamo anche delineato 7 compiti molto specifici:

Domande e Risposte Aperte (Open Q&A): Ad esempio, "Perché le persone amano i film comici?" o "Qual è la capitale della Francia?" In alcuni casi, non c'è una risposta corretta, e in altri, richiede di attingere alla conoscenza del mondo in generale.
Domande e Risposte Chiuse (Closed Q&A): Queste sono domande a cui si può rispondere utilizzando solo le informazioni contenute in un passaggio di testo di riferimento. Ad esempio, dato un paragrafo da Wikipedia sull'atomo, si potrebbe chiedere: "Qual è il rapporto tra protoni e neutroni nel nucleo?"
Estrarre informazioni da Wikipedia: Qui un annotatore copiava un paragrafo da Wikipedia ed estraeva entità o altre informazioni fattuali come pesi o misurazioni dal passaggio.
Riassumere informazioni da Wikipedia: Per questo, gli annotatori fornivano un passaggio da Wikipedia e venivano invitati a distillarlo in un breve riassunto.
Brainstorming: Questo compito richiedeva ideazione aperta e un elenco associato di opzioni possibili. Ad esempio, "Quali sono alcune attività divertenti che posso fare con i miei amici questo fine settimana?".
Classificazione: Per questo compito, agli annotatori veniva chiesto di esprimere giudizi sull'appartenenza a una classe (ad esempio, gli elementi in un elenco sono animali, minerali o verdure) o di giudicare le proprietà di un breve passaggio di testo, come il sentimento di una recensione di un film.
Scrittura creativa: Questo compito includeva cose come scrivere una poesia o una lettera d'amore.

Esempio di Open QA in databricks-dolly-15k

Come si accende un falò?

La sicurezza dovrebbe sempre venire prima quando si accende un falò. Assicurati di avere acqua o un altro modo per spegnere il fuoco prontamente disponibile. Usa un anello per falò, una buca o pulisci un'ampia area intorno alla posizione del tuo falò. Inoltre, assicurati che i falò siano permessi nella tua zona.

Con la sicurezza fuori dai piedi, tutto ciò di cui un fuoco ha bisogno sono calore, combustibile e ossigeno. Qualsiasi materiale combustibile avvierà un fuoco, ma le buone fonti di combustibile per falò includono esche, legnetti e tronchi secchi.

Usa materiali come aghi di pino secchi, foglie secche, erba e trucioli di legno per l'esca. Potresti anche usare giornali (o qualsiasi carta), lanugine dell'asciugatrice o cartone. Per i legnetti, usa pezzi più piccoli di legno, come ramoscelli e bastoncini non più spessi di 1 pollice di diametro (circa lo spessore del tuo pollice).

Tronchi secchi o ben stagionati garantiranno una buona combustione. Impila il legno in modo che l'ossigeno possa raggiungere facilmente la tua fiamma. Molti preferiscono un design di impilamento a teepee o a capanna di tronchi. Ora, usa una fonte di calore per creare una fiamma o una scintilla e applicala alla tua esca. Una volta che l'esca brucia, dovrebbe accendere i legnetti, e i legnetti dovrebbero infine accendere i tuoi tronchi. Se tutto va bene, dovresti ora goderti il tuo falò.

Esempio di Brainstorming in databricks-dolly-15k

Invece di fare un panino al burro di arachidi e marmellata, con cos'altro potrei combinare il burro di arachidi in un panino? Dammi cinque idee.

Invece della marmellata, prova uno dei seguenti con il burro di arachidi in un panino:

Miele
Uvetta
Frutta in conserva
Banane
Mele affettate

Eravamo inizialmente scettici sul fatto che avremmo raggiunto 10.000 risultati. Ma con la gamification della classifica notturna, siamo riusciti a superare i 15.000 risultati in una settimana. Per timore di intaccare la nostra produttività, abbiamo chiuso il concorso.

Il nostro percorso per creare un modello commercialmente valido

Volevamo anche produrre un modello open source che potesse essere utilizzato commercialmente. Nonostante databricks-dolly-15k sia sostanzialmente più piccolo di Alpaca, il dataset su cui è stato addestrato Dolly 1.0, il modello risultante Dolly 2.0, basato su EleutherAI’s pythia-12b, ha esibito un comportamento instruction-following di alta qualità. Col senno di poi, questo non sorprende. Molti dei dataset di instruction tuning rilasciati negli ultimi mesi contengono dati sintetizzati, che spesso presentano allucinazioni ed errori fattuali.

databricks-dolly-15k, d'altra parte, è generato da professionisti, è di alta qualità e contiene risposte lunghe per la maggior parte dei compiti.

Puoi vedere tu stesso alcuni esempi di come Dolly 2.0 può essere utilizzato per la sintesi e la generazione di contenuti. Sulla base del nostro feedback iniziale dei clienti, è chiaro che capacità come queste avranno ampie applicazioni in tutto l'enterprise.

Dolly 2.0 riassume la documentazione Databricks

Istruzione

Risposta

Qual è la configurazione predefinita per i nuovi Databricks SQL Warehouse?

Input:

Databricks SQL Serverless supporta il calcolo serverless. Gli amministratori possono creare SQL warehouse serverless (precedentemente endpoint SQL) che abilitano il calcolo istantaneo e sono gestiti da Databricks. I SQL warehouse serverless utilizzano cluster di calcolo nel tuo account Databricks. Usali con le query Databricks SQL come faresti normalmente con i SQL warehouse originali ospitati dal cliente, che ora sono chiamati SQL warehouse classici. Databricks ha cambiato il nome da endpoint SQL a SQL warehouse perché, nel settore, endpoint si riferisce sia a un dispositivo di calcolo remoto che comunica con una rete a cui è connesso, sia a un punto di ingresso a un servizio cloud. Un data warehouse è un sistema di gestione dei dati che archivia dati correnti e storici da più origini in modo user-friendly per facilitare insight e reporting. SQL warehouse descrive accuratamente le capacità complete di questa risorsa di calcolo. Se i SQL warehouse serverless sono abilitati per il tuo account, tieni presente quanto segue: I nuovi SQL warehouse sono serverless per impostazione predefinita quando li crei dall'interfaccia utente. I nuovi SQL warehouse non sono serverless per impostazione predefinita quando li crei utilizzando l'API, che richiede di specificare esplicitamente serverless. Puoi anche creare nuovi SQL warehouse pro o classici utilizzando entrambi i metodi. Puoi aggiornare un SQL warehouse pro o classico a un SQL warehouse serverless o un SQL warehouse classico a un SQL warehouse pro. Puoi anche effettuare il downgrade da serverless a pro o classico. Questa funzionalità influisce solo su Databricks SQL. Non influisce su come i cluster Databricks Runtime funzionano con notebook e job negli ambienti di workspace Data Science & Engineering o Databricks Machine Learning. I cluster Databricks Runtime vengono sempre eseguiti nel data plane classico nel tuo account AWS. Vedi quote serverless. Se il tuo account necessita di termini di utilizzo aggiornati, gli amministratori del workspace vengono richiesti nell'interfaccia utente di Databricks SQL. Se il tuo workspace dispone di un profilo istanza AWS, potrebbe essere necessario aggiornare la relazione di trust per supportare il calcolo serverless, a seconda di come e quando è stato creato.

Per impostazione predefinita, quando crei un nuovo Databricks SQL Warehouse utilizzando l'interfaccia utente, sarà un SQL warehouse serverless. Tuttavia, quando crei lo stesso utilizzando l'API, dovrai specificare esplicitamente che si tratta di un SQL warehouse pro.

Dolly 2.0 genera contenuti per un tweet

Istruzione

Risposta

Scrivimi un tweet sul lancio di Dolly 2.0, il nostro nuovo LLM.

Dolly 2.0 è qui 🤩

Abbiamo aggiornato il nostro LLM, rendendolo più efficiente, più potente e più accessibile a un pubblico più ampio.

Scopri di più ⬇️

https://t.co/KxzT3HXCPb

Modelli linguistici di grandi dimensioni veramente aperti

Abbiamo sentito ripetutamente dai nostri clienti che sarebbero meglio serviti possedendo i propri modelli, consentendo loro di creare modelli di qualità superiore per le loro applicazioni specifiche di dominio senza cedere i propri dati sensibili a terzi.

Crediamo anche che le questioni importanti di bias, responsabilità e sicurezza dell'IA debbano essere affrontate da un'ampia comunità di stakeholder diversi piuttosto che da poche grandi aziende. Dataset e modelli open-source incoraggiano commenti, ricerca e innovazione che aiuteranno a garantire che tutti beneficino dei progressi nella tecnologia dell'intelligenza artificiale.

Come artefatto tecnico e di ricerca, non ci aspettiamo che Dolly sia all'avanguardia in termini di efficacia. Tuttavia, ci aspettiamo che Dolly e il dataset open source fungano da seme per una moltitudine di lavori successivi, che potrebbero servire ad avviare modelli linguistici ancora più potenti.

Come posso iniziare oggi?

Per scaricare i pesi del modello Dolly 2.0 visita semplicemente la pagina Databricks Hugging Face e visita il repository Dolly su databricks-labs per scaricare il dataset databricks-dolly-15k. E unisciti al nostro webinar per scoprire come puoi sfruttare gli LLM per la tua organizzazione.

Risorse

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Ricevi gli ultimi articoli nella tua casella di posta

Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.

Visualizza tutti i blog