12 avril 2023

Dolly gratuit : présentation du premier LLM au monde véritablement open source et réglé sur des instructions

par Mike Conover, Matt Hayes, Ankit Mathur, Jianwei Xie, Jun Wan, Sam Shah, Ali Ghodsi, Patrick Wendell, Matei Zaharia et Reynold Xin

Il y a deux semaines, nous avons publié Dolly, un grand modèle linguistique (LLM) entraîné pour moins de 30 $ afin d'afficher une interactivité humaine similaire à ChatGPT (également appelée suivi d'instructions). Aujourd'hui, nous publions Dolly 2.0, le premier LLM open source de suivi d'instructions, affiné sur un jeu de données d'instructions générées par des humains et licencié pour une utilisation en recherche et commerciale.

Dolly 2.0 est un modèle linguistique de 12 milliards de paramètres basé sur la famille de modèles pythia d'EleutherAI et affiné exclusivement sur un nouveau jeu de données de haute qualité généré par des humains pour le suivi d'instructions, crowdsourcé auprès des employés de Databricks.

Nous rendons open source l'intégralité de Dolly 2.0, y compris le code d'entraînement, le jeu de données et les poids du modèle, tous adaptés à une utilisation commerciale. Cela signifie que toute organisation peut créer, posséder et personnaliser de puissants LLM capables de dialoguer avec des personnes, sans payer pour l'accès à l'API ni partager de données avec des tiers.

jeu de données databricks-dolly-15k

databricks-dolly-15k contient 15 000 paires requête/réponse de haute qualité générées par des humains, spécifiquement conçues pour l'ajustement d'instructions des grands modèles linguistiques. Conformément aux termes de licence de databricks-dolly-15k (Licence Creative Commons Attribution-ShareAlike 3.0 Unported), toute personne peut utiliser, modifier ou étendre ce jeu de données à toute fin, y compris des applications commerciales.

À notre connaissance, ce jeu de données est le premier jeu de données d'instructions open source généré par des humains, spécifiquement conçu pour que les grands modèles linguistiques présentent l'interactivité magique de ChatGPT. databricks-dolly-15k a été créé par plus de 5 000 employés de Databricks en mars et avril 2023. Ces enregistrements d'entraînement sont naturels, expressifs et conçus pour représenter un large éventail de comportements, de la génération d'idées et de contenu à l'extraction d'informations et à la synthèse.

Pourquoi avons-nous créé un nouveau jeu de données ?

Dès que nous avons publié Dolly 1.0, nous avons été submergés de demandes de personnes souhaitant l'essayer. La question numéro un que nous recevions était : « puis-je l'utiliser commercialement ? »

Une étape essentielle dans la création de Dolly 1.0, ou de tout LLM de suivi d'instructions, est d'entraîner le modèle sur un jeu de données de paires d'instructions et de réponses. Dolly 1.0 a été entraîné pour 30 $ en utilisant un jeu de données que l'équipe Stanford Alpaca avait créé à l'aide de l'API OpenAI. Ce jeu de données contenait des sorties de ChatGPT, et comme l'équipe Stanford l'a souligné, les conditions d'utilisation visent à empêcher quiconque de créer un modèle concurrent d'OpenAI. Donc, malheureusement, la réponse à cette question fréquente était : « probablement pas ! »

À notre connaissance, tous les modèles de suivi d'instructions bien connus existants (Alpaca, Koala, GPT4All, Vicuna) souffrent de cette limitation, interdisant l'utilisation commerciale. Pour contourner cette énigme, nous avons commencé à chercher des moyens de créer un nouveau jeu de données non « contaminé » pour un usage commercial.

Comment avons-nous procédé ?

Nous savions d'après le document de recherche OpenAI que le modèle InstructGPT original avait été entraîné sur un jeu de données composé de 13 000 démonstrations de comportement de suivi d'instructions. Inspirés par cela, nous avons décidé de voir si nous pouvions obtenir un résultat similaire avec les employés de Databricks en tête.

Il s'avère que générer 13 000 questions et réponses est plus difficile qu'il n'y paraît. Chaque réponse doit être originale. Elle ne peut pas être copiée de ChatGPT ou d'ailleurs sur le web, sinon elle contaminerait notre jeu de données. Cela semblait décourageant, mais Databricks compte plus de 5 000 employés très intéressés par les LLM. Nous avons donc pensé que nous pourrions faire du crowdsourcing auprès d'eux pour créer un jeu de données de qualité encore supérieure à celle créée par les 40 annotateurs pour OpenAI. Mais nous savions qu'ils étaient tous occupés et avaient des emplois à temps plein, nous devions donc les inciter à le faire.

Nous avons organisé un concours, où les 20 meilleurs annotateurs recevraient un grand prix. Nous avons également défini 7 tâches très spécifiques :

Questions/Réponses ouvertes : Par exemple, « Pourquoi les gens aiment-ils les films comiques ? » ou « Quelle est la capitale de la France ? » Dans certains cas, il n'y a pas de réponse correcte, et dans d'autres, cela nécessite de puiser dans la connaissance générale du monde.
Questions/Réponses fermées : Ce sont des questions auxquelles on peut répondre en utilisant uniquement les informations contenues dans un passage de texte de référence. Par exemple, étant donné un paragraphe de Wikipédia sur l'atome, on pourrait demander : « Quel est le rapport entre les protons et les neutrons dans le noyau ? »
Extraire des informations de Wikipédia : Ici, un annotateur copierait un paragraphe de Wikipédia et extrairait des entités ou d'autres informations factuelles telles que des poids ou des mesures du passage.
Synthétiser des informations de Wikipédia : Pour cela, les annotateurs fournissaient un passage de Wikipédia et devaient en distiller un bref résumé.
Génération d'idées : Cette tâche demandait une idéation ouverte et une liste associée d'options possibles. Par exemple, « Quelles sont les activités amusantes que je peux faire avec mes amis ce week-end ? »
Classification : Pour cette tâche, les annotateurs devaient juger de l'appartenance à une classe (par exemple, les éléments d'une liste sont-ils des animaux, des minéraux ou des légumes) ou juger des propriétés d'un court passage de texte, comme le sentiment d'une critique de film.
Écriture créative : Cette tâche inclurait des choses comme écrire un poème ou une lettre d'amour.

Exemple de Questions/Réponses ouvertes dans databricks-dolly-15k

Comment puis-je faire un feu de camp ?

La sécurité doit toujours être la priorité lors de l'allumage d'un feu de camp. Assurez-vous d'avoir de l'eau ou un autre moyen d'éteindre votre feu à portée de main. Utilisez un anneau de feu de camp, une fosse, ou dégagez une grande zone autour de votre emplacement de feu de camp. Assurez-vous également que les feux de camp sont autorisés dans votre région.

La sécurité étant réglée, un feu a besoin de chaleur, de combustible et d'oxygène. N'importe quel matériau combustible peut allumer un feu, mais de bonnes sources de combustible pour un feu de camp comprennent l'amadou, le petit bois et les bûches sèches.

Utilisez des choses comme des aiguilles de pin sèches, des feuilles sèches, des herbes et des copeaux de bois pour l'amadou. Vous pouvez également utiliser du papier journal (ou tout autre papier), des peluches de sèche-linge ou du carton. Pour le petit bois, utilisez des morceaux de bois plus petits, tels que des brindilles et des bâtons ne dépassant pas 1 pouce de diamètre (environ l'épaisseur de votre pouce).

Des bûches sèches ou bien assaisonnées assureront une bonne combustion. Empilez le bois de manière à garantir que l'oxygène puisse facilement atteindre votre flamme. Beaucoup préfèrent une conception d'empilage en tipi ou en cabane en rondins. Maintenant, utilisez une source de chaleur pour créer une flamme ou une étincelle et appliquez-la à votre amadou. Une fois que l'amadou prend feu, il devrait allumer le petit bois, et le petit bois finira par enflammer vos bûches. Si tout se passe bien, vous devriez maintenant profiter de votre feu de camp.

Exemple de génération d'idées dans databricks-dolly-15k

Au lieu de faire un sandwich au beurre de cacahuète et à la confiture, avec quoi d'autre pourrais-je combiner le beurre de cacahuète dans un sandwich ? Donnez cinq idées.

Au lieu de la confiture, essayez l'une des options suivantes avec du beurre de cacahuète dans un sandwich :

Miel
Raisins secs
Confitures de fruits
Bananes
Pommes tranchées

Nous étions initialement sceptiques quant à l'obtention de 10 000 résultats. Mais avec la gamification du classement nocturne, nous avons réussi à dépasser les 15 000 résultats en une semaine. Par crainte d'affecter notre productivité, nous avons clôturé le concours.

Notre parcours pour créer un modèle commercialement viable

Nous voulions également produire un modèle open source qui puisse être utilisé commercialement. Bien que databricks-dolly-15k soit considérablement plus petit qu'Alpaca, le jeu de données sur lequel Dolly 1.0 a été entraîné, le modèle résultant Dolly 2.0, basé sur pythia-12b d'EleutherAI, a présenté un comportement de suivi d'instructions de haute qualité. Rétrospectivement, cela n'est pas surprenant. De nombreux jeux de données d'ajustement d'instructions publiés ces derniers mois contiennent des données synthétisées, qui comportent souvent des hallucinations et des erreurs factuelles.

databricks-dolly-15k, en revanche, est généré par des professionnels, est de haute qualité et contient de longues réponses à la plupart des tâches.

Vous pouvez constater par vous-même quelques exemples de la manière dont Dolly 2.0 peut être utilisé pour la synthèse et la génération de contenu. Sur la base de nos premiers retours clients, il est clair que des capacités telles que celles-ci auront des applications étendues dans l'entreprise.

Dolly 2.0 résume la documentation Databricks

Instruction

Response

Quelle est la configuration par défaut pour les nouveaux entrepôts DBSQL ?

Entrée :

Databricks SQL Serverless prend en charge le calcul serverless. Les administrateurs peuvent créer des entrepôts SQL serverless (anciennement points de terminaison SQL) qui permettent un calcul instantané et sont gérés par Databricks. Les entrepôts SQL serverless utilisent des clusters de calcul dans votre compte Databricks. Utilisez-les avec les requêtes Databricks SQL comme vous le feriez normalement avec les entrepôts SQL hébergés par le client d'origine, qui sont maintenant appelés entrepôts SQL classiques. Databricks a changé le nom de point de terminaison SQL à entrepôt SQL car, dans l'industrie, le terme point de terminaison fait référence soit à un appareil informatique distant qui communique avec un réseau auquel il est connecté, soit à un point d'entrée vers un service cloud. Un entrepôt de données est un système de gestion de données qui stocke des données actuelles et historiques provenant de plusieurs sources d'une manière conviviale pour les entreprises afin de faciliter les informations et les rapports. Entrepôt SQL décrit avec précision les capacités complètes de cette ressource de calcul. Si les entrepôts SQL serverless sont activés pour votre compte, notez ce qui suit : Les nouveaux entrepôts SQL sont serverless par défaut lorsque vous les créez à partir de l'interface utilisateur. Les nouveaux entrepôts SQL ne sont pas serverless par défaut lorsque vous les créez à l'aide de l'API, ce qui vous oblige à spécifier explicitement serverless. Vous pouvez également créer de nouveaux entrepôts SQL pro ou classiques en utilisant l'une ou l'autre méthode. Vous pouvez mettre à niveau un entrepôt SQL pro ou classique vers un entrepôt SQL serverless ou un entrepôt SQL classique vers un entrepôt SQL pro. Vous pouvez également rétrograder de serverless à pro ou classique. Cette fonctionnalité n'affecte que Databricks SQL. Elle n'affecte pas le fonctionnement des clusters Databricks Runtime avec les notebooks et les tâches dans les environnements d'espace de travail Data Science & Engineering ou Databricks Machine Learning. Les clusters Databricks Runtime s'exécutent toujours dans le plan de données classique de votre compte AWS. Voir les quotas serverless. Si votre compte nécessite des conditions d'utilisation mises à jour, les administrateurs d'espace de travail sont invités à le faire dans l'interface utilisateur Databricks SQL. Si votre espace de travail dispose d'un profil d'instance AWS, vous devrez peut-être mettre à jour la relation de confiance pour prendre en charge le calcul serverless, en fonction de la manière et du moment où il a été créé.

Par défaut, lorsque vous créez un nouvel entrepôt DBSQL à l'aide de l'interface utilisateur, il s'agira d'un entrepôt SQL serverless. Cependant, lors de la création de la même chose à l'aide de l'API, vous devrez spécifier explicitement qu'il s'agit d'un entrepôt SQL pro.

Dolly 2.0 génère du contenu pour un tweet

Instruction

Response

Écris-moi un tweet sur le lancement de Dolly 2.0, notre nouveau LLM.

Dolly 2.0 est là 🤩

Nous avons amélioré notre LLM, le rendant plus efficace, plus puissant et plus accessible à un public plus large.

En savoir plus ⬇️

https://t.co/KxzT3HXCPb

Modèles de langage larges véritablement ouverts

Nous avons entendu à plusieurs reprises de nos clients qu'ils seraient mieux servis en possédant leurs modèles, leur permettant de créer des modèles de meilleure qualité pour leurs applications spécifiques à leur domaine sans confier leurs données sensibles à des tiers.

Nous pensons également que les questions importantes de biais, de responsabilité et de sécurité de l'IA devraient être abordées par une large communauté de parties prenantes diverses plutôt que par quelques grandes entreprises seulement. Les ensembles de données et les modèles open-source encouragent les commentaires, la recherche et l'innovation qui contribueront à garantir que tout le monde bénéficie des progrès de la technologie de l'intelligence artificielle.

En tant qu'artefact technique et de recherche, nous ne nous attendons pas à ce que Dolly soit à la pointe de la technologie en termes d'efficacité. Cependant, nous nous attendons à ce que Dolly et l'ensemble de données open-source servent de germe à une multitude de travaux de suivi, qui pourraient servir à amorcer des modèles de langage encore plus puissants.

Comment puis-je commencer dès aujourd'hui ?

Pour télécharger les poids du modèle Dolly 2.0, visitez simplement la page Databricks Hugging Face et visitez le dépôt Dolly sur databricks-labs pour télécharger l'ensemble de données databricks-dolly-15k. Et rejoignez notre webinaire pour découvrir comment vous pouvez exploiter les LLM pour votre organisation.

Ressources

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.

Voir tous les blogs