Mise à jour du 12 avril 2023 : Nous avons publié Dolly 2.0, sous licence pour la recherche et l'utilisation commerciale. Consultez le nouveau billet de blog ici.
Résumé
Nous montrons que n'importe qui peut prendre un grand modèle de langage (LLM) open source et prêt à l'emploi, même daté, et lui conférer une capacité magique de suivi d'instructions, à la manière de ChatGPT, en l'entraînant pendant 30 minutes sur une seule machine à l'aide de données d'entraînement de haute qualité. Étonnamment, le suivi d'instructions ne semble pas nécessiter les modèles les plus récents ou les plus grands : notre modèle ne compte que 6 milliards de paramètres, contre 175 milliards pour GPT-3. Nous publions le code de notre modèle (Dolly) en open source et montrons comment il peut être recréé sur Databricks. Nous pensons que des modèles comme Dolly contribueront à démocratiser les LLM, les transformant d'une technologie que très peu d'entreprises peuvent s'offrir en une ressource que chaque entreprise peut posséder et personnaliser pour améliorer ses produits.
Arrière-plan
ChatGPT, un modèle propriétaire suivant des instructions, a été lancé en novembre 2022 et a conquis le monde. Le modèle a été entraîné sur des milliers de milliards de mots provenant du Web, nécessitant un nombre massif de GPU pour son développement. Cela a rapidement conduit Google et d'autres entreprises à lancer leurs propres modèles propriétaires suivant des instructions. En février 2023, Meta a publié les poids pour un ensemble de modèles de langage de haute qualité (mais ne suivant pas d'instructions) appelés LLaMA à des chercheurs universitaires, entraînés pendant plus de 80 000 heures-GPU chacun. Puis, en mars, Stanford a créé le modèle Alpaca, qui était basé sur LLaMA, mais affiné sur un petit dataset de 50 000 questions et réponses de type humain qui, de manière surprenante, lui a permis de présenter une interactivité similaire à celle de ChatGPT.
Présentation de Dolly
Aujourd'hui, nous présentons Dolly, un LLM économique qui démontre une étonnante capacité à suivre les instructions, comparable à celle de ChatGPT. Alors que les travaux de l'équipe Alpaca ont montré que les modèles de pointe pouvaient être amenés à adopter un comportement de suivi d'instructions de haute qualité, nous constatons que même des modèles open source datant de plusieurs années et dotés d'architectures beaucoup plus anciennes présentent des comportements frappants lorsqu'ils sont affinés sur un petit corpus de données d'entraînement aux instructions. Dolly fonctionne en prenant un modèle open source existant de 6 milliards de paramètres d'EleutherAI et en le modifiant très légèrement pour lui insuffler des capacités de suivi d'instructions, telles que le brainstorming et la génération de texte, qui ne sont pas présentes dans le modèle original, en utilisant les données d'Alpaca.
Le modèle sous-jacent à Dolly n'a que 6 milliards de paramètres, contre 175 milliards pour GPT-3, et il date d'il y a deux ans, ce qui rend ses excellentes performances particulièrement surprenantes. Cela suggère qu'une grande partie des gains qualitatifs des modèles de pointe comme ChatGPT pourrait être due à des corpus ciblés de données d'entraînement au suivi d'instructions, plutôt qu'à des modèles de base plus grands ou mieux réglés. Nous avons baptisé le modèle Dolly — en hommage à la brebis Dolly, le premier mammifère cloné — car il s'agit d'un clone open source d'un Alpaca, inspiré d'un LLaMA. Nous n'en sommes qu'aux prémices de la démocratisation de l'IA pour les entreprises et il reste encore beaucoup à faire, mais nous pensons que la technologie sous-jacente à Dolly représente une nouvelle opportunité passionnante pour les entreprises qui souhaitent créer à moindre coût leurs propres modèles de suivi d'instructions.
Nous avons évalué Dolly sur les capacités de suivi d'instructions décrites dans l'article InstructGPT sur lequel se base ChatGPT et nous avons constaté qu'il présente un grand nombre des mêmes capacités qualitatives, y compris la génération de texte, le brainstorming et les Q&A ouvertes. Ce qui est particulièrement remarquable dans ces exemples, ce n'est pas la qualité du texte généré, mais plutôt l'amélioration considérable de la capacité de suivi d'instructions qui résulte de l'affinement d'un modèle open source datant de plusieurs années sur un petit dataset de haute qualité.
| Modèle original | Dolly |
|---|---|
| Écrivez une lettre d'amour à Edgar Allan Poe. | |
Modèle original : HISTOIRE : Edgar Allan Poe est devenu célèbre au 19e siècle. Souvent comparé aux grands poètes romantiques, il est considéré comme le père de la nouvelle moderne, et Poe comme le fondateur du roman policier américain. Il est mort depuis 130 ans. PATRICK CAMPOS : Vous ne devriez jamais essayer d'écrire une lettre d'amour à une personne décédée. PATRICK CAMPOS : Poe était bien plus que l'auteur du Corbeau. C'était un maître de l'atmosphère. BUDDY FRITZLER : Edgar Allan Poe a vécu à Baltimore de 1831 jusqu'à sa mort en 1849. Il est surtout connu pour ses nouvelles, ses plus grandes contributions au développement de la littérature étant le concept du roman policier, du roman à suspense et de la nouvelle. BUDDY FRITZLER : L'histoire la plus c élèbre de Poe, "Le Scarabée d'or", a été écrite en 1843. C'est l'histoire d'un chasseur de trésors qui cherche un trésor enfoui. Dans cette nouvelle, il fournit le modèle de tous les romans policiers écrits depuis. BUDDY FRITZLER : L'idée centrale qu'il faut chercher des indices est très séduisante. Il a même été utilisé comme... | Dolly : Très cher Edgar Allan Poe, Je vous ai rencontré pour la première fois dans la cage d'escalier faiblement éclairée de la vieille maison, et je sais que dès l'instant où je vous ai vu, je n'ai plus jamais voulu vous revoir. Vous sembliez si distant et si rempli des ombres du passé que j'ai voulu m'éloigner pour toujours. Mais je n'ai pas pu m'empêcher d'être obsédé par vous, et mes sentiments pour vous n'ont fait que grandir au fil des ans. Même maintenant, je ressens un lien profond avec vous que je ne pourrai jamais expliquer. J'espère que vous trouverez le bonheur dans la vie que vous menez maintenant. Je suis sûr que vous ferez de grandes choses, et je vous en serai éternellement redevable. Sincèrement, [Votre nom] |
| Rédigez un tweet annonçant Dolly, un grand modèle de langage de Databricks. | |
Modèle original : Dans votre tweet, fournissez un bref résumé du défi, de la manière dont vous l'avez analysé et des performances de Dolly. Après votre tweet, je le retweeterai sur le compte Twitter de Databricks. Nettoyez votre page sur les réseaux sociaux pour la semaine prochaine en supprimant toute mention de Dolly ou Databricks. Préparation des données Notre première étape consiste à générer des plongements de mots vectoriels pour chaque document. Nous pouvons obtenir ces représentations vectorielles de deux manières différentes : Utilisation d'un ensemble de documents tokenisés (dans ce cas, tout le contenu de notre dossier de download) Charge un modèle word2vec depuis l'API Google Search (dans ce cas, vector2vec.c) Dans notre cas, nous voulons utiliser la première méthode, qui est plus facile, mais la seconde pourrait être plus robuste. Nous utiliserons le modèle word2vec ci-dessus pour créer un fichier de vocabulaire pour tous les nouveaux mots trouvés dans le fichier. Ce processus nous donne un moyen rapide d'identifier de nouveaux mots et de trouver des termes contextuellement liés. Nous pouvons commencer par copier word2vec.c dans un répertoire local appelé /tmp/word2vec. #/tmp/word2vec/word2vec.c FILE_NAME /tmp/word | Dolly : Databricks vient d'annoncer Dolly, un nouveau modèle de langage pour le traitement du langage naturel doté d'une grande capacité et d'une efficacité améliorée ! |
#DataScience #NaturalLanguageProcessing
[Link vers la publication du modèle Dolly]
Modèle original :
Je ne suis pas sûr que vous puissiez publier un emplacement - n'importe quoi sur le site web fera l'affaire.
Je ne l'ai que depuis une semaine. Il est en parfait état, avec le câble de chargement et l'étui à fenêtre intacts. Je l'ai acheté pour 1800 $ avec un retrait en magasin dans un magasin de San Francisco. Plus la taxe et le prix non divulgué de Costco.
S'il vous plaît, que quelqu'un me dise qu'il s'agit d'une arnaque et non d'une véritable offre.
Je viens de recevoir un e-mail disant que l'appareil photo est chez quelqu'un pour qu'une autre personne puisse le récupérer et me demandant si je voulais leur envoyer un message, eh bien non, je le vends car je ne ferais jamais...
Dolly :
Vous cherchez un appareil photo fiable pour vos travaux photo et vidéo ? Découvrez le Nikon D-750 ! Cet appareil photo élégant et léger est doté d'un capteur de 24,2 Mpx et d'un enregistrement vidéo 1080/60p, ce qui en fait un excellent choix pour immortaliser les moments de la vie. La poignée ergonomique et le système d'autofocus à neuf points facilitent son utilisation et la prise de vue sans tracas. Grâce au Wi-Fi, vous pouvez facilement uploader vos photos sur votre ordinateur ou votre smartphone sans avoir à acheter de stockage externe dédié. Achetez le Nikon D-750 maintenant pour découvrir pourquoi c'est le meilleur choix pour la photographie et la vidéographie !
| Modèle original | Dolly |
|---|---|
| Expliquez-moi la différence entre la fission et la fusion nucléaires. | |
Modèle original : La première chose qui frappe est la similitude d'apparence et de fonction entre l'atome et le soleil. Le corps central du soleil est la source d'énergie, et la structure entière du soleil est composée d'un million de tonnes d'hydrogène gazeux qui est si important pour nous. C'est en cela que tout l'hydrogène fusionne dans le soleil, et c'est pourquoi nous en sommes faits : la fusion. Le noyau de l'atome, au centre, est composé de protons, et les électrons orbitent autour de lui. Au centre, il y a une minuscule masse sphérique avec de nombreux protons (et donc une forte charge positive) appelée le noyau. Les électrons ne sont pas si petits, mais leur charge est négative, car un noyau positif et des électrons négatifs assurent la stabilité (en raison de l'équilibre des charges). Les protons ont une charge positive, donc même s'ils ne peuvent pas se déplacer, ils repoussent les électrons. Il y a un cœur de neutrons, qui n'ont aucune charge, mais qui sont maintenus par les protons. Les protons repoussent aussi les neutrons. Ce simple fait est à la base de notre soleil, et c'est ce qui constitue tous les éléments de la Terre. L'hydrogène est l'élément le plus abondant dans… | Dolly : La différence entre la fission et la fusion nucléaires est la méthode par laquelle l'énergie du noyau est libérée. Lors de la fission nucléaire, un seul noyau atomique se divise en deux noyaux plus petits. Ce processus est utilisé pour créer de l'énergie par la libération d'une grande quantité d'énergie sous forme de chaleur. D'autre part, la fusion implique la réunion de deux noyaux atomiques pour former un seul noyau. Ce processus est utilisé pour créer une quantité d'énergie beaucoup plus importante que la fission, et l'énergie est libérée par l'émission de lumière et de chaleur. La fusion a le potentiel d'être un moyen beaucoup plus efficace de créer de l'énergie. Cependant, c'est beaucoup plus... |
| Modèle original | Dolly |
|---|---|
| Donnez-moi une liste de 5 livres de science-fiction que je devrais lire. | |
Modèle original : Je sais qu'il est tôt, et je devrais avoir honte de moi rien que d'y penser, mais j'ai une terrible tendance à procrastiner et à ne lire que lorsque j'y suis absolument obligé. Par conséquent, je n'ai rien lu cette année, quel que soit le genre. Dès que j'ai une série d'idées pour un article, je laisse les idées et le plan s'assurer que je ne commence pas à écrire. Une page blanche et un esprit vide ont quelque chose de spécial. Cela dit, je dois changer ça, et la lecture de la question ci-dessus m'a fait réaliser à quel point je veux... | Dolly : 1. 2001 : L'Odyssée de l'espace par Arthur C. Clarke 2. Le Guide du voyageur galactique de Douglas Adams 3. Le Seigneur des Anneaux de J.R.R. Tolkien 4. Le Guide du voyageur galactique de Douglas Adams 5. 1984 de George Orwell. |
Pourquoi les modèles ouverts ?
De nombreuses raisons peuvent pousser une entreprise à préférer créer son propre modèle plutôt que d'envoyer des données à un fournisseur de LLM centralisé qui propose un modèle propriétaire via une API. Pour de nombreuses entreprises, les problèmes et les datasets les plus susceptibles de bénéficier de l'IA représentent leur propriété intellectuelle la plus sensible et exclusive, et la confier à un tiers peut être inacceptable. De plus, les organisations peuvent avoir des compromis différents en termes de qualité du modèle, de coût et de comportement souhaité. Nous pensons que la plupart des utilisateurs de ML ont tout intérêt, à long terme, à posséder directement leurs modèles.
Nous publions en open source un simple notebook Databricks que vous pouvez utiliser pour créer vous-même Dolly sur Databricks. Pour télécharger et expérimenter avec le modèle, rendez-vous sur la page Hugging Face de Databricks !
Et maintenant ?
La sortie de Dolly est la première d'une série d'annonces de Databricks visant à aider chaque organisation à exploiter la puissance des grands modèles linguistiques. Nous croyons au pouvoir incroyable de l'intelligence artificielle pour transformer la productivité de chaque organisation et de chaque individu, et nous vous invitons à nous rejoindre dans cette aventure. Restez à l'écoute pour en savoir plus dans ce domaine dans les semaines à venir !
Vous pouvez également découvrir comment votre entreprise peut tirer parti des LLM et comment Databricks a créé Dolly lors de notre webinar du 25 avril. Rejoignez-nous!
Nous sommes également ravis de vous en dire plus sur Dolly, notamment avec une formation pratique et une présentation détaillée de notre feuille de route LLM, lors du Data and AI Summit de cette année. Nous vous encourageons à vous inscrire pour nous rejoindre en personne ou virtuellement.
Remerciements
Ce travail doit beaucoup aux efforts et aux insights de nombreuses organisations incroyables. Cela aurait été impossible sans la mise en open source et l'entraînement de GPT-J par EleutherAI. Nous sommes inspirés par les idées et les données incroyables du Stanford Center for Research on Foundation Models et plus particulièrement de l'équipe derrière Alpaca. L'idée maîtresse derrière la puissance démesurée des petits datasets vient de l'article original sur le Self-Instruct. Nous remercions également Hugging Face pour l'hébergement, la mise en open source et la maintenance d'innombrables modèles et bibliothèques ; leur contribution à l'état de l'art ne peut être surestimée.
Avertissement : l'IA générative est une technologie émergente et nous n'en sommes qu'aux premiers stades de la recherche sur la manière de traiter l'exactitude des faits, les biais, les réponses offensantes, la toxicité générale et les hallucinations dans les LLM. Dolly, comme d'autres modèles linguistiques, peut parfois présenter ces comportements et nous invitons nos utilisateurs à faire preuve de discernement dans la conception des applications de cette technologie.
Notícias
December 23, 2024/8 min de leitura
Notícias
September 18, 2025/6 min de leitura


