2023年3月24日

Dolly：オープンなモデルで ChatGPT の魔法を民主化

によって Mike Conover, Matt Hayes, Ankit Mathur, Xiangrui Meng, 謝建偉, Jun Wan, Ali Ghodsi（アリ・ゴディシ）, Patrick Wendell（パトリック・ウェンデル）、 Matei Zaharia による投稿

概要

Databricks では、従来のオープンソースの大規模言語モデル（LLM）を利用して ChatGPT のような命令追従能力を実現できることを確認しました。高品質な学習データを使用して 1 台のマシンで 30 分ほどトレーニングするだけです。また、命令追従能力の実現には、必ずしも最新のモデルや大規模なモデルは必要ないようです。GPT-3 のパラメータ数が 1750 億であるのに対し、私たちのモデルでは 60 億です。私たちはモデル Dolly のコードをオープンソース化しています。Dolly を Databricks 上でどのように再作成できるか、今回のブログではこのことについて詳しく解説します。

Dolly のようなモデルは LLM の民主化を促進します。LLM が、ごく少数の企業が購入できるものから、あらゆる企業が所有・カスタマイズして自社製品の改善に役立てられるものになります。

背景

ChatGPT は、2022 年 11 月にリリースされ、世界を席巻した独自の命令追従型モデルです。このモデルは、ウェブ上の何兆もの単語を学習させたもので、開発には大量の GPU が必要でした。これをきっかけに、Google をはじめとする各社が独自の命令追従型モデルをリリースするようになりました。2023 年 2 月、Meta は、それぞれ 8 万 GPU 時間以上かけてトレーニングした、「LLaMA」と呼ばれる高品質な（しかし、命令追従型ではない）言語モデルセットの重みを学術研究者に公開しました。そして 3 月、スタンフォードは「Alpaca」モデルを開発しました。これは LLaMA をベースにしたものですが、5 万件の人間のような質問と回答の小さなデータセットでチューニングされており、驚くことに ChatGPT のようなインタラクティブ性を発揮することができました。

Dolly のご紹介

本日は、ChatGPT のような命令追従機能を持ち、構築が安価な LLM、Dolly をご紹介します。Alpaca チームの研究は、最先端のモデルが高品質な命令追従動作をすることを示しましたが、私たちは、はるかに初期のアーキテクチャを持つ数年前のオープンソースモデルでさえ、命令トレーニングデータの小さなコーパスで微調整すると、驚くべき動作を示すことを発見しました。 Dolly は、EleutherAI の既存のオープンソース 60 億パラメータモデルを、Alpaca のデータを用いて、元のモデルにはないブレインストーミングやテキスト生成などの指示に従う機能を引き出すために、ほんの少し修正することで動作します。

Dolly の基礎となるモデルは、GPT-3 の1750 億個のパラメータに対して60 億個しかなく、しかも 2 年前のものであるため、これほどうまく機能するのは特に驚くべきことです。このことは、ChatGPT のような最先端のモデルの質的向上の多くが、より大きく、よりよくチューニングされた基本モデルではなく、指導に従ったトレーニングデータの集中コーパスのおかげである可能性を示唆しています。このモデルは、LLaMA にインスパイアされた Alpaca のオープンソースクローンであることから、最初のクローン哺乳類である「Dolly the sheep」（羊のドリー）にちなんで「Dolly」と呼んでいます。企業向け AI の民主化の初期段階であり、まだ多くの課題が残っていますが、Dolly の基盤技術は、独自の命令追従型モデルを安価に構築したい企業にとって、エキサイティングな新しい機会であると信じています。

ChatGPT のベースとなっている InstructGPT 論文に記載されている命令追従機能について Dolly を評価したところ、テキスト生成、ブレインストーミング、オープン Q&A など、多くの質的機能を発揮していることがわかりました。これらのサンプルで特に注目すべきは、生成されたテキストの品質ではなく、数年前のオープンソースモデルを小規模で高品質なデータセットでファインチューニングした結果、命令追従能力が大幅に向上したことです。

テキスト生成

※表中のテキストは機械翻訳による抄訳です。原文はオリジナルのブログをご覧ください。

オリジナルモデル	Dolly
エドガー・アラン・ポーにラブレターを書いて。
オリジナルモデル： HISTORY：エドガー・アラン・ポーは 19 世紀に有名になりました。彼はしばしば偉大なロマン派の詩人と比較され、近代短編小説の父とされ、ポーはアメリカの探偵小説の創始者と考えられています。彼は 130 年前に亡くなっています。 PATRICK CAMPOS：既に亡くなっている人にラブレターを書こうなんて思わないほうがいい。 PATRICK CAMPOS：ポーは「ワタリガラス」の作者以上の存在でした。彼は雰囲気の達人だったのです。 BUDDY FRITZLER：エドガー・アラン・ポーは 1831 年から 1849 年に亡くなるまでボルチモアに住んでいました。彼は短編小説で最もよく知られていますが、文学の発展に最も貢献したのは、探偵小説、推理小説、短編小説の概念です。 BUDDY FRITZLER：ポーの最も有名な物語「The Gold-Bug」は1843年に書かれました。埋蔵金を探すトレジャーハンターの話です。この短編で、彼はそれ以降に書かれた全てのミステリーの青写真を提供したのです。 BUDDY FRITZLER：手がかりを探すという中心的な考え方は、とても魅力的です。そのため、この作品では...	Dolly：親愛なるエドガー・アラン・ポーへ、私は古い家の薄暗い階段の吹き抜けで初めてあなたに会いましたが、あなたを見た瞬間、二度と会いたくないと思ったのを覚えています。あなたはとても遠くにいて、過去の影に満ちているように見えたので、私は永遠に離れていたいと思いました。しかし、私はあなたに夢中にならずにはいられませんでしたし、あなたへの想いは年々大きくなるばかりでした。今でも、あなたとは決して説明できない深い絆を感じています。あなたが今、歩んでいる人生に幸せを見出すことができるよう、願っています。あなたはきっと素晴らしいことを成し遂げられると信じています。敬具、 [あなたの名前】
Databricks の大型言語モデル「Dolly」を発表するツイートを書いてください。
オリジナルモデル：ツイートでは、課題の概要、分析方法、Dolly のパフォーマンスについて簡単に説明してください。ツイート後、Databricks の Twitter アカウントにリツイートさせていただきます。 Dollyやデータブリックに関する言及を削除して、次の1週間のソーシャルメディアページをクリーンアップしてください。データ準備最初のステップは、各文書に対して単語ベクトル埋め込みを生成することです。このベクトル表現は、2つの異なる方法で得ることができます。トークン化されたドキュメントセット（この場合、ダウンロードフォルダ内の全てのドキュメント）を使用する。 Google Search API から word2vec モデルを読み込む（この場合、vector2vec.c）。今回のケースでは、より簡単な 1 番目の方法を使いたいが、2 番目の方法の方がより堅牢かもしれません。上記の word2vec モデルを使用して、ファイル内で見つかった新しい単語について語彙ファイルを作成することにします。このプロセスにより、新しい単語を識別し、文脈上関連する用語を見つけるための迅速な方法が得られます。まず、word2vec.c を /tmp/word2vec というローカルディレクトリにコピーすることから始めましょう。 #/tmp/word2vec/word2vec.c FILE_NAME /tmp/word	Dolly： Databricks は、大容量と効率化を実現した自然言語処理用の新しい言語モデル「Dolly」を発表しました！ #データサイエンス #自然言語処理 [Dollyモデルリリースへのリンク]
ニコンD-750を売ります。広告用の短い文章を書いてください。
オリジナルモデル：場所を掲載するのはどうかと思いますが、ホームページ上なら何でも大丈夫です。まだ 1 週間しか経っていません。充電ケーブルやウィンドウケースもそのままで、ミントコンディションです。サンフランシスコの店舗での店頭受け取りで $1,800 で購入しました。プラス税金と未公開のコストコ価格です。どなたか、これは詐欺であり、本当のオファーではないことを教えてください。カメラが誰かの家にあるので他の誰かが受け取れるというメールを受け取ったばかりで、メッセージを送りたかったのですが,...	Dolly：写真や映像の仕事で信頼できるカメラをお探しですか？Nikon D-750 をチェックしてみてください！この洗練された軽量カメラは、24.2MP センサーと 1080/60p ビデオ録画を搭載しており、人生の瞬間を捉えるのに最適な選択肢です。人間工学に基づいたグリップと 9 点オートフォーカスシステムにより、作業がしやすく、手間をかけずに撮影することができます。Wi-Fi を使えば、専用の外部ストレージを買わなくても、パソコンやスマートフォンに簡単に写真をアップロードできます。今すぐ Nikon D-750 を購入して、写真やビデオ撮影に最適な理由を体験してください！

オープン Q&A

※表中のテキストは機械翻訳による抄訳です。原文はオリジナルのブログをご覧ください。

オリジナルモデル	Dolly
核分裂と核融合の違いについて説明してください。
オリジナルモデル：まず印象的なのは、原子と太陽の外観と機能が似ていることです。太陽の中心体はエネルギー源であり、太陽の構造全体は、私たちにとって重要な水素ガスが 100 万トンも集まってできています。太陽の中で全ての水素が融合してできるもの、それが「核融合」なのです。原子の中心にある原子核は陽子でできていて、その周りを電子が回っています。中心には、核と呼ばれるたくさんの陽子（したがってたくさんの正の電荷）を持つ小さな球状の塊があります。電子はそれほど小さくはありませんが、電荷はマイナスです。プラスの原子核とマイナスの電子があれば、（電荷のバランスにより）安定するからです。陽子はプラスに帯電しているので、陽子自身はどこにも行けないけれども、電子とは反発し合います。中性子の核は電荷を持たないが、陽子によってそこに保持されている。陽子も中性子と反発します。この単純な事実が、私たちの太陽の基本形であり、地球上の全ての元素を構成しているのです。水素は、最も豊富な元素で...	Dolly：核分裂と核融合の違いは、原子核のエネルギーを放出する方法です。核分裂では、1 つの原子核が2つの小さな原子核に分裂します。この過程で、熱という大きなエネルギーが放出されることでエネルギーを生み出します。一方、核融合は、2 つの原子核が集まって 1 つの原子核を形成します。このプロセスでは、核分裂に比べてはるかに大きなエネルギーが作られ、光と熱の放出によってエネルギーが放出されます。核融合は、より効率的なエネルギー創出の方法となる可能性を持っています。しかし、それははるかに ...

オリジナルモデル

Dolly

核分裂と核融合の違いについて説明してください。

オリジナルモデル：

まず印象的なのは、原子と太陽の外観と機能が似ていることです。太陽の中心体はエネルギー源であり、太陽の構造全体は、私たちにとって重要な水素ガスが 100 万トンも集まってできています。太陽の中で全ての水素が融合してできるもの、それが「核融合」なのです。

原子の中心にある原子核は陽子でできていて、その周りを電子が回っています。中心には、核と呼ばれるたくさんの陽子（したがってたくさんの正の電荷）を持つ小さな球状の塊があります。電子はそれほど小さくはありませんが、電荷はマイナスです。プラスの原子核とマイナスの電子があれば、（電荷のバランスにより）安定するからです。陽子はプラスに帯電しているので、陽子自身はどこにも行けないけれども、電子とは反発し合います。中性子の核は電荷を持たないが、陽子によってそこに保持されている。陽子も中性子と反発します。

この単純な事実が、私たちの太陽の基本形であり、地球上の全ての元素を構成しているのです。水素は、最も豊富な元素で...

Dolly：

核分裂と核融合の違いは、原子核のエネルギーを放出する方法です。核分裂では、1 つの原子核が2つの小さな原子核に分裂します。この過程で、熱という大きなエネルギーが放出されることでエネルギーを生み出します。一方、核融合は、2 つの原子核が集まって 1 つの原子核を形成します。このプロセスでは、核分裂に比べてはるかに大きなエネルギーが作られ、光と熱の放出によってエネルギーが放出されます。核融合は、より効率的なエネルギー創出の方法となる可能性を持っています。しかし、それははるかに ...

ブレインストーミング

※表中のテキストは機械翻訳による抄訳です。原文はオリジナルのブログをご覧ください。

オリジナルモデル	Dolly
次に読むべきSFの本を5冊リストアップしてください。
オリジナルモデル：早い話、考えた自分も恥ずかしいと思うべきですが、私は先延ばしにする傾向がひどく、どうしても読まなければならない時にしか読まないのです。その結果、今年はどのジャンルでも何も読んでいません。私は、記事のアイデアが決まったらすぐに、アイデアとアウトラインに任せて、書き始めないようにします。真っ白なページと空っぽの心には、何か特別なものがあります。とはいえ、私はそれを変えなければならないし、上記の質問を読んで、私がどれほど...	Dolly: アーサー・C・クラーク著「2001年宇宙の旅」ダグラス・アダムス著「銀河ヒッチハイク・ガイド」（原題：The Hitchhiker's Guide to the Galaxy） J.R.R.トールキン著「指輪物語」（原題：The Lord of the Rings）ダグラス・アダムス著「銀河ヒッチハイク・ガイド」（原題：The Hitchhiker's Guide to the Galaxy）ジョージ・オーウェル著「1984年」

オリジナルモデル

Dolly

次に読むべきSFの本を5冊リストアップしてください。

オリジナルモデル：

早い話、考えた自分も恥ずかしいと思うべきですが、私は先延ばしにする傾向がひどく、どうしても読まなければならない時にしか読まないのです。

その結果、今年はどのジャンルでも何も読んでいません。

私は、記事のアイデアが決まったらすぐに、アイデアとアウトラインに任せて、書き始めないようにします。真っ白なページと空っぽの心には、何か特別なものがあります。

とはいえ、私はそれを変えなければならないし、上記の質問を読んで、私がどれほど...

Dolly:

アーサー・C・クラーク著「2001年宇宙の旅」
ダグラス・アダムス著「銀河ヒッチハイク・ガイド」（原題：The Hitchhiker's Guide to the Galaxy）
J.R.R.トールキン著「指輪物語」（原題：The Lord of the Rings）
ダグラス・アダムス著「銀河ヒッチハイク・ガイド」（原題：The Hitchhiker's Guide to the Galaxy）
ジョージ・オーウェル著「1984年」

なぜオープンモデルなのか？

企業が、API の背後にある独自のモデルを提供する集中型 LLM プロバイダにデータを送るのではなく、独自のモデルを構築することを好む理由はたくさんあります。多くの企業にとって、AI から恩恵を受ける可能性が最も高い問題やデータセットは、最も秘密性の高い独自の知的財産であり、それを第三者に渡すことは好ましくないかもしれません。さらに、モデルの品質、コスト、望ましい動作など、組織によってトレードオフが異なる場合もあります。私たちは、ほとんどの ML ユーザーがモデルを直接所有することが、長期的に最も良い結果をもたらすと信じています。

Databricks で Dolly を自作するために使用できる簡単な Databricksノートブックをオープンソース化しています。モデルをダウンロードして実験するには、Databricks Hugging Face Page をご覧ください！.

今後の展開

Dolly のリリースは、あらゆる組織が大規模な言語モデルの力を活用できるようにすることに焦点を当てた、Datbricks の一連の発表の第一弾です。私たちは、あらゆる組織と個人の生産性を向上させる人工知能の驚くべきパワーを信じており、このジャーニーに参加することを歓迎します。この分野での今後の展開にご期待ください！

また、2023 年のデータ+AI サミットでは、ハンズオントレーニングや LLM ロードマップの深堀りなど、Dolly についてさらに多くのことを共有できることを楽しみにしています。ぜひ、ご登録のうえ、来場またはバーチャルでご参加ください。

謝辞

Dolly の誕生は、多くの素晴らしい組織の努力と洞察によるものです。EleutherAI が GPT-J をオープンソース化し、トレーニングしてくれなければ、この取り組みは実現できなかったでしょう。私たちは、Stanford Center for Research on Foundation Models、特に Alpaca のチームからの素晴らしいアイデアとデータに刺激を受けています。小さなデータセットが持つ桁外れのパワーの核となるアイデアは、Self-Instruct の原著論文のおかげです。また、数え切れないほどのモデルやライブラリをホストし、オープンソース化し、メンテナンスしている Hugging Face にも感謝しています。最先端技術への彼らの貢献度は計り知れません。

免責事項：生成 AI は新しい技術であり、LLM における事実の正確さ、偏見、攻撃的な反応、一般的な毒性、幻覚に対処する方法に関する研究の初期段階にあります。Dolly は、他の言語モデルと同様に、このような動作を示すことがあるため、本技術を利用したアプリケーションを設計する際には、適切な判断を行うようお願いいたします。

Dolly：オープンなモデルで ChatGPT の魔法を民主化

テキスト生成

オープン Q&A

ブレインストーミング

最新の投稿を受信トレイで受け取る

Sign up