Original : Guest Post: Using Lamini to train your own LLM on your Databricks data
翻訳:Junichi Maruyama
これは私たちのスタートアップパートナーである Lamini からのゲスト投稿です。
上の写真のLLMは、Laminiのドキュメントで訓練されたものです。遊んでみてください。 Live now!
S&P500の20%以上が今年(2023年)の第1四半期に決算説明会でAIを話題にしたのですから。LLMはあなたの製品に魔法をかけ、顧客を喜ばせ、トップラインを増加させることができます。顧客は、パーソナライズされた情報を含むあなたのすべてのドキュメントにアクセスし、数秒で自分の質問に答えることができます。また、副操縦士がいれば、あらゆる新機能の構築が10倍速くなり、エンジニアリングコストや運用コストを削減することができます。
しかし、GPT-4のような公開LLMは、ほとんど他人のデータで訓練されています。しかし、GPT-4のような公開LLMは、ほとんど他人のデータで訓練されたもので、確かに優れていますが、あなたのデータやユースケースに合わせたパーソナライズができません。もし、GPT-4があなたのビジネスに特化してチューニングされていたら、どんなに強力なものになるか想像してみてください!
さらに悪いことに、最も価値のあるデータを、独占的に渡すわけにはいきません。データ漏えいや顧客との約束に不安を感じている。IPやソースコードを第三者に渡してしまい、せっかく築いたデータ堀を放棄してしまうことに不安を感じている。AIサービスの信頼性やメンテナンスに不安があり、AIサービスは適応が早く、新しいバージョンで重要なユースケースが壊れてしまう。
Github がGithub Copilot で行ったように、あるいはOpenAIがChatGPTで行ったように、何十人ものトップAI研究者を雇ってプライベートLLMを構築してもらうという選択肢もあります。いずれのソリューションも、時間とコストがかかり、ROIも非常に低くなります。だから、あなたは行き詰まりを感じているのです。
私たちは、開発者が自分のデータで訓練した独自のLLMを作成できるようにする新製品を発表できることをうれしく思っています。AI研究者のチームも、VPCからデータを持ち出すことも、専門的なモデルの専門知識も必要ありません。
お客様からは、LaminiなしではLLMの使用と精度をここまで高めることはできなかったとお言葉をいただいています。また、ChatGPTと検索を比較したブラインドテストでは、LaminiでトレーニングしたLLMが最も優れており、彼らのユースケースに最も近いと言われています。
その前に:なぜLLMを自分でトレーニングするのか?
ChatGPTは多くの人を驚かせました。しかし、何十年もこの分野に携わってきたAI研究者の観点からすると、有望なのは常にお客様のデータで訓練されたモデルです。ChatGPTのようなものですが、あなたの特定のニーズとコンテンツに合わせたものです。LLMのトレーニングが短期的にも長期的にも理にかなっているのには、いくつかの理由があります。
LLMを自分でトレーニングする仕組み
LLMを自分でトレーニングするというアイデアは、困難なものに思えるかもしれません。LLMをベースモデル以上に改善するためにデータを適切な形式で取得し、それを自分のインフラやGPUで確実にホストするためには、多くのコードと専門知識が必要です。Laminiライブラリは、少量のコードを書いてDatabricksの既存データにアクセスするだけで、そのプロセスを簡素化します。
では、実際にChatGPTを凌駕するプライベートLLMの例を見てみましょう。 もしくは just start playing with it now.
ケーススタディ: 社内のエンジニアリング文書でLLMを養成する
あなたは、膨大な量の社内エンジニアリング・ドキュメントを持っています。ChatGPTのように、コードベースの内部Wikiを持ち、特定のアーキテクチャを学ぶ必要のない領域について質問したり、あなたの仕事に影響を与える他のチームからエラーのデバッグを手伝ってもらったりすることができるようにしたいのでしょう。しかし、ChatGPTはあなたのコードベース全体を把握しているわけではなく、コードベース全体で確実に正確な接続を行うことができず、実際には真実ではない新しい説得力のある知識を作り上げ、関連するトピックに会話を戻すことができません。
例えば、Laminiのエンジニアリング・ドキュメントを見ながら雑談をするような場合です。
ここでは、LLMにすべてのデータを渡した場合と、プロンプトエンジニアリングChatGPTで検索した場合との比較を示します:
User's question | Private LLM Trained with Lamini and Databricks Data |
ChatGPT + Retrieval |
---|---|---|
Laminiに送信できるデータの種類(テキスト、画像、音声など)に制限はありますか? | はい、Laminiが扱うことができるデータの種類には制限があります。ドキュメントには、データ形式の最適化、プライバシーとセキュリティの確保に関するガイドラインが記載されています。 | Lamini AIは、テキストと画像や音声を組み合わせるなど、マルチモーダルな入力に対応しています。 |
Laminiはリアルタイム推論やストリーミング推論に対応していますか? | はい、Laminiはリアルタイムまたはストリーミング推論をサポートしています。これは、モデルをリアルタイムで更新し、リアルタイムで結果を生成できることを意味し、チャットボットやバーチャルアシスタントなどのアプリケーションに適しています。 | いいえ、Laminiは現在、リアルタイムまたはストリーミング推論をサポートしていません。 |
なぜイチゴはピンク色なのか? | Laminiに関連した議論を続けましょう。 | わかりません |
ChatGPTの検索では、情報を合成するのに十分な文脈がないため、上表の最初の例のように、Laminiが「テキストと画像や音声の組み合わせなど、マルチモーダルな入力をサポートする」と書いてあるが、そうではないと、頻繁に幻覚を見ている。
また、上表の2番目の例のように、本当は「はい」なのに「いいえ」と答えてしまうなど、検索に失敗すると、判断するためにデータの1%未満しか読んでいないため、存在する情報を見逃してしまいます。このような場合、プロンプトエンジニアリングでは不十分なことが多いのです。
一方、LLMはLaminiのドキュメントを100%熟知しています。LLMは、ラミニのドキュメントを100%熟知し、異なるセクションのドキュメントから情報を集約し、訓練されたように、会話を関連性のあるものに戻すことができます(「わからない」ではなく、「ラミニに関連した議論を続けよう」)。
今すぐこのLLMライブで遊ぼう!Googleアカウントを使ってLaminiにサインインし、質問を始めるだけです。
Databricksのデータで自分だけのLLMを育成する3つのステップ 1️⃣2️⃣3️⃣
ここでは、あなた自身の文書(または他のデータ)に対して、同じLLMを、世の中のどこよりも速く、より良く得るために必要なステップを紹介します:
Step 1: Databricksの環境にLaminiをセットアップします。Databricks VPCにVMを作成し、その中にLaminiのDockerをインストールします。
Step 2: Lamini libraryでコードを書いて、データレイクハウスをベースLLMに接続することで、重要なデータを指し示すことができます。データはあなたのVPCに残ります。
Step 3: Lamini libraryを使えば、数行のコードで自分だけのLLMを育成することができます。Laminiは、ファインチューニング、最適化、データ生成、自動評価など、AI研究者チームが行うようなことを行います。このLLMは、あなたのVPCで提供されます。
Lamini は、お客様自身のデータで学習させた独自のLLMを作成することを可能にします。AI研究者のチームも、VPCからデータを持ち出すことも、専門的なモデルの専門知識も必要ありません。
この記事の内容は、Laminiの共同創業者兼CEOであるSharon Zhouがセッションを開催する「Data + AI Summit」ですべて学ぶことができます。Laminiは、Databricksのテクノロジーパートナーです。
Join other top tech companies building their custom LLMs on Lamini and sign up for early access today!