メインコンテンツへジャンプ
<
ページ 4

LLM推論パフォーマンスエンジニアリング:ベストプラクティス

このブログポストでは、MosaicMLエンジニアリングチームが、人気のあるオープンソースの大規模言語モデル(LLM)を実運用に活用するためのベストプラクティスを紹介します。 また、これらのモデルを中心に構築された推論サービスを展開するためのガイドラインを提供し、ユーザーがモデルや展開ハードウェアを選択する際の助けとする。 これらのガイドラインは、FasterTransformers、vLLM、NVIDIAが間もなくリリースする TensorRT-LLMなどの 経験から導き出されたものです。 LLMテキスト生成を理解する 大規模言語モデル(LLM)は2段階のプロセスでテキストを生成する。"プリフィル" では入力プロンプトのトークンが並列処理され、"デコーディング" ではテキストが自己回帰的に一度に1「トークン」ずつ生成される。 生成された各トークンは入力に追加され、次のトークンを生成するためにモデルにフィードバックされる。 LLMが特別な停止トークンを出力するか、ユーザー定義の条件が満たされたとき(たとえば、トーク

コンテキスト内学習のための超高速LLM評価

MosaicMLを使えば、LLMをコンテキスト内学習タスク(LAMBADA、HellaSwag、PIQAなど)で、他の評価ハーネスよりも何百倍も速く評価することができます。 LAMBADAは、70Bのパラメータモデルに対して、64台のA100 GPUでわずか100秒で評価でき、256台のNVIDIA A100 GPUを使用した場合、1兆2,000億のパラメータモデルの評価に12分もかかりません。 大規模言語モデル(LLM)をトレーニングする際、その性能を評価する一般的な方法は、コンテキスト内学習(ICL)タスクを使用することです。 これらのタスクでは、モデルの重みを更新することなく、LLMが文を完成させたり、自然言語で出された質問に答えたりする必要があります。 モデルは、タスクが何であるかを推測し、タスクがどのように機能するかを理解し、新しい例にどのように適用するかを決定しなければなりません。これらはすべて、プロンプトに含まれる 文脈上の 手がかりを使用することによって行われます。 例えば、あるモデルが次のように