メインコンテンツへジャンプ
<
ページ 3

米空軍ハッカソン:大規模言語モデルが米空軍の飛行試験にどのような革命をもたらすか

[配布に関する声明 A. 公開を承認;配布は無制限 412TW-PA-24004] 本書は、米国空軍、国防総省、または米国政府の公式な方針または立場を反映するものではありません。 米空軍(USAF)ハッカソンとは? 空軍テストセンター(AFTC)データハッカソンは、AFTCのテスト専門家が1週間にわたって集まり、新しい技術を駆使して空軍の新たな問題に取り組むコンソーシアムです。 今回の第5回ハッカソンでは、大規模言語モデル(LLM)に焦点を当て、AFTCの3つの拠点に44名の参加者が集まり、また遠隔地からの参加者もありました。 OpenAIのChatGPTのようなLLMは、急速に技術分野で注目を集めるようになり、コードの初期化や文章コンテンツの下書きにデジタルアシスタントを利用するというアイデアが主流になりつつあります。 このような利点があるにもかかわらず、空軍では、機密情報を領域外に暴露する可能性があるため、商用モデルの短期的な使用には制約があります。 機能するLLMを空軍の境界内に配備したいという意欲はありま

Databricksを活用したOLMoが登場

私はDatabricksにおけるニューラルネットワークのチーフサイエンティストとして、誰もが自分のデータを使ってAIモデルを構築し、微調整(ファインチューニング)できるようにするという目標に向かって研究チームを率いています。 2020年、私は機械学習の研究者や有識者からなる小さなグループの一員として、MosaicMLを設立しました。 私たちは常に、知識を共有し、コミュニティにツールを提供することで、開かれた科学的探究を支援することに尽力してきました。 同じアカデミックなルーツを持つDatabricksに加わって以来、私たちはそのコミットメントをさらに深めています。 その精神に基づき、私たちは非営利団体 Allen Institute for AI(AI2 )の科学者たちと 、 技術的な知識の共有から 今日の大きな発表 に至るまで、あらゆる面で協力してきました: OLMoです。私の意見では、AI2は世界最高のNLP研究所のひとつであり、非営利団体ならではの自由奔放な創造性、誠実さへのコミットメント、リソースを駆使し

NVIDIA H100 Tensor Core GPU上でのクオンタイズ(量子化)LLMの処理

量子化(クオンタイズ)とは、機械学習モデルをより小さく、より高速にするためのテクニックです。Llama2-70B-Chatを量子化し、1秒間に2.2倍のトークンを生成する同等の品質のモデルを作成しました。 言語モデルが大きくなればなるほど、クエリにかかる時間は遅くなり(コストも高くなり)、GPUはより多くのパラメータをメモリからロードし、より多くの計算を実行しなければなりません。私たちのチームは、 LLMのパフォーマンスを 最適化するために数多くのテクニックを開発し、採用してきました。このブログポストでは、メモリフットプリントを減らし、より高速に実行するためにモデルの数値精度を下げる一般的なテクニックである量子化について説明します。Llama2-70B-ChatのようなLLMに量子化を適用すると、完全な16ビット精度で実行した場合と比較して、1秒あたり2.2倍のトークンを生成するモデルになります。重要なことは、モデルの品質が維持されていることを保証するために、量子化されたモデルを Gauntletモデル評価スイー

Intel Gaudi 2 AIアクセラレーターによるLLMトレーニングと推論

Databricksでは、お客様がデータのプライバシーやコントロールを犠牲にすることなく、ご自身のデータでジェネレーティブAIアプリケーションを構築し、展開できるようにしたいと考えています。 カスタムAIモデルのトレーニングをご希望のお客様には、簡単かつ効率的に、低コストでトレーニングできるようお手伝いします。 この課題に対処するための1つの手段は、MLハードウェアの最適化です。この目的のために、私たちはLLMスタックが様々なMLハードウェアプラットフォーム(例えば、NVIDIA [1][2]、AMD [3][4])をシームレスにサポートできるよう、たゆまぬ努力を続けてきました。 本日は、AIトレーニングおよび推論市場におけるもう1つの主役、Intel® Gaudi® AIアクセラレーター・ファミリーについてご紹介します! これらのアクセラレータは、AWS(第一世代のGaudi)、Intel Developer Cloud(Gaudi 2)、およびオンプレミス実装の場合はSupermicroとWiWynn(Gau

NVIDIA TensorRT-LLMとDatabricks推論スタックを統合する

この半年間、私たちはNVIDIAと協力して、彼らの新しいTensorRT-LLMライブラリを最大限に活用してきました。 TensorRT-LLMは、ウェブサーバと統合するための使いやすいPythonインタフェースを提供し、LLMによる高速で効率的な推論パフォーマンスを実現します。 この投稿では、NVIDIAとの協力が特に重要であった主要分野をいくつか紹介します。

AMD MI250 GPUによるLLMの大規模トレーニング

October 30, 2023 アビ・ヴェニガラ による投稿 in モザイクAIリサーチ
序章 4カ月前、AMDが ジェネレーティブAIのための有能なプラットフォームとして 登場し、AMD Instinct GPUを使用してLLMを簡単かつ効率的に訓練する方法を実証したことを紹介した。 今日、我々はヒットが続いていることに興奮している! AMD GPUのコミュニティでの採用は拡大している: Laminiの ようなAIスタートアップは、AMD MI210およびMI250システムを使用して、カスタムLLMの微調整とデプロイを行っており、 Morehは 1200個のAMD MI250 GPUを使用して、同社のプラットフォーム上で221Bのパラメータ言語モデルをトレーニングすることができた。 さらに、 AI2のOLMoの ようなオープンソースのLLMも、AMD GPUの大規模クラスタ上でトレーニングされている。 一方、AMDでは、 ROCmソフトウェア・プラットフォームが バージョン5.4から5.7にアップグレードされ、FlashAttention用のROCmカーネルが...

LLM推論パフォーマンスエンジニアリング:ベストプラクティス

このブログポストでは、MosaicMLエンジニアリングチームが、人気のあるオープンソースの大規模言語モデル(LLM)を実運用に活用するためのベストプラクティスを紹介します。 また、これらのモデルを中心に構築された推論サービスを展開するためのガイドラインを提供し、ユーザーがモデルや展開ハードウェアを選択する際の助けとする。 これらのガイドラインは、FasterTransformers、vLLM、NVIDIAが間もなくリリースする TensorRT-LLMなどの 経験から導き出されたものです。 LLMテキスト生成を理解する 大規模言語モデル(LLM)は2段階のプロセスでテキストを生成する。"プリフィル" では入力プロンプトのトークンが並列処理され、"デコーディング" ではテキストが自己回帰的に一度に1「トークン」ずつ生成される。 生成された各トークンは入力に追加され、次のトークンを生成するためにモデルにフィードバックされる。 LLMが特別な停止トークンを出力するか、ユーザー定義の条件が満たされたとき(たとえば、トーク

コンテキスト内学習のための超高速LLM評価

MosaicMLを使えば、LLMをコンテキスト内学習タスク(LAMBADA、HellaSwag、PIQAなど)で、他の評価ハーネスよりも何百倍も速く評価することができます。 LAMBADAは、70Bのパラメータモデルに対して、64台のA100 GPUでわずか100秒で評価でき、256台のNVIDIA A100 GPUを使用した場合、1兆2,000億のパラメータモデルの評価に12分もかかりません。 大規模言語モデル(LLM)をトレーニングする際、その性能を評価する一般的な方法は、コンテキスト内学習(ICL)タスクを使用することです。 これらのタスクでは、モデルの重みを更新することなく、LLMが文を完成させたり、自然言語で出された質問に答えたりする必要があります。 モデルは、タスクが何であるかを推測し、タスクがどのように機能するかを理解し、新しい例にどのように適用するかを決定しなければなりません。これらはすべて、プロンプトに含まれる 文脈上の 手がかりを使用することによって行われます。 例えば、あるモデルが次のように