Databricks ❤️ Hugging Face

大規模言語モデルの学習とチューニングを最大40%高速化

公開日: 2023年4月26日

によって Ali Ghodsi（アリ・ゴディシ）、Patrick Wendell（パトリック・ウェンデル）、マディ・ドーソン、Lu Wang、Xiangrui Meng 、ニコラス・ペラエスによる投稿

Original Blog : Databricks ❤️ Hugging Face

ジェネレーティブAIが世界を席巻しています。データ＆AIカンパニーである私たちは、オープンソースの大規模言語モデル「Dolly」と、そのファインチューニングに使用した研究・商用利用のための社内クラウドソーシングデータセット「databricks-dolly-15k」をリリースし、この旅に参加しています。モデルもデータセットも、Hugging Faceで公開されています。そして今日、私たちはHugging Faceコードベースへの最初の公式コミットを発表し、ユーザーがApache Spark™データフレームからHugging Faceデータセットを簡単に作成できるようにすることに興奮しています。

Hugging Face がファーストクラスのSparkサポートを獲得

ここ数週間、我々はユーザーから、モデルのトレーニングやチューニングに利用できるHugging FaceデータセットにSparkデータフレームをより簡単にロードする方法を求める多くのリクエストを受け取っています。今日のリリース以前は、SparkデータフレームからHugging Faceデータセットにデータを取得するために、ユーザーはデータをParquetファイルに書き込んで、Hugging Faceデータセットをこれらのファイルにポイントして再読み込みする必要がありました。例えば、以下のような感じです：

これは面倒なだけでなく、データをディスクに書き込んでから再び読み込まなければならないことを意味します。その上、データはデータセットにロードし直すと再物質化されるため、より多くのリソースを消費し、したがって、より多くの時間とコストを消費することになります。この方法を使うと、比較的小さい（16GB）データセットが、SparkデータフレームからParquetへ、そしてHugging Faceデータセットに戻るのに約22分かかることがわかりました。

最新のHugging Faceリリースでは、Datasetsの新しい "from_spark "関数を呼び出すだけで、ユーザーが同じタスクを達成するのをより簡単にできるようにしました：

これにより、ユーザーはSparkを使用して、モデルのトレーニングやファインチューニングのためにデータを効率的にロードして変換し、SparkデータフレームをHugging Faceデータセットに簡単にマッピングして、トレーニングパイプラインに超シンプルに統合することができます。これは、Sparkによるコスト削減とスピード、そしてHugging Faceデータセットによるメモリマッピングやスマートキャッシングのような最適化を組み合わせたものです。これらの改善により、例の16GBデータセットの処理時間が40％以上短縮され、22分からわずか12分となりました。

なぜ、このようなことが問題になるのでしょうか？

この新しいAIパラダイムへの移行に伴い、組織は、特定のドメイン内で最高のパフォーマンスを得たい場合、非常に貴重なデータを使用してAIモデルを補強する必要があります。そのためには、ほぼ間違いなくデータ変換という作業が必要になりますが、これを大規模なデータセットで効率的に行うことは、Sparkが設計したことです。SparkとHugging Faceを統合することで、Hugging Faceが提供するパイプライン統合を維持しながら、Sparkの費用対効果と性能を得ることができます。

オープンソースの継続的なサポート

このリリースは、オープンソースコミュニティにさらに貢献するための新たな手段であり、オープンソースのモデルやデータセットの事実上のリポジトリとなっているHugging Faceは、非常に優れていると私たちは考えています。これは、多くの貢献の第一弾に過ぎません。私たちはすでに、データセットの読み込みをさらに高速化するために、Sparkによるストリーミングサポートを追加する計画を持っています。

ユーザーがAIの世界に飛び込むための最高のプラットフォームになるために、私たちはモデルのトレーニング、チューニング、デプロイを成功させるための最高のツールを提供するために努力しています。Hugging Faceへの貢献を続けるだけでなく、他のオープンソースプロジェクトへの改善もリリースしはじめました。最近のMLflowのリリースでは、transformersライブラリのサポート、OpenAIの統合、Langchainのサポートが追加されました。また、Databricks SQLのAI Functionsも発表し、OpenAI（あるいは将来的には独自のデプロイメントモデル）をクエリに簡単に統合できるようにしました。さらに、Databricks上での分散PyTorchトレーニングを簡素化するために、Spark用のPyTorch distributorもリリースしました。

またData + AI Summitでは、LLMの世界を探求し独自の構築、トレーニング、デプロイを行う方法を紹介する予定です。こちらからご登録の上、バーチャルまたは直接ご参加ください！

生成AIとLLMの活用方法について詳しくは、オンデマンドウェビナーをご覧ください。

次は何ですか？

2025年6月2日/1分未満

Apache Iceberg™ v3 ── エコシステム統合への大躍進

2025年6月9日/1分未満

Hugging Face がファーストクラスのSparkサポートを獲得

ETL を実行する

なぜ、このようなことが問題になるのでしょうか？

オープンソースの継続的なサポート

Databricksの投稿を見逃さないようにしましょう

Sign up

次は何ですか？

Apache Iceberg™ v3 ── エコシステム統合への大躍進

PySpark Native Plottingのご紹介