メインコンテンツへジャンプ
ページ 1
Platform blog

DatabricksデータインテリジェンスプラットフォームとHiddenLayerモデルスキャナによるサードパーティ製モデルの安全なデプロイ

イントロダクション 組織が機械学習、AI、および大規模言語モデル(LLM)を導入する能力は、「 モデル動物園 」の普及のおかげで近年加速しています。これは、画像認識、自然言語処理、社内チャットボット、アシスタントなどに関する最先端の能力を備えた事前トレーニング済みのモデル/LLM が含まれる Hugging Face や TensorFlow Hub などのパブリックリポジトリを指します。 サードパーティモデルのサイバーセキュリティリスク モデル動物園は便利ですが、悪意のある行為者が悪意のある利益のためにパブリックリポジトリのオープンな性質を悪用する可能性があります。 例えば、私たちのパートナーである HiddenLayer 社による最近の研究では、 公開されている機械学習モデルがランサムウェアによって武器化される可能 性や、攻撃者が HuggingFaceのサービス を乗っ取り、プラットフォームに提出されたモデルをハイジャックする可能性を特定しました。 これらのシナリオは、トロイの木馬によるモデルと、モデルのサ
Engineering blog

GGML GGUF ファイルフォーマットの脆弱性

GGUFファイルフォーマット は、GGMLライブラリのモデル重みの保存と読み込みに使用されるバイナリファイルフォーマットです。 ライブラリのドキュメントには、以下のような形式が記述されています: "GGUFは、GGMLによる推論のためのモデルや、GGMLに基づく実行形式を保存するためのファイルフォーマットです。 GGUFは、モデルの読み込みと保存を高速化し、読みやすくするために設計されたバイナリフォーマットです。 モデルは伝統的にPyTorchや他のフレームワークを使用して開発され、GGMLで使用するためにGGUFに変換されます。" GGUF フォーマットは、学習済みの機械学習モデルを配布するために最近普及しており、低レベルのコンテキストからモデルを利用する際に、Llama-2で最も一般的に使用されるフォーマットの1つとなっています。 llama.cpp、pythonの llm モジュール、Huggingfaceのようなggufファイルをロードするときの ctransformers ライブラリなど、このローダーに