沢山の調整済みLLMを一つのシステムで使えるようにするツール『S-LoRA』が開発されました。
LoRAアダプタを用いたLLMのサービングに特化したシステムです。
既存のシステムよりも4倍速く動き、はるかに多くのモデルを同時に使えることが検証されているとのことです(ただし特定の比較条件下での実験であることに注意)。
UCバークレーやスタンフォード大学などの研究者らによる発表です。
@ Ying Sheng et al., “S-LoRA: Serving Thousands of Concurrent LoRA Adapters”
特定のタスクやドメインに合わせて微調整された派生LLMが多数生み出されています。
この状況には、トレーニングコストと提供コストが増える問題があります。
そこで研究者らは、数千のLoRAアダプタを使用するためのシステム『S-LoRA』を設計しました。
■『S-LoRA』の特徴
① 特別なプログラム(CUDAカーネル)を使用
② 異なるモデルを同時に効率的に動かす
③ モデルの計算を上手く分ける
④ メモリを有効に使い、無駄をなくす
■検証結果
① いくつかの大きなモデル(Llama-7B/13B/30B/70B)を使用して性能を試した
② 他のシステムと比較して、どれだけ効率的かを測定
③ 他のシステムよりも4倍速く動くことがわかった
④ はるかに多くのモデルを同時に使えることも確認
■補足
プログラムはGitHubで公開されている
■注意点
S-LoRAを多くのモデルで使う場合、それを支えるのに十分なメモリを持つハードウェアが必要になる可能性がある