消費者向けGPUでも高性能GPUに近いパフォーマンスでLLMを動かす手法「PowerInfer」を開発したと報告されています。
活発なニューロンだけGPUに割り当て、それ以外はCPUで処理するハイブリッド方式とのことです。
– “PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU”
■これまでの問題
LLMを動かすには高性能なGPUが必要であり、高価すぎる
■「PowerInfer」のポイント
① LLMにおけるメモリの使用量を減らす
② 推論の処理速度向上にフォーカスしている
③ GPUとCPUのハイブリッド方式
■実験
① 消費者向け環境を用意
(Intel i9, NVIDIA RTX 4090など)
② LLaMA-70Bほか合計3モデルを使用
③ 実際のサービスに近いテキスト処理を行った
■結果
① 消費者向けでも高性能(A100)の82%に上る生成速度を達成
② 量子化モデルで最大8.00倍、非量子化モデルで最大11.69倍のパフォーマンス向上を実現
③ ニューロンの活性化に応じて適切な割り当てを実行
なお、本実験で試された機器やモデル以外の環境で結果がどうなるかを広く試していくべきとされています。