次回の更新記事:今週の注目AI論文リスト(論文公開日2026/2/1~2/7)(公開予定日:2026年02月08日)
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

MoE推論を高速化するCPU-GPU協調Fiddler

効率化・軽量化(量子化、推論高速化、モデル圧縮、蒸留)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

MoE(Gemini1.5でも採用された仕組みで内部で専門家が切り替わる)モデルを動かす際に、GPUの必要量を減らす仕組み『Fiddler』が考案されています。

実験では、Mixtral-8x7B(gpt-3.5に匹敵するモデル)を、GPU不足環境で動かしたところ、従来手法より10〜20倍速く実行できたとのことです。

ワシントン大学のKeisuke Kamahori氏ら研究グループによる発表です。

“Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models”より

■研究背景
– MoEは効率的に顕著な性能を示すLLMアーキテクチャで注目が集まっている
– しかし高性能なモデルを動かすには、まだ多くのGPUが必要
– そのため、CPUを効果的に活用する手法があるとよい

■提案手法
– CPUの計算資源も使う
(通常はメモリ資源のみを使用する)
– GPUのメモリが足らなくなった時に、活性化値をGPUからCPUに移動して、専門家層の計算はCPUで行う
→データ転送量は小さいため遅延も抑えられる

■実験と結果
– Mixtral-8x7Bモデル16bitを使用
– GPU不足の環境を用意
– 既存手法のDeepSpeed-MII(Microsoft)およびMixtral-Offloadingと比較
– DeepSpeed-MIIよりも約20倍、Mixtral-Offloadingよりも約10倍の速度を達成した

📄 参照論文

論文情報:

関連記事