社内でLLMを動かそうとして、最初に「あれ、GPUメモリ足りないぞ」となった経験はないでしょうか。そこで気になってくるのがMoE(Mixture-of-Experts)と呼ばれるタイプのモデルです。総パラメータ数は大きいけれど、推論のたびに使うのは一部だけ。だからメモリも計算も軽くて済むはず、と期待される設計です。
ところが実際に動かしてみると、話はそんなに単純ではありませんでした。小さなMoEが大きなDenseモデルに勝つ場面もあれば、逆にぼろぼろに負ける場面もあります。明暗を分けているのは、どうやらアーキテクチャだけではないようです。

本記事では、Gemma 4・Phi-4・Qwen3の各ファミリーから計7つのオープンウェイトモデルを、まったく同じ条件で並べて比較した実証研究を紹介します。精度だけでなく、レイテンシやGPUメモリの使用量まで丁寧に測ったところ、モデル選定で見落としがちな落とし穴がいくつも見えてきました。
たとえば、プロンプトの書き方をちょっと変えただけで、あるモデルの算数の正答率が一気に崩れた事例もあります。精度とコストの最適解は、モデルのスペック表をどれだけ眺めても出てきません。