Mistral AIから、LLMを稼働させる際の最新アプローチであるSMoE(Sparse Mixture of Experts)についての論文が公開されました。
SMoEを採用したMixtral 8x7B(商用利用可能)は、Llama 2 70BやGPT-3.5に匹敵あるいは上回る性能を示したとされています。
タスクに応じて専門家を選ぶ仕組みによって、大きなパラメータでも計算コストを効率よくするのが特徴とのことです。
“Mixtral of Experts”より
■Mistral AIについて
– LLMの開発を中心にAI技術を開発する企業
– モデルMistralをシリーズで出している
– Mistralは商用利用可能なモデル
■SMoE(Sparse Mixture of Experts)について
– 複数の専門家モジュールを組み合わせる
– タスクやトークンに応じて専門家が選ばれる
– 柔軟かつ効率的な手法
– 大きなモデルに特に有用
■SMoEを採用したMixtral 8x7Bについて
– 各レイヤーに8つの専門モジュールを持つ
– 全体で47Bだが推論時に稼働するのは13Bのみ
– Llama 2 70BやGPT-3.5と比較して同等以上
– 特に数学、コード生成、多言語理解が得意
なお、チューニング済みのMixtral 8x7B – Instructは人間の評価基準でGPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70B – chatモデルを上回るとのこと。
Mixtral 8x7B – Instructに関しても商用利用可能なライセンスで提供されています。