Mixtral 8x7B: SMoEでLLM性能と効率を両立

2024.01.09

効率化・軽量化（量子化、推論高速化、モデル圧縮、蒸留）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

Mistral AIから、LLMを稼働させる際の最新アプローチであるSMoE（Sparse Mixture of Experts）についての論文が公開されました。

SMoEを採用したMixtral 8x7B（商用利用可能）は、Llama 2 70BやGPT-3.5に匹敵あるいは上回る性能を示したとされています。

タスクに応じて専門家を選ぶ仕組みによって、大きなパラメータでも計算コストを効率よくするのが特徴とのことです。

“Mixtral of Experts”より

■Mistral AIについて
– LLMの開発を中心にAI技術を開発する企業
– モデルMistralをシリーズで出している
– Mistralは商用利用可能なモデル

■SMoE（Sparse Mixture of Experts）について
– 複数の専門家モジュールを組み合わせる
– タスクやトークンに応じて専門家が選ばれる
– 柔軟かつ効率的な手法
– 大きなモデルに特に有用

■SMoEを採用したMixtral 8x7Bについて
– 各レイヤーに8つの専門モジュールを持つ
– 全体で47Bだが推論時に稼働するのは13Bのみ
– Llama 2 70BやGPT-3.5と比較して同等以上
– 特に数学、コード生成、多言語理解が得意

なお、チューニング済みのMixtral 8x7B – Instructは人間の評価基準でGPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70B – chatモデルを上回るとのこと。
Mixtral 8x7B – Instructに関しても商用利用可能なライセンスで提供されています。

📄 参照論文

■参照情報

📎 論文を読む（arxiv.org）

X（Twitter）で見る

Mixtral 8x7B: SMoEでLLM性能と効率を両立

📄 参照論文

こちらもどうぞ

🔒 RPA vs LLMエージェントのケーススタディ

🔒 Llama 3.1シリーズ、8ビット量子化で半分以下のサイズでも性能をほぼ完全維持