最高水準のオープンソースLLM『Mixtral 8x7B』は内部で専門家が切り替わる高効率モデル

Mistral AIから、最新のモデルであるMixtral 8x7Bについての論文が公開されました。
タスクに応じて専門家を選ぶ仕組みによって、大きなパラメータでも計算コストを効率よくするのが特徴とのことです。

Mixtral 8x7Bは、Llama 2 70BやGPT-3.5に匹敵あるいは上回る性能を示すとされています。また、商用利用も可能です。

参照論文情報

タイトル：Mixtral of Experts

著者：Albert Q. Jiang et al. （多数）

所属：Mistral AI

URL：https://doi.org/10.48550/arXiv.2401.04088

GitHub：https://github.com/mistralai/mistral-src

プロジェクトページ：https://mistral.ai/news/mixtral-of-experts/

Mixtral 8x7B登場

新たな大規模言語モデル『Mixtral 8x7B』が公開されました。このモデルは言うなれば「なんでもできる」とされています。8人の専門家が、与えられたタスクを手分けしてこなすのが特徴です。また、日本語にも対応しています。

下の図はMixtralのMixture of Experts Layer（専門家レイヤーの混合部分）の構造を示しています。それぞれ異なる特徴を持つ8つのexpert networkの中から、入力されたtokenに応じて、2つ選ばれます。

研究者らは、Mixtralは簡単なタスクだけでなく複雑なタスクもこなし、数学やプログラムなども対象としていると述べています。また大量のテキストを記憶できるとのことです。

以下にアーキテクチャの特徴とメリットを簡単にまとめます。

アーキテクチャの特徴

8人の専門家がチームを組んで、仕事を分担して行う

世界中の言葉を理解でき、難しい計算やプログラムの作成も得意

1つのGPUだけでなく、複数のCPUを使って仕事をこなす

仕事量を均等に分散して、誰もがパンクしないよう配慮している

この仕組みのメリット

1人1人の負担が減るため、仕事が効率的に進む

専門家の得意分野が異なるため、広範なタスクで精度の高い結果が得られる

複数のコンピュータで処理するため、大がかりな仕事も高速に処理できる

下記の表はモデルの主要なパラメータをまとめて表示しています。

非常に大きな次元数とレイヤー数を持っていることがわかります。なお次元数が大きいのは、モデルがよりリッチな特徴表現を学習できることを意味しており、またレイヤー数が多いということは、モデルがより多くの抽象化レベルで情報を処理できることを意味します。

以下ではMixtralの性能を細かく評価した実験の結果や、情報処理の特徴などを紹介します。

Mixtralの実験結果

研究者らはMixtralの性能を評価するために、

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

CoTの推論ステップ数がLLMの推論能力に及ぼす影響を詳細に検証した結果

プロンプトの小さな違いがLLMにもたらすバタフライ効果を調査した結果

SNSでも発信中

企業と働き手を繋ぐマッチングサービスはこちらから

AIDBとは

AIDBは、論文などの文献に基づいてAIの科学技術や市場にキャッチアップするためのサービスです。個人の研究や仕事探し、法人の調査や採用を支援します。2019年から運営しています。

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録