本記事では、量子化がLLMに与える影響を調査した研究を紹介します。8億から103億パラメータの様々なLLMを対象に、日本語を含む20以上の言語で自動評価や人間評価が行われました。
研究の結果、量子化の影響は言語やタスクの難易度によって異なること、自動評価と人間評価に乖離があることを示しています。
調査を行ったのはCommand R+などを開発して話題になっている企業Cohereです。
参照論文情報
- タイトル:How Does Quantization Affect Multilingual LLMs?
- 著者:Kelly Marchisio, Saurabh Dash, Hongyu Chen, Dennis Aumiller, Ahmet Üstün, Sara Hooker, Sebastian Ruder
- 所属:Cohere
背景
LLMの性能向上とともに、その計算コストや推論速度の課題が注目されています。そこで、量子化が広く使われるようになりました。モデルの重みやアクティベーションを低ビット表現に圧縮する技術です。推論速度の向上やモデルの軽量化が叶うメリットがあります。
量子化の影響に関する研究もよく行われていますか、多くは英語に焦点を当てており、英語以外での影響については十分に調査されていません。自分たちの国でLLMを活用するためには、軽量でありながら性能や信頼性の高いモデルであることを把握する必要があります。
なお、計算リソースの制約が厳しい地域は「低リソースのジレンマ」と呼ばれる課題に遭遇します。サービスが行き届いていない国と計算リソースが枯渇している国は同じであることが多いそうです。
量子化や疎性(スパーシティ)などの圧縮技術は、ロングテール(頻度の低い特徴)に対して不均衡な影響を与える可能性が指摘されています。これが何を意味するか?マイナー言語はこのロングテールに該当する可能性があり、モデルの性能に良くない影響が出るかもしれないということです。
このような背景から、量子化がLLMに与える影響を言語の観点から調査する必要性が高まっています。そこで研究者らは、さまざまな手法を駆使して、LLMの日本語を含む非英語能力における量子化の影響を調査しました。以下で詳しく紹介します。まずはじめに、量子化とは何か?という点からまとめます。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。