LLMは多大な計算コストとメモリーを必要とするため、モデルを軽量なものに変える量子化手法が注目を集めています。今では、大きなモデルが発表されたと同時に量子化モデルが有志によって作成されるこも多くなっています。
しかし量子化は、モデルの性能低下やバイアスの増幅を引き起こすことが懸念されています。また、モデルの予測確率分布(簡単に言うとモデルの自信)がどう変化するのかは、十分な検討がなされていません。
そこで今回研究者らは量子化前後のLLMを比較し、量子化がモデルの確信度に与える影響を調査しました。
参照論文情報
- タイトル:When Quantization Affects Confidence of Large Language Models?
- 著者:Irina Proskurina, Luc Brun, Guillaume Metzler, Julien Velcin
- 所属:Université de Lyon
背景
LLMの優れた性能の裏には、数億から数千億に及ぶパラメータを持つ巨大なネットワークが存在します。推論時の計算コストと記憶容量が大きく必要であるため、実用においてはコストやメモリ削減の工夫が重要となっています。
そこで注目されているのが量子化技術です。量子化は、学習済みモデルの重みをより少ないビット数で表現することで、モデルを圧縮する手法の一つです。
従来の量子化研究では、主に以下の評価指標が用いられてきました。
- 推論の高速化率
- 重みの近似精度
- 性能低下幅
しかしモデルの「予測確率分布」に与える影響については十分な検討がなされていません。
モデルの予測確率分布は、簡単に言うと、モデルが各クラス(ラベル)に対してどの程度の確信を持っているかを表す指標です。例えば、二値分類問題では、モデルは「はい」と「いいえ」のそれぞれに対して0から1の間の確率を出力します。この確率の分布が予測確率分布です。
モデルが高い確信度を持つ場合は実際に正解である割合も高く、低い確信度の場合は正解である割合も低くなります。つまり、予測確率分布は、モデルの予測の信頼性を反映していると考えられています。
そのため、予測確率分布の変化を調べることで、量子化による性能低下をより深く理解できると期待できす。
そこで今回研究者らは、量子化前後のLLMの予測確率分布に着目し、以下の分析を行いました。
- 量子化がLLMのキャリブレーションと確信度に与える影響の調査
- 量子化前後のLLMの確信度の整合性評価
- 量子化による性能低下の原因(量子化前の確信度の観点から説明)
なおキャリブレーションとは、モデルの予測確率が真の確率をどの程度反映しているかを表す指標です。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。