量子化はLLMの性能にどう影響を与えるか？モデルが持つ「自信」の観点から説明

【お知らせ】AIDB主催のビジネスマッチングイベントを６月下旬ごろ開催予定です！会場を提供いただける可能性がある企業の方はぜひご連絡ください。

---以下、記事本文---

量子化はLLMの性能にどう影響を与えるか？モデルが持つ「自信」の観点から説明

LLMは多大な計算コストとメモリーを必要とするため、モデルを軽量なものに変える量子化手法が注目を集めています。今では、大きなモデルが発表されたと同時に量子化モデルが有志によって作成されるこも多くなっています。

しかし量子化は、モデルの性能低下やバイアスの増幅を引き起こすことが懸念されています。また、モデルの予測確率分布（簡単に言うとモデルの自信）がどう変化するのかは、十分な検討がなされていません。

そこで今回研究者らは量子化前後のLLMを比較し、量子化がモデルの確信度に与える影響を調査しました。

参照論文情報

タイトル：When Quantization Affects Confidence of Large Language Models?

著者：Irina Proskurina, Luc Brun, Guillaume Metzler, Julien Velcin

所属：Université de Lyon

背景

LLMの優れた性能の裏には、数億から数千億に及ぶパラメータを持つ巨大なネットワークが存在します。推論時の計算コストと記憶容量が大きく必要であるため、実用においてはコストやメモリ削減の工夫が重要となっています。

そこで注目されているのが量子化技術です。量子化は、学習済みモデルの重みをより少ないビット数で表現することで、モデルを圧縮する手法の一つです。

従来の量子化研究では、主に以下の評価指標が用いられてきました。

推論の高速化率

重みの近似精度

性能低下幅

しかしモデルの「予測確率分布」に与える影響については十分な検討がなされていません。

モデルの予測確率分布は、簡単に言うと、モデルが各クラス（ラベル）に対してどの程度の確信を持っているかを表す指標です。例えば、二値分類問題では、モデルは「はい」と「いいえ」のそれぞれに対して0から1の間の確率を出力します。この確率の分布が予測確率分布です。
モデルが高い確信度を持つ場合は実際に正解である割合も高く、低い確信度の場合は正解である割合も低くなります。つまり、予測確率分布は、モデルの予測の信頼性を反映していると考えられています。

そのため、予測確率分布の変化を調べることで、量子化による性能低下をより深く理解できると期待できす。

そこで今回研究者らは、量子化前後のLLMの予測確率分布に着目し、以下の分析を行いました。