次回の更新記事:良いREADMEを書けているかLLMで自動検証・改善する方…(公開予定日:2026年03月06日)

GPT-4の多肢選択、選択肢順序で性能激変

評価・ベンチマーク(モデル評価、ベンチマーク、性能測定)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

GPT-4に選択肢を与えるとき、順序を入れ替えるだけで性能に大きな変化があることが明らかになりました。
リクルートのAI研究所であるMegagon Labsのグループによる発表です。

○ Pouya Pezeshkpour et al. Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions

LLMは多肢選択問題(複数の選択肢がある問題)において高い性能を示していますが、実は『選択肢の順序に対してバイアスがある』という現象が観測されています。
そこで研究者らは性能変動を詳細に評価しました。以下、研究報告のまとめです。

■実験詳細
①GPT-4とInstructGPTの2種類を実験対象とした
②5つの異なるMCQベンチマークを用いた
③選択肢の順序変更に伴う正解率の変化を計測した

■実験結果
①選択肢の順序が変更によって、性能に13%から75%の変化が生じた

■考察
①モデルがそもそも正解に対して自信がない
②選択肢の順序によって特定の選択肢を選びやすくなってしまう
(ex. 「2番目の選択肢に正解が多い」などの統計バイアス、一つ前の選択肢から文脈を読み取る)

■今後の対策案
①選択肢の順序をランダム化する
②モデルの出力を複数回サンプリングして平均を取る

この現象は、「複数の選択肢がある”正解のない問題”」をGPTにサポートしてもらう際にも考慮すべきかもしれません。

📄 参照論文

論文:https://t.co/7yZDMaLmzu

関連記事