今回紹介する研究は、大規模言語モデル(LLM)であるGPT-4が、多肢選択問題(MCQ)において選択肢の順序に敏感であるという事実を明らかにしています。
研究者たちは、GPT-4とInstructGPTの2種類のモデルを用いて、5つの異なるMCQベンチマークで実験を行いました。その結果、選択肢の順序を単純に入れ替えるだけで、モデルの性能に13%から75%もの大きな変動が生じることが確認されました。
この記事では、この研究の詳細とその意義、そして今後どのような対策が考えられるのかについて、深く掘り下げていきます。
関連研究
- タスクに応じてロールプレイさせるとChatGPTなどLLMの推論能力は普遍的に向上する
- メタ認知をさせてLLMの能力を上げる手法「メタ認知プロンプティング」
- 大規模言語モデルのセーフガードを故意に突破する「脱獄プロンプト」とは