GPT-4に選択肢を与えるとき、順序を入れ替えるだけで性能に大きな変化があることが明らかに

今回紹介する研究は、大規模言語モデル（LLM）であるGPT-4が、多肢選択問題（MCQ）において選択肢の順序に敏感であるという事実を明らかにしています。

この研究は、リクルートのAI研究所であるMegagon Labsのグループによって発表されました。研究者たちは、GPT-4とInstructGPTの2種類のモデルを用いて、5つの異なるMCQベンチマークで実験を行いました。その結果、選択肢の順序を単純に入れ替えるだけで、モデルの性能に13%から75%もの大きな変動が生じることが確認されました。

この記事では、この研究の詳細とその意義、そして今後どのような対策が考えられるのかについて、深く掘り下げていきます。

参照論文情報

タイトル：Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions

著者：Pouya Pezeshkpour, Estevam Hruschka

所属：Megagon Labs（リクルートのAI研究所）

URL：https://doi.org/10.48550/arXiv.2308.11483

関連研究

タスクに応じてロールプレイさせるとChatGPTなどLLMの推論能力は普遍的に向上する

メタ認知をさせてLLMの能力を上げる手法「メタ認知プロンプティング」

大規模言語モデルのセーフガードを故意に突破する「脱獄プロンプト」とは

LLMと多肢選択問題

大規模言語モデル（LLM）の台頭とその影響

近年、大規模言語モデル（LLM）は自然言語処理（NLP）の分野で多くの注目を集めています。特に、GPT-4やInstructGPTなどのモデルは、質問応答、文章生成、翻訳など、多くのタスクで高い性能を示しています。

LLMは、多肢選択問題（MCQ）においても非常に高い性能を発揮しています。MCQは、教育、医療、ビジネスなど、多くの分野で用いられる形式であり、モデルの「正確な選択肢を選ぶ能力」には非常に価値があります。

選択肢の順序に対するバイアス

しかし、これらのモデルが高い性能を示す一方で、選択肢の順序に対するバイアスが存在するという現象が観測されています。

この選択肢の順序に対するバイアスは、実用上非常に重要な問題です。選択肢の順序が変わるだけで正解を導く力が弱まるのであれば、対策が欠かせません。このような現象は、教育、医療、ビジネスなど、多くの分野での応用に影響を与える可能性があります。

研究者の取り組みと目的

Megagon Labsの研究者たちは、この性能変動を詳細に評価するために、GPT-4とInstructGPTの2種類のモデルを対象とし、5つの異なるMCQベンチマークを用いて実験を行いました。この研究の目的は、選択肢の順序による性能変動のメカニズムを理解し、その対策を考えることです。

実験の詳細

実験の対象：GPT-4とInstructGPT

この研究では、GPT-4とInstructGPTの2種類の大規模言語モデルが実験の対象とされました。GPT-4は、OpenAIによって開発された大規模なトランスフォーマーモデルであり、多くのNLPタスクで高い性能を示しています。一方、InstructGPTは、指示に基づいたタスクを解決する能力に特化したモデルです。

GPT-4とInstructGPTは、多肢選択問題（MCQ）において高い性能を示すことが知られています。しかし、それぞれのモデルが選択肢の順序にどれだけ敏感であるのかを比較することで、この問題に対する一般的な理解を深めることができます。