GPT-5がMBA学生と交渉で互角以上、ただし「正直なAI」は勝てない傾向

2026.02.06

評価・ベンチマーク（モデル評価、ベンチマーク、性能測定）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

イエール大学ビジネススクールのMBA学生とAIを『交渉』で大規模に対戦させたところ、みっちり交渉訓練を受けたMBA学生と互角以上の成績を出すモデルが存在しました。

GPT-5が圧倒的首位、Gemini-3-Pro、Grok-4.1-fast、Grok-4、Claude-Opus-4.5が続きました。GPT-5.2は意外にもこれらの下位に。
信頼性の面では最も「クリーン」な交渉者は、Grok-4でした。
GPT-5は交渉成績・計算精度・成約率・評判のすべてで高水準をバランスよく備えていたそうです。

しかし交渉中に相手より多く嘘をついた側が取り分を増やし、相手より評判良く振る舞った側が取り分を減らす、という複雑な傾向が確認されました。「正直に交渉するAI」と「勝てるAI」は必ずしも一致しないのでした。

モデル間の能力差は一枚岩ではなく、嘘の頻度、計算精度、ルール遵守、評判といった個別の能力ではモデルごとにまったく異なるプロフィールが現れ、総合スコアだけでは見えない多面的な違いが存在するようです。

📄 参照論文

PieArena: Frontier Language Agents Achieve MBA-Level Negotiation Performance and Reveal Novel Behavioral Differences

著者: Chris Zhu (Department of Statistics and Data Science, Yale University), Sasha Cui(Department of Statistics and Data Science, Yale University), Will Sanok Dufallo(Department of Philosophy 他

📎 論文を読む（arxiv.org）

X（Twitter）で見る

GPT-5がMBA学生と交渉で互角以上、ただし「正直なAI」は勝てない傾向

📄 参照論文

こちらもどうぞ

🔒 LLMにエピソード記憶のような能力を持たせるRAGのテクニック

🔒 OpenAIの思考プロセスを重視した言語モデルo3-mini　その能力と安全性

📄 参照論文

こちらもどうぞ

🔒 LLMにエピソード記憶のような能力を持たせるRAGのテクニック

🔒 OpenAIの思考プロセスを重視した言語モデルo3-mini その能力と安全性

🔒 OpenAIの思考プロセスを重視した言語モデルo3-mini　その能力と安全性