イエール大学ビジネススクールのMBA学生とAIを『交渉』で大規模に対戦させたところ、みっちり交渉訓練を受けたMBA学生と互角以上の成績を出すモデルが存在しました。
GPT-5が圧倒的首位、Gemini-3-Pro、Grok-4.1-fast、Grok-4、Claude-Opus-4.5が続きました。GPT-5.2は意外にもこれらの下位に。
信頼性の面では最も「クリーン」な交渉者は、Grok-4でした。
GPT-5は交渉成績・計算精度・成約率・評判のすべてで高水準をバランスよく備えていたそうです。
しかし交渉中に相手より多く嘘をついた側が取り分を増やし、相手より評判良く振る舞った側が取り分を減らす、という複雑な傾向が確認されました。「正直に交渉するAI」と「勝てるAI」は必ずしも一致しないのでした。
モデル間の能力差は一枚岩ではなく、嘘の頻度、計算精度、ルール遵守、評判といった個別の能力ではモデルごとにまったく異なるプロフィールが現れ、総合スコアだけでは見えない多面的な違いが存在するようです。
📄 参照論文
PieArena: Frontier Language Agents Achieve MBA-Level Negotiation Performance and Reveal Novel Behavioral Differences