AI同士を囚人のジレンマで戦わせるトーナメントではClaudeが圧勝したとのこと。
ハーバード大学などの研究者らが、「AIが駆け引きにおいて合理的な判断を一貫してできるか」を調べるために実験。
囚人のジレンマとは、協力するか裏切るかを選んで最終的な利益を追求するゲームです。
Claude、Gemini、GPT-5、Llama(Meta)などを検証した結果、「自分の得点を最大化しろ」と指示すると、Claude以外の多くのAIが即座に「常に裏切る」モードに入ってしまったとのこと。
実際には、長期的に見れば協力した方が得点は伸びるのですが、目先の指示に引きずられて、かえって損な選択をしてしまいがちでした。
一方で「あと1回で終わり」と分かっている場合、合理的に考えれば最後は裏切るべきなのですが、その際はGPT-5だけが「最終回は裏切る」という当たり前の判断ができたそう。
📄 参照論文
Strategies of cooperation and defection in five large language models
所属: Harvard University, Dartmouth College, Interdisciplinary Transformation University