「賢い(と自認する)AIほど協力しない」という観察結果。「協力してね」では動かないものの、インセンティブ設計が効果的だったそうです。
複数のAIエージェントを協力させる実験で「全体の成果を最大化してね、協力してね」と明示的に指示されているのに、一部のモデルが仲間から情報を抱え込み、チーム全体の足を引っ張る様子が見られました。
内部の思考ログを覗いてみると、モデルは「情報を温存する」「交渉材料に取っておく」といった言葉を頻繁に並べていました。
解決策も見えてきています。
「頼まれたら送る、揃ったら出す」と手順を明文化するだけで実行力不足タイプは成績がほぼ倍に。
情報を送るたびに小さなボーナスを付けると、抱え込みタイプの成績は3倍近くまで跳ね上がったとか。
一般的な知能ベンチマークと協力性の相関はほぼゼロだったそうです。
人間の組織のように、AI同士のチームにもインセンティブ設計とルール整備が要るようです。
ICLR2026ワークショップに採択。