AIがどこまで「推理」できるのかを知るために、あの「逆転裁判」と「ダンガンロンパ」の世界を舞台にしたテストを作り試したとの報告論文。
ゲーム内では、矛盾を見つける課題が与えられます。
選べる証言や証拠の組み合わせは最大300通りにもなり、かなり骨の折れる内容です。
シナリオのスクリプトは平均で2万5000文字。
実験の結果、いまのAIにとっては、複雑な論理推理はまだまだ難しい領域だとはっきりしたとのことです。
また、注目ポイントは「じっくり考えれば当たる」というわけではないという点でした。むしろ、長く考えたAIほど答えを外しやすくなる傾向すらありました。
一般的に効果的とされる戦略も、ここでは大きな助けにはならなかったのです。
私たち人間が夢中になる謎解きとミステリーの世界は、AIにとっても緻密で多面的であり、手強い難問のようです。
📄 参照論文
TurnaboutLLM: A Deductive Reasoning Benchmark from Detective Games
所属: University of Pennsylvania, Drexel University