『今のAIの論理的思考の能力には限界がある』と述べられた論文”The Illusion of Thinking”に対し、その実験のやり方には問題があったのではないかとのこと。
AIにさまざまなパズルを解かせるのがテスト内容でしたが、最後まで書かれていない解答が一律で「間違い」として扱われていました。
しかし厳密には長い解答を書いている途中で「長くなりすぎるのでここで止めます」と言って、AIはあえて途中で止めていたのです。
これは、本当に解けないということとは少し違いそうです。
さらに、一部のパズルが実は解けない問題でした。数学的に不可能なのに、AIが解けないことを「失敗」と判定されていました。
また、解答の出し方を変えてみると、AIは同じ難しいパズルを簡単に解けるケースもありました。コード形式で考えるようにしただけで難問でも複数のAIが短時間で正解しました。
「推論できない」と極端に言い切るには早計であり、少なくとも必要以上に厳しい評価だったのではと主張されています。
📄 参照論文
Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity