ChatGPTに質問すると、だいたいそれっぽい答えが返ってきます。でもたまに、明らかにおかしなことを自信満々で言う。「なんでこんな間違いするんだろう」と思ったことがある方は多いはずです。
あの精度を上げるために、開発者たちは裏側でものすごい量の調整をしています。どんなデータで勉強させるか。何を「良い回答」とするか。勉強のペースはどうするか。いわばAIの「教育方針」を、人間のエンジニアが一つひとつ決めています。
ところが最近、この教育方針をAI自身に考えさせる研究が相次いでいます。自分でテスト問題を作り、自分で解き、自分の採点基準すら自分で改善する。本記事では4つの研究を通じて、この動きを追いかけます。

採点者がいないなら、自分で採点すればいい
AIの訓練には「フィードバック」が欠かせません。人間が「こっちの回答のほうがいいね」と選び、その好みに合わせてAIを調整する。これが今の主流のやり方です。
でも、ここに厄介な問題があります。人間が採点している限り、AIは人間の判断力を超えられません。テストの採点者より受験生のほうが賢くなったら、もう採点者から学べることがない、という話です。