慶應義塾大学の研究者によると、「日本の司法試験」における多肢選択式問題でLLMが合格点をとるまでに至りました。
意外かもしれませんが、AIはこれまでそれほどのスコアを達成していないので、初の事例となります。
今回重要な工夫の一つとされたのが、LLMに自分で出した答えを再チェックさせることでした。
単一のモデルでハイスコアを記録するようになったとのこと。
なお、役割別に分けて協力させる方式(回答役と検証役など)だと逆に点数は下がってしまうそうです。
LLMの間違いは知識不足ではなく、複数の判断を同時に整合させる能力の欠如から来ていることも多いということが示唆される結果です。
セルフチェックはまさにその弱点を補う仕組みとして機能するそうです。
なお、過去問460問を試験形式のまま使ってファインチューニングするといった技術も適用されています。
📄 参照論文
Self-Verification is All You Need To Pass The Japanese Bar Examination
所属: Keio University