LLMが司法試験合格点、自己検証で精度向上

2026.01.09

推論・思考（論理推論、Chain-of-Thought、数学的推論、問題解決）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

慶應義塾大学の研究者によると、「日本の司法試験」における多肢選択式問題でLLMが合格点をとるまでに至りました。
意外かもしれませんが、AIはこれまでそれほどのスコアを達成していないので、初の事例となります。

今回重要な工夫の一つとされたのが、LLMに自分で出した答えを再チェックさせることでした。
単一のモデルでハイスコアを記録するようになったとのこと。
なお、役割別に分けて協力させる方式（回答役と検証役など）だと逆に点数は下がってしまうそうです。

LLMの間違いは知識不足ではなく、複数の判断を同時に整合させる能力の欠如から来ていることも多いということが示唆される結果です。
セルフチェックはまさにその弱点を補う仕組みとして機能するそうです。

なお、過去問460問を試験形式のまま使ってファインチューニングするといった技術も適用されています。

📄 参照論文

Self-Verification is All You Need To Pass The Japanese Bar Examination

著者: Despite rapid advances in large language models (LLMs), leaving open the question of whether they truly capture exam-level competence. In this paper, marking the first demonstration, to our knowledge, including multi-agent inference and decomposition-based supervision

所属: Keio University

📎 論文を読む（doi.org）

X（Twitter）で見る

LLMが司法試験合格点、自己検証で精度向上

📄 参照論文

関連記事

🔒 LLMペルソナプロンプトの細かい設計が出力に与える影響を詳しく検証

AIは何を感じ何を選びどこまで自分を形づくるのか

🔒 LLMの回答精度が質問の言語によってばらつく問題への対応策

🔒 Metaのリアルタイム多言語間翻訳システム『Seamless（シームレス）』は話し方のトーンや抑揚も反映

🔒 Appleが、LLMのパラメータを「SSDなどの外部フラッシュメモリに保存し」PCで効率的にモデルを使用する手法を開発

🔒 今週の注目AI論文リスト（論文公開日2025/9/29～10/3）

📄 参照論文

🔗 関連短信

関連記事

🔒 LLMペルソナプロンプトの細かい設計が出力に与える影響を詳しく検証

AIは何を感じ 何を選び どこまで自分を形づくるのか

🔒 LLMの回答精度が質問の言語によってばらつく問題への対応策

🔒 Metaのリアルタイム多言語間翻訳システム『Seamless（シームレス）』は話し方のトーンや抑揚も反映

🔒 Appleが、LLMのパラメータを「SSDなどの外部フラッシュメモリに保存し」PCで効率的にモデルを使用する手法を開発

🔒 今週の注目AI論文リスト（論文公開日2025/9/29～10/3）

AIは何を感じ何を選びどこまで自分を形づくるのか

🔒 Appleが、LLMのパラメータを「SSDなどの外部フラッシュメモリに保存し」PCで効率的にモデルを使用する手法を開発