LLMは大喜利で人間中級レベル？面白くなさ検出は得意

2025.11.132026.01.31

評価・ベンチマーク（モデル評価、ベンチマーク、性能測定）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

一橋大学と東京都立大学の研究者らが、今のLLMは「日本の大喜利でどれくらい面白いか」「大喜利を評価できるか」を徹底検証しています。
結論、LLMは人間のあまり上手くない人と、まあまあ上手な人の中間くらいの実力とのことです。

ただ面白いことに「何が面白くないか」は、
人間とLLMの判断が比較的一致するそうです。

まず、大喜利の回答を作る能力について。
LLMは意外性のある回答や、お題に関連した回答を作ることはできます。でも、その回答が共感を呼ぶものにはなっていません（「わかるわかる」「そういう状況ってあるよね」とはならない）。

次に、「何が面白いか」を判断する能力について。
ここでもLLMは共感性について気にしていません。
他人の大喜利回答を評価するとき、LLMは目新しさや意外性を最も重視する傾向にあるようです。

しかし上述の通り、「面白くない」を判断する力は優れているようです。

この研究結果から、今のLLMが（日本における）人間レベルで面白いことが言えるようになるためには、総じて共感を重視するようになるべきであることが示唆されています。

Assessing the Capabilities of LLMs in Humor:A Multi-dimensional Analysis of Oogiri Generation and Evaluation

著者: Ritsu Sakabe, Hwichan Kim, Tosho Hirasawa, Mamoru Komachi

所属: Hitotsubashi University, Tokyo Metropolitan University

こちらもどうぞ