LLMは文章生成や推論で目覚ましい成果を上げていますが、「人を笑わせる」という極めて人間的な能力についてはどうなのか。複数の研究がこの問いに挑んでおり、そこから見えてきたのは、AIのユーモア理解における予想外の特性と、人間の「笑い」の本質に関する新たな知見です。
2023年は「まだまだ」だった
GPT-3.5にジョークを生成させても90%が25パターンの繰り返し
ChatGPT is fun, but it is not funny! Humor is still challenging Large Language Models
https://doi.org/10.48550/arXiv.2306.04563
Sophie Jentzsch, Kristian Kersting
2023年に発表された研究では、ChatGPT(GPT-3.5ベース)がジョークを「作り出す」「見つける」「説明する」能力について検証が行われました。実験では、ChatGPTに約1000個のジョークを生成させたところ、生成されたジョークの実に90%が、わずか25パターンの繰り返しだったのでした。つまり、表面的には多様なジョークを作っているように見えても、その構造は極めて限定的だったということになります。
既存のジョークを見つけて説明する能力については一定の成果が確認されたが、実際にはジョークとして成立していない「偽のジョーク」に対しても、あたかも本物のジョークであるかのように説明してしまう現象が観察されました。LLMがジョークの「形式」を認識できても、その「本質」を十分に理解していない可能性を示唆しています。
研究者らは、GPT-3.5をはジョークを完全には理解していないものの、同時に飛躍的な一歩を踏み出しているという見解を示しました。
Xのポスト
なお、ユーモアは文化的背景や個人的な価値観、経験に大きく依存する複雑な現象です。人間にとっても理解や生成が難しいため、AIがそれをできるようになれば画期的と言えます。この研究の詳細は以下の記事でも解説しています。
ハーバード流「AIを面白くするファインチューニング」も登場
一般的に、論理的なタスクやステップバイステップの説明を必要とする問題解決においてはChain of Thought(CoT)アプローチが有効ですが、ユーモアのような創造的なタスクに対しては効果があまり確認されていません。
そんな中、ハーバード大学などの研究者らは、お笑いのようにクリエイティブなものをLLMが生成する能力を探求しています。大喜利データセットを作成し、LLMをユーモラスにチューニングするアプローチも併せて検証しました。
詳細は以下の記事をご覧ください。
数学が得意なLLMほどユーモアも理解できる
Which LLMs Get the Joke? Probing Non-STEM Reasoning Abilities with HumorBench
https://doi.org/10.48550/arXiv.2507.21476
Reuben Narad, Siddharth Suresh, Jiayi Chen, Pine S.L. Dysart-Bricken, Bob Mankoff, Robert Nowak, Jifan Zhang, Lalit Jain
(University of Washington, University of Wisconsin-Madison, Air Mail and Cartoon Collections)
2025年になると、基盤モデルの能力も格段に向上してきました。
そんな中、ある研究では、LLMのユーモア理解能力と他の認知能力との関連が調べられました。その結果、数学や科学が得意なLLMほど、ユーモアの理解も上手な傾向にあることが明らかになりました。
この相関は、冗談を理解するのに必要な論理的思考力が数学的な思考と構造的に似ているためだと考えられています。実際、数学専用のデータだけで訓練されたAIでも、ユーモア理解においてそれなりの成績を収めたという結果が報告されています。
しかし興味深いことに、「考える時間」を与えれば与えるほど成績が向上するわけではなかったのです。むしろ逆に成績が下がってしまうケースも確認されています。LLMにとってユーモアを理解するには「論理的である必要はあるが、必ずしも長考が有効とは限らない」ということです。
とはいえ、LLMの理解レベルは人間並みとは言い難いことも明らかになっています。人間とLLMの思考プロセスには構造的な違いがあり、LLMによる「笑い話」の理解は依然として未解決の課題です。
Xのポスト
写真で一言形式でLLMを面白くする方法
AI Humor Generation: Cognitive, Social and Creative Skills for Effective Humor
https://doi.org/10.48550/arXiv.2502.07981
Sean Kim, Lydia B. Chilton
(Columbia University)
「写真で一言」のようなお題形式においても、LLMが工夫次第で人間と同程度の面白さを発揮できる可能性が報告されています。
研究で示されたプロセスは次のようなものです。まず画像を細かく観察する。次に共感されるテーマに持ち込む。そして世代や文化に合った言葉を使い、最後に回答を繰り返しチェックさせる。こうしたプロセスを踏むことで、実際にウケている人間の回答とほとんど差がない答えをするケースも出てくるとのことです。
重要なのが最初の観察ステップとのことです。画像内の要素(登場人物、背景、表情など)を多角的に抜き出して面白いポイントを発見することが勝負のカギとなります。そこから「連想」または「比喩」を使い、ストーリー性や葛藤を持たせる戦略をとることがユーモアのバリエーション拡大につながるといいます。
日本の大喜利で検証
LLMに足りないのは「共感」
Assessing the Capabilities of LLMs in Humor:A Multi-dimensional Analysis of Oogiri Generation and Evaluation
https://doi.org/10.48550/arXiv.2511.09133
Ritsu Sakabe, Hwichan Kim, Tosho Hirasawa, Mamoru Komachi
(Hitotsubashi University, Tokyo Metropolitan University)
一橋大学と東京都立大学の研究者らは、LLMが「日本の大喜利でどれくらい面白いか」「大喜利を評価できるか」を徹底検証しています。
結論として、LLMは人間のあまり上手くない人と、まあまあ上手な人の中間くらいの実力を持つことが判明しました。完全に素人というわけではないものの、達人の域には程遠いというレベルです。
興味深い発見もありました。「何が面白くないか」については、人間とLLMの判断が比較的一致していたのです。つまりLLMは「ウケない回答」を見分ける能力は持っているということになります。
では、何がLLMの大喜利を人間レベルに届かせないのか。研究が指摘したのは「共感性」の欠如です。LLMは意外性のある回答や、お題に関連した回答を作ることはできます。しかし、その回答が共感を呼ぶものにはなっていません。「わかるわかる」「そういう状況ってあるよね」という反応を引き出せないのです。
他人の大喜利回答を評価する場面でも同様の傾向が見られました。LLMは目新しさや意外性を最も重視する傾向にあり、共感性については気にしていません。
この研究結果は、今のLLMが日本において人間レベルで面白いことを言えるようになるためには、総じて共感を重視するようになるべきであることを示唆しています。
Xのポスト
GPT-5が人間を超えた 大喜利の「コツ」をプロンプト化
Oogiri-Master: Benchmarking Humor Understanding via Oogiri
https://doi.org/10.48550/arXiv.2512.21494
Soichiro Murakami, Hidetaka Kamigaito, Hiroya Takamura, Manabu Okumura
(CyberAgent, Nara Institute of Science and Technology, Institute of Science Tokyo)
サイバーエージェントとNAIST、東京科学大学のチームは、「大喜利」を科学的に分析し、そこから得られた知見をプロンプトに組み込むアプローチを試みています。その結果、GPT-5が人間を超える成績を出すことに成功したといいます。
研究で明らかになった「面白い大喜利のコツ」は興味深いものでした。まず、面白い回答は長々と説明するのではなく短いこと。そして、お題から離れた斬新な語彙を使うのではなく、お題の世界観にとどまりながら「視点を変える」ことが最も効果的だとされました。
また、従来のユーモア理論で重視されてきた「意外性」や「予測のしにくさ」といった要素は、実際にはあまり効いていないことも示唆されました。これは既存の学術的な理解に一石を投じる発見とも考えられています。
ただし、すべてのLLMがこの手法で改善するわけではありません。Claude-Opus-4では同じ手法を適用した結果、逆に成績が下がってしまいました。「短い方が面白い」といったヒントを文字通りに受け取りすぎて、極端に短い回答ばかり選んでしまったのです。しかし「迷ったときだけヒントを参照しろ」と指示を変えることで、この問題は緩和されたといいます。モデルごとの特性に応じたプロンプト設計の重要性を示す事例です。
Xのポスト
この話題は、Xでトレンドニュース入りしました。皆さんの反応もまとめられています。是非ご覧下さい。
https://twitter.com/i/trending/2005942300950814959
親父ギャグはユーモア理解の「万能薬」なのかもしれない
One Joke to Rule them All? On the (Im)possibility of Generalizing Humor
https://doi.org/10.48550/arXiv.2508.19402
Mor Turgeman, Chen Shani, Dafna Shahaf
(The Hebrew University of Jerusalem, Stanford University)
LLMのユーモア学習に関して、予想外の発見もなされています。研究者らがLLMに親父ギャグを学習させたところ、親父ギャグを学んだLLMは他のさまざまなタイプのギャグも理解するようになったのです。
親父ギャグには言葉遊びや皮肉、文化的参照など色々な要素が複雑に関係しているからだと考えられています。単純なダジャレに見えて、実は多層的な認知プロセスを必要とするジャンルなのです。
なお、逆方向の知識移転は機能しなかったそうです。親父ギャグ以外のユーモアを学ばせたからといって、親父ギャグを理解するようにはならなかったのです。
このことから、複雑で多様なタイプから単純なタイプへの知識移転は起きやすい一方、その逆は難しいという「ユーモア理解の階層性」が示唆されています。また、Amazonの商品QAに含まれる皮肉やジョークは、単純なギャグと親父ギャグの中間的な複雑さを持つことも実験で確認されています。
Xのポスト
AI研究が示す「笑いの奥深さ」と創造性の関わりに想いを馳せる
一連の研究が示しているのは、LLMのユーモア能力の現状だけではありません。人間にとって「笑い」とは何かという本質的な問いにも光を当てています。
意外性や論理的な構造だけでは人を笑わせることはできません。共感、文化的文脈、そして「わかるわかる」という認識の共有が不可欠です。LLMが苦手としているのはまさにこの部分であり、それは人間のユーモアがいかに社会的で関係性に根ざしたものであるかを逆説的に証明しているのかもしれません。
なお、ユーモア研究から少し引いた目線で見て、LLMと創造性の関わり方に関する研究では、「モデル主導」と「人間主導」でアイデアの質や多様性が変わることが示されています。このようにユーモア生成においても、人間がどこまで介入するかが結果を左右する可能性があります。
LLMが人間を本当に笑わせられる日は来るのでしょうか。現時点では「部分的にはできるが、完全には程遠い」というのが正直なところかもしれません。しかし、その過程で人間の笑いの仕組みがより深く理解されつつあることは、この研究領域の大きな副産物と言えそうです。