AIDB Daily Papers
LLM大喜利対決:大規模言語モデルのユーモアセンスを徹底評価
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 大規模言語モデル(LLM)のユーモア理解度を、人間参加型ゲーム「Cards Against Humanity」で検証した。
- LLMは人間よりも相互に類似した回答をする傾向があり、その背景に構造的なバイアスやコンテンツの偏りが示唆された。
- LLMのユーモア判断は、真の好みではなく、推論やアラインメントの構造的アーチファクトを反映している可能性がある。
Abstract
Humor is one of the most culturally embedded and socially significant dimensions of human communication, yet it remains largely unexplored as a dimension of Large Language Model (LLM) alignment. In this study, five frontier language models play the same Cards Against Humanity games (CAH) as human players. The models select the funniest response from a slate of ten candidate cards across 9,894 rounds. While all models exceed the random baseline, alignment with human preference remains modest. More striking is that models agree with each other substantially more often than they agree with humans. We show that this preference is partly explained by systematic position biases and content preferences, raising the question whether LLM humor judgment reflects genuine preference or structural artifacts of inference and alignment.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: