次回の更新記事:今週の注目AI論文リスト(論文公開日2026/2/1~2/7)(公開予定日:2026年02月08日)
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

LLMの得意分野判明:ドラマ脚本の多角的評価

評価・ベンチマーク(モデル評価、ベンチマーク、性能測定)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

ドラマの脚本の続きをLLMに書かせたところ、それぞれに得意分野があることが分かったそう。

GPT-5.2は物語の進行能力に優れ、Qwen3-Maxは感情表現に優れ、Gemini-3-Proは葛藤の扱いが得意でした。
Claude Opus 4.5は感情表現以外が優れていたとのこと。

評価基準は以下の6つ。
1. フォーマットを正しく守れるか
2. 物語がどれだけ効率的に進行しているか
3. キャラの一貫性
4. 感情表現は豊かか
5. 矛盾はないか
6. 葛藤を上手く扱えているか
(フォーマットを正しく守る力はすべてのモデルが完璧だったそうです)

全てに優れたモデルは存在せず、このように多面的に見ることの重要さが浮き彫りに。

📄 参照論文

DramaBench: A Six-Dimensional Evaluation Framework for Drama Script Continuation

著者: Shijian Ma, Yunqi Huang, Yan Lin

所属: University of Macau, University College London

関連記事