ドラマの脚本の続きをLLMに書かせたところ、それぞれに得意分野があることが分かったそう。
GPT-5.2は物語の進行能力に優れ、Qwen3-Maxは感情表現に優れ、Gemini-3-Proは葛藤の扱いが得意でした。
Claude Opus 4.5は感情表現以外が優れていたとのこと。
評価基準は以下の6つ。
1. フォーマットを正しく守れるか
2. 物語がどれだけ効率的に進行しているか
3. キャラの一貫性
4. 感情表現は豊かか
5. 矛盾はないか
6. 葛藤を上手く扱えているか
(フォーマットを正しく守る力はすべてのモデルが完璧だったそうです)
全てに優れたモデルは存在せず、このように多面的に見ることの重要さが浮き彫りに。
📄 参照論文
DramaBench: A Six-Dimensional Evaluation Framework for Drama Script Continuation
所属: University of Macau, University College London