LLMは現在、技術的には10万トークン(言語モデルが処理する単位)以上の長文を要約できます。しかし、要約における信頼性などを評価することは難しいと考えられています。
そこで今回Adobeなどの研究者らは、LLMが生成した「架空の長編小説」の要約に対し、人間による大規模な評価を初めて実施しました。
重要なお知らせ:AI分野のお仕事マッチングサービス「AIDB HR」を開始しました!登録後はオファーを受け取るだけのシンプルなサービスです!現在、期間限定で、ギフト券が必ずもらえる新規登録キャンペーンも行っています。
参照論文情報
- タイトル:FABLES: Evaluating faithfulness and content selection in book-length summarization
- 著者:Yekyung Kim, Yapei Chang, Marzena Karpinska, Aparna Garimella, Varun Manjunatha, Kyle Lo, Tanya Goyal, Mohit Iyyer
- 所属:UMass Amherst, Adobe, Allen Institute for AI, Princeton
背景
要約の品質には大きく分けて2つの評価指標があります。ひとつは「原文の内容を正確に反映しているか」、もうひとつは「重要な内容を適切に含んでいるか」です。
しかし、これまでのLLMによる要約の評価は、一貫性(要約内容が矛盾なく筋道が通っているか)に焦点が当てられてきました。一貫性は自動的に評価できるものであり、逆に信頼性などは人間を雇って評価する必要がある(=多大な費用と時間がかかる)ためです。
今回、複数機関から結成された研究グループは、長編小説の要約における「信頼性」と「内容の重要性(原文の主要なエッセンスを反映している度合い)」に関する人間による大規模な評価を行うことにしました。
実はLLMによる要約は、短編小説、詩、脚本など、物語の分野で研究が進んできました。その中で、LLMが長い文脈を一貫性を持って要約することができることなどが確認されてきました。しかし、それ以上の詳細な評価は今回が初めてだと言います。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。