どのLLMが最も長文要約性能が高いのか評価した実験結果 データセットと要約ノウハウも公開

   
★AIDB会員限定Discordを開設いたしました! ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします!↓

LLMは現在、技術的には10万トークン(言語モデルが処理する単位のこと)以上の長文を要約できます。しかし、要約における信頼性などを評価することは難しいと考えられています。

そこで今回Adobeなどの研究者らは、LLMが生成した「架空の長編小説」の要約に対し、人間による大規模な評価を初めて実施しました。


AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

参照論文情報

  • タイトル:FABLES: Evaluating faithfulness and content selection in book-length summarization
  • 著者:Yekyung Kim, Yapei Chang, Marzena Karpinska, Aparna Garimella, Varun Manjunatha, Kyle Lo, Tanya Goyal, Mohit Iyyer
  • 所属:UMass Amherst, Adobe, Allen Institute for AI, Princeton

背景

要約の品質には大きく分けて2つの評価指標があります。ひとつは「原文の内容を正確に反映しているか」、もうひとつは「重要な内容を適切に含んでいるか」です。

しかし、これまでのLLMによる要約の評価は、一貫性(要約内容が矛盾なく筋道が通っているか)に焦点が当てられてきました。一貫性は自動的に評価できるものであり、逆に信頼性などは人間を雇って評価する必要がある(=多大な費用と時間がかかる)ためです。

今回、複数機関から結成された研究グループは、長編小説の要約における「信頼性」と「内容の重要性(原文の主要なエッセンスを反映している度合い)」に関する人間による大規模な評価を行うことにしました。

実はLLMによる要約は、短編小説、詩、脚本など、物語の分野で研究が進んできました。その中で、LLMが長い文脈を一貫性を持って要約することができることなどが確認されてきました。しかし、それ以上の詳細な評価は今回が初めてだと言います。

本記事を読むにはAIDBのアカウントが必要です。


※ログイン/初回登録後、下記ボタンを押してください。







■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






業界/カテゴリー

PAGE TOP