どのLLMが最も長文要約性能が高いのか評価した実験結果データセットと要約ノウハウも公開

どのLLMが最も長文要約性能が高いのか評価した実験結果　データセットと要約ノウハウも公開

LLMは現在、技術的には10万トークン（言語モデルが処理する単位）以上の長文を要約できます。しかし、要約における信頼性などを評価することは難しいと考えられています。

そこで今回Adobeなどの研究者らは、LLMが生成した「架空の長編小説」の要約に対し、人間による大規模な評価を初めて実施しました。

参照論文情報

タイトル：FABLES: Evaluating faithfulness and content selection in book-length summarization

著者：Yekyung Kim, Yapei Chang, Marzena Karpinska, Aparna Garimella, Varun Manjunatha, Kyle Lo, Tanya Goyal, Mohit Iyyer

要約の品質には大きく分けて2つの評価指標があります。ひとつは「原文の内容を正確に反映しているか」、もうひとつは「重要な内容を適切に含んでいるか」です。

しかし、これまでのLLMによる要約の評価は、一貫性（要約内容が矛盾なく筋道が通っているか）に焦点が当てられてきました。一貫性は自動的に評価できるものであり、逆に信頼性などは人間を雇って評価する必要がある（＝多大な費用と時間がかかる）ためです。

今回、複数機関から結成された研究グループは、長編小説の要約における「信頼性」と「内容の重要性（原文の主要なエッセンスを反映している度合い）」に関する人間による大規模な評価を行うことにしました。

実はLLMによる要約は、短編小説、詩、脚本など、物語の分野で研究が進んできました。その中で、LLMが長い文脈を一貫性を持って要約することができることなどが確認されてきました。しかし、それ以上の詳細な評価は今回が初めてだと言います。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

AIDBは、論文などの文献に基づいてAIの科学技術や市場にキャッチアップするためのサービスです。個人の研究や仕事探し、法人の調査や採用を支援します。2019年から運営しています。