最新の記事:科学は「研究」と「査読」両方が加速していく AIと…
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

どのLLMが最も長文要約性能が高いのか評価した実験結果 データセットと要約ノウハウも公開

2024.04.15
深堀り解説

LLMは現在、技術的には10万トークン(言語モデルが処理する単位)以上の長文を要約できます。しかし、要約における信頼性などを評価することは難しいと考えられています。

そこで今回研究者らは、LLMが生成した「架空の長編小説」の要約に対し、人間による大規模な評価を初めて実施しました。

背景

要約の品質には大きく分けて2つの評価指標があります。ひとつは「原文の内容を正確に反映しているか」、もうひとつは「重要な内容を適切に含んでいるか」です。

しかし、これまでのLLMによる要約の評価は、一貫性(要約内容が矛盾なく筋道が通っているか)に焦点が当てられてきました。一貫性は自動的に評価できるものであり、逆に信頼性などは人間を雇って評価する必要がある(=多大な費用と時間がかかる)ためです。

今回、複数機関から結成された研究グループは、長編小説の要約における「信頼性」と「内容の重要性(原文の主要なエッセンスを反映している度合い)」に関する人間による大規模な評価を行うことにしました。

実はLLMによる要約は、短編小説、詩、脚本など、物語の分野で研究が進んできました。その中で、LLMが長い文脈を一貫性を持って要約することができることなどが確認されてきました。しかし、それ以上の詳細な評価は今回が初めてだと言います。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能
  • プロンプト管理ツールの利用

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に
  • プロンプト管理ツールの無制限使用

記事検索

年/月/日
年/月/日

関連記事