最新の記事:科学は「研究」と「査読」両方が加速していく AIと…
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

LLMのプロンプトに数百から数千の例を含める超長尺のコンテキスト内学習(In-context learning)とファインチューニングの性能比較

2024.05.08
深堀り解説

LLMを利用する中でIn-context learning(ICL、コンテキスト内学習)が注目されています。モデルに例示を与えるだけで、追加の学習なしに様々なタスクをこなせるようにする手法です。

これまでコンテキスト内学習は、短いコンテキスト(入力の長さ)が前提となっており、利用できる例示の数が限られていました。ところが最近、超長尺のコンテキストを扱えるモデルが次々と開発され、状況は一変し、性能向上の可能性が広がりました。

そこで研究チームは、大規模なコンテキスト内学習の性能を評価し、特性を探ることに挑戦しています。

参照論文情報

  • タイトル:In-Context Learning with Long-Context Models: An In-Depth Exploration
  • 著者:Amanda Bertsch, Maor Ivgi, Uri Alon, Jonathan Berant, Matthew R. Gormley, Graham Neubig
  • 所属:Carnegie Mellon University, Tel Aviv University

背景

コンテキスト内学習とは、LLMに対して、タスクの例示をプロンプトとして与えることで、タスクを学習させる手法のことです。実装が簡単で計算コストが低く、汎用的なモデルを様々なタスクに適用できるため、近年注目を集めています。

しかし冒頭で述べた通り、これまでのコンテキスト内学習に関する研究の多くは、短いコンテキスト長(モデルが一度に処理できる入力の長さ)のモデルに焦点を当てており、例示の数が限られていました。そのため、コンテキスト内学習では大規模なデータを利用することができず、性能に限界がありました。

ところが最近では、極端に長いコンテキストウィンドウに適応できる言語モデルが次々と開発されています。大量のデータをコンテキスト内学習で直接利用できるようになり、ファインチューニング(モデルを追加学習させること)の代替手段としても期待されるようになりました。

そこで研究者らは、超長尺コンテキストでのコンテキスト内学習の性質や、大量のデータを用いた場合のコンテキスト内学習とファインチューニングの性能を比較することにしました。これまでほとんど理解されていなかった、大規模コンテキスト内学習の特性を明らかにしたいと考えています。

なお、これまでにもコンテキスト内学習の性質を調べた先行研究はいくつかあり、例示の選択戦略が重要であることや、コンテキスト内学習がタスク認識とタスク学習の2つのモードで機能しているという指摘などがされています。
その中で、コンテキスト内学習とファインチューニングの比較は(実用上重要な意義があるにもかかわらず)あまり行われてきませんでした。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能
  • プロンプト管理ツールの利用

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に
  • プロンプト管理ツールの無制限使用

記事検索

年/月/日
年/月/日

関連記事