Llama 2でGPT-4級QA「ChatQA」モデル

2024.01.24

学習手法（ファインチューニング、RLHF、事前学習、instruction tuning）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

GPT-4レベルの質問応答タスク性能をオープンソースモデルのLlama 2で実現する方法が、NVIDIAより発表されました。
長文ドキュメントに基づいてユーザーの問いに答える能力でGPT-3.5より遥かに勝る結果が示されています。

“ChatQA: Building GPT-4 Level Conversational QA Models”

■研究背景
– 質問応答はLLMで最も重要なタスクの一つだ
– 優れたゼロショット性能が大事である
– 高精度を実現するモデルを作りたい

■方法論
以下のような２段階の指示チューニングを行う
1. 教師ありファインチューニング
（supervised fine-tuning）
2. 文脈強化インストラクションチューニング
（context-enhanced instruction tuning）

■実験と結果
1. Llama-2を調整して「ChatQA」モデルを作成した
2. 長文ドキュメントに基づくQAタスクで評価した
3. GPT-3.5の性能を遥かに上回った
4. GPT-4とは同等と言えるレベルだった

なお、細かいタスクによって性能がばらついていることには注意が必要です。

参照情報：

📎 論文を読む（arxiv.org）

こちらもどうぞ