GPT-4レベルの質問応答タスク性能をオープンソースモデルのLlama 2で実現する方法が、NVIDIAより発表されました。
長文ドキュメントに基づいてユーザーの問いに答える能力でGPT-3.5より遥かに勝る結果が示されています。
“ChatQA: Building GPT-4 Level Conversational QA Models”
■研究背景
– 質問応答はLLMで最も重要なタスクの一つだ
– 優れたゼロショット性能が大事である
– 高精度を実現するモデルを作りたい
■方法論
以下のような2段階の指示チューニングを行う
1. 教師ありファインチューニング
(supervised fine-tuning)
2. 文脈強化インストラクションチューニング
(context-enhanced instruction tuning)
■実験と結果
1. Llama-2を調整して「ChatQA」モデルを作成した
2. 長文ドキュメントに基づくQAタスクで評価した
3. GPT-3.5の性能を遥かに上回った
4. GPT-4とは同等と言えるレベルだった
なお、細かいタスクによって性能がばらついていることには注意が必要です。