プロンプトを工夫した基盤モデル(GPT-4)の性能は、専門的な知識でトレーニングを行った特化型モデルよりも高いことが、医学分野で示されました。
Microsoftの研究者らによる発表です。
– Harsha Nori et al., “Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine”
論文によると、これまでGPT-4などの基盤モデルは、医学などの専門分野で特化モデルには敵わないと考えられてきました。
しかし、「実際はどうなのか?」と考えた研究者らは、特別なトレーニングなしのGPT-4が、プロンプトの工夫のみでどこまで性能を示すのかを検証しました。
■研究デザイン
① プロンプトフレームワーク「Medprompt」を考案
② 「Medprompt」をGPT-4に適用し実験
③ 結果を詳細に分析
■「Medprompt」フレームワーク
① 特定の問題に答えさせる前に、似たような質問の例を見せる
② モデル自身に答えと推論プロセスの両方を考えさせる
③ 複数選択肢がある問題で、回答の順番をバラバラにして、順序のバイアスを取り除く
■実験の結果
① アメリカの医学試験「US (4-option)」で90.2%という高い正解率を出した
② 理由付けが必要なタイプの問題データセットPubMedQAで82.0%の正解率を達成
→専門的なトレーニングを受けた他のモデルよりも優れた成績を収めた
■注意点
① 医学以外でも同様の傾向が出るかは検証が必要
② 実際の現場での使用に耐えうるデータの質と量をカバーしているかは確認が必要
③ 推論の正確さに関する根拠も重要
④ 医学などの倫理的な問題が大きい分野での使用は慎重になるべき
本研究結果は、複雑で専門的な問題に対しての最適なアプローチが必ずしも「専門知識による再トレーニング」だけではないことを示唆しています。
プロンプトの工夫によっていかに基盤モデルを有効活用するかが本分野における一つのポイントになるかもしれません。