現役臨床医師グループが作成した電子カルテのデータセットでLLMの臨床性能を評価した結果、GPT-4でも正解率60%にとどまりました。
また指示文の長さが短くなると、精度が低くなるとのこと。
スタンフォードなどによる報告です。
○ Scott L. Fleming et al. MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records
臨床医は患者との対話ではなく、コンピュータとの対話に日々の49%を費やしているとの背景があるようです。
そこで臨床医グループはLLMに期待を寄せるべく、臨床における性能を検証し、その結果、今後の課題が見えてきました。
主な研究報告は以下のとおりです。
■実験に使用したデータセット
① 7つの専門分野における15人の臨床医グループが自ら作成した
② 分野横断的な983の指示と模範的な専門的回答を含む
③ 構造化データと非構造化データの両方がある
■実験対象とされたLLM
① GPT-4
② Vicuña-7B、13B
③ MPT-7B-Instruct
■実験結果
① 最もパフォーマスが高かったのはGPT-4で、しかし正解率60.1%
② 最もパフォーマスが低かったのはMPT-7B-Instructで、正解率31.7%
③ GPT-4のコンテキスト長が32kから2kに減少すると、精度が8.3%低下した
■考察
① 低い正解率が報告されているため、さらなる改善が必要
② 医療分野でのLLMの有用性と限界を理解する地道な取り組みが重要
このような既存の一般的LLMが不十分なスコアを出す「辛口」なベンチマークデータセットを使用して、厳しい評価に耐えうる優れたモデルを開発していけるといいかもしれませんね。