次回の更新記事:MCPサーバー1万件調査 約7件に1件は「説明書どおり…(公開予定日:2026年03月06日)

医療LLMの性能限界:GPT-4正解率60%

医療(医療AI、診断支援、臨床応用)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

現役臨床医師グループが作成した電子カルテのデータセットでLLMの臨床性能を評価した結果、GPT-4でも正解率60%にとどまりました。
また指示文の長さが短くなると、精度が低くなるとのこと。
スタンフォードなどによる報告です。

○ Scott L. Fleming et al. MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records

臨床医は患者との対話ではなく、コンピュータとの対話に日々の49%を費やしているとの背景があるようです。

そこで臨床医グループはLLMに期待を寄せるべく、臨床における性能を検証し、その結果、今後の課題が見えてきました。

主な研究報告は以下のとおりです。

■実験に使用したデータセット
① 7つの専門分野における15人の臨床医グループが自ら作成した
② 分野横断的な983の指示と模範的な専門的回答を含む
③ 構造化データと非構造化データの両方がある

■実験対象とされたLLM
① GPT-4
② Vicuña-7B、13B
③ MPT-7B-Instruct

■実験結果
① 最もパフォーマスが高かったのはGPT-4で、しかし正解率60.1%
② 最もパフォーマスが低かったのはMPT-7B-Instructで、正解率31.7%
③ GPT-4のコンテキスト長が32kから2kに減少すると、精度が8.3%低下した

■考察
① 低い正解率が報告されているため、さらなる改善が必要
② 医療分野でのLLMの有用性と限界を理解する地道な取り組みが重要

このような既存の一般的LLMが不十分なスコアを出す「辛口」なベンチマークデータセットを使用して、厳しい評価に耐えうる優れたモデルを開発していけるといいかもしれませんね。

📄 参照論文

論文:https://t.co/XnN4t0lct9

関連記事