ハーバード大学医学部などの研究者たちが、医学界で100年以上続いている有名な手法を使って、最新のLLMが医師と比べてどれくらい診断能力があるかを調べたところ、複雑な症例の診断において最新のモデルは既に人間の医師を大きく上回っていることが分かりました。
内科医が正解を当てる確率が半分以下だった難しい症例を含め、LLMは8割以上の確率で正解。
また、LLMが書いた診断の考察文を医師に見せたところ、それが人間が書いたものかLLMが書いたものか、医師たちはほとんど見分けることができませんでした。
むしろ多くの場合、LLMが書いた文章の方が質が高いと評価されたのです。
ただし、LLMにも弱点があることも明らかになりました。画像だけから診断する能力はまだ限られており、医学文献を正確に検索する能力も限定的です。
医師の役割がどう変わっていくかという重要な問いにつながるような研究結果です。
📄 参照論文
Advancing Medical Artificial Intelligence Using a Century of Cases
所属: Harvard Medical School, Beth Israel Deaconess Medical Center, Brigham and Women’s Hospital