AIDB Daily Papers
MentalBench: 大規模言語モデルの精神医学的診断能力を評価するためのベンチマーク
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 大規模言語モデルの精神医学的診断能力を評価するベンチマークMentalBenchを開発した。
- 精神科医が構築した知識グラフMentalKGを用いて、DSM-5に基づいた診断評価を可能にした点が新しい。
- LLMはDSM-5の知識は持つものの、臨床的に類似した疾患の鑑別において課題があることがわかった。
Abstract
We introduce MentalBench, a benchmark for evaluating psychiatric diagnostic decision-making in large language models (LLMs). Existing mental health benchmarks largely rely on social media data, limiting their ability to assess DSM-grounded diagnostic judgments. At the core of MentalBench is MentalKG, a psychiatrist-built and validated knowledge graph encoding DSM-5 diagnostic criteria and differential diagnostic rules for 23 psychiatric disorders. Using MentalKG as a golden-standard logical backbone, we generate 24,750 synthetic clinical cases that systematically vary in information completeness and diagnostic complexity, enabling low-noise and interpretable evaluation. Our experiments show that while state-of-the-art LLMs perform well on structured queries probing DSM-5 knowledge, they struggle to calibrate confidence in diagnostic decision-making when distinguishing between clinically overlapping disorders. These findings reveal evaluation gaps not captured by existing benchmarks.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: