LLMに”精神症の診断”をさせる際には「答えは1つだけ」といった制約を加えると、劇的に成績が向上するそうです。
モデルは教科書的な知識をしっかり持っていますが、診断を自発的に絞り込むのは苦手。
このように答えの数をあえて限定する方が改善するのはあらゆるモデルに共通していたとのこと。
また、とくに慎重でないタイプのモデル(オープンソースに多い)は「念のため全部挙げておこう」と候補を出しすぎて、不要な診断を加えてしまう傾向にあることも分かっています。
なお、大変重要なことに、いずれのモデルも統合失調感情障害や精神病性特徴を伴う双極性障害などは、正答率が極端に低くなることが判明しています。
これまでAIの研究であまり評価対象にならず、訓練が足りていないのだと言います。
この調査結果は精神科医とAIの研究者たちが共同で発表しています。