AIDB Daily Papers
大規模言語モデルは臨床評価のために人間の話し方を模倣できるか?認知スコア予測のためのLLM駆動データ拡張
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 本研究では、音声からの認知スコア予測精度向上のため、LLMを用いたデータ拡張フレームワークを提案した。
- 既存の音声データセットの限界とクラス不均衡問題を、意味的に類似した合成音声データを生成することで克服する点が新規的である。
- 意味的に誘導されたLLM駆動データ拡張は、クラス不均衡に対処し、臨床音声分析におけるデータ効率を向上させる可能性を示した。
Abstract
Accurate assessment of cognitive decline from spontaneous speech remains challenging due to limited dataset size and class imbalance. In this work, we propose a large language model (LLM)-driven data augmentation framework to improve the prediction of cognitive scores from speech. Experiments are conducted on a Japanese corpus in which each participant provides both a spontaneous oral narrative and a written response to the same clinical prompt. The written responses serve as semantic anchors to generate multiple oral-like monologues in different styles using GPT-5. We then predict Hasegawa Dementia Scale scores, a widely used cognitive screening tool in Japan, using a Partial Least Squares regression model trained on Sentence-BERT speech embeddings. We investigate two augmentation strategies: random class-balanced selection, which yields moderate but unstable improvements, and similarity-guided class-balanced selection. The latter prioritizes semantically close synthetic samples, leading to more consistent improvements and substantially reducing prediction error for minority low-score participants while maintaining performance for the majority group. Overall, our findings demonstrate the potential of semantically guided LLM-driven augmentation as a principled approach for addressing class imbalance and improving data efficiency in clinical speech analysis.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: