AIDB Daily Papers
感情AI:音声感情認識と生成推論を統合したプライバシー保護型会話分析パイプライン
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 音声感情認識(SER)と生成推論を組み合わせた、ローカルで動作する計算知能(CI)パイプラインを開発しました。
- 本研究は、SERの最先端技術ではなく、不完全な感情証拠を根拠のある会話分析に統合し、プライバシーを保護する監査可能なシステムを構築した点が重要です。
- ローカルLLMパネルによる質問応答は、CPUでリアルタイム(約1.33倍速)で実行され、外部呼び出しなしで動作しますが、感情認識の精度には課題が残ることが示されました。
Abstract
Reviewing recorded interviews for affective cues such as composure, hesitation and agitation is slow and subjective, and cloud services that could automate it require sensitive audio to leave the device. EmotionAI is a fully local Computational Intelligence (CI) pipeline that couples Speech Emotion Recognition (SER) with generative reasoning. Speaker diarisation, Whisper Automatic Speech Recognition (ASR) and a wav2vec2 emotion classifier produce per-segment affective evidence, which is then passed to an adversarial three-model local Large Language Model (LLM) panel for timestamp-grounded and citation-constrained question answering. Zero-shot evaluation on the RAVDESS four-class English subset (n = 672) exposes cross-corpus fragility rather than classifier superiority: the deployed classifier scores 48.8% accuracy, above random (24.9%) and majority (28.6%) baselines but below an in-domain MFCC + logistic-regression comparator (71.0%). The complete pipeline runs in a mean 157 s on CPU (real-time factor approximately 1.33) with zero external calls. The contribution is not state-of-the-art SER but an auditable, privacy-preserving integration of imperfect affective evidence into grounded conversational analysis, together with an honest empirical account of where cross-corpus transfer and human-centred validation still fall short.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: