ユーザー指示が曖昧な時に、LLM側が確認を行うエージェントアーキテクチャ『Mistral-Interact』の仕組みとコードが発表されています。
実験では、タスクの曖昧さを判断して積極的にコミュニケーションをとり、意図を96%正確に読み取ることができたと述べられています。
リポジトリは商用利用可能なApache License 2.0での公開です。
“Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents”より
■研究背景
– LLMへのユーザー指示は曖昧だったり簡潔すぎたりする
– モデルがタスクを実行したとしても意図とずれることがある
– 現行のシステムはユーザーが明確な指示を出すことを前提としている
■今回の研究開発内容
– ユーザー指示の曖昧さを評価するベンチマーク「IN3」を作成
– モデルが曖昧さの評価をもとにユーザーに詳細を問い合わせる仕組みを構築
– 実装に使用されているモデルはMistral-7B
→アーキテクチャ全体を『Mistral-Interact』と命名
■アーキテクチャの性能実験結果
– Mistral-Interactはユーザー指示の意図を96%以上正確に要約する能力を示した
– その結果、余分な実行を節約し、外部ツールの呼び出し回数を減らすことができた
– 限られた実験条件ではあるが、GPT-4に匹敵するユーザー理解性能を示した
なお、基盤モデルを入れ替えることは理論上可能のようです。