
LLMエージェントの性能を高める手段として、過去の試行から抽出した手順書(スキル)を実行時に参照させる方法が広がっています。スキルは一度作れば、どのモデルにも流用できる共有資産と考えられてきました。
ところが、同じスキルがあるモデルの成績を引き上げる一方で、別のモデルでは明確に引き下げる現象が報告されました。検証対象の中には、何も与えないのが最も高性能というモデルさえありました。
丁寧に書いた指示書がなぜ裏目に出るのでしょうか。モデルごとの相性を見極め、書き換えまで自動化する方法を見ていきます。