AIDB Daily Papers
LLMエージェントにおけるスキル利用可能性と提示粒度の影響:SkillsBenchを用いた制御実験
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 本研究では、LLMエージェントがタスクを成功させるために、スキルの提示方法の粒度がどのように影響するかを検証した。
- スキルが利用可能であることはタスク成功率を大幅に向上させるが、提示粒度の変更による効果は小さく、モデル依存的であることが示された。
- GPT-5.5とDeepSeek V4-Flashを用いた実験では、スキルの有無が成功率に最も大きく影響し、提示粒度の違いによる差は限定的であった。
Abstract
Skill documents provide procedural knowledge to large-language-model agents at inference time. This article studies whether the presentation granularity of controlled skill knowledge changes downstream task success. The experiment uses a pinned SkillsBench version, a 30-task domain-balanced subset validated by official oracle runs, two reasoning-enabled model configurations, six skill conditions, and five trials per task-condition-model cell. Skill availability is the clearest empirical signal. Relative to no skill, skill conditions increase task-mean pass rate by 26.7 to 36.0 percentage points for GPT-5.5 and by 18.0 to 26.0 percentage points for DeepSeek V4-Flash. The final data contain 1,800 rows, with 900 rows for each model. The task is the inference unit. Five trials are aggregated within each task-condition-model cell before paired contrasts are estimated over 30 tasks. The primary presentation contrasts are smaller and uncertain. Low-abstraction guidance differs from high-abstraction guidance by +0.7 percentage points for GPT-5.5 and -6.7 percentage points for DeepSeek V4-Flash, with both 95% bootstrap confidence intervals crossing zero. Adding one worked example to medium-abstraction guidance differs from the no-example variant by +0.7 and +1.3 percentage points. Mean-reward robustness checks preserve the same substantive conclusion. In this controlled subset, skill availability is associated with higher success than no skill, while the tested presentation-granularity changes yield small, uncertain, and model-dependent effects.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: