次回の更新記事:今週の注目AI論文リスト(論文公開日2026/4/26~5/2)(公開予定日:2026年05月02日)
AIDB Daily Papers

指示の複雑さがLLM評価における位置的崩壊を誘発する

原題: Instruction Complexity Induces Positional Collapse in Adversarial LLM Evaluation
著者: Jon-Paul Cacioli
公開日: 2026-04-29 | 分野: LLM 機械学習 AI 自然言語処理 cs.CL cs.AI

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • 指示の複雑さがLLMの回答戦略に影響を与え、内容理解ではなく位置的ショートカットに依存させることを明らかにした。
  • 曖昧な指示では内容への関与が保たれるが、複雑な指示ではモデルは特定の回答位置に極端に集中する。
  • この研究は、LLMの敵対的評価において、指示の複雑さが内容依存型か内容盲検型かのメカニズムを決定することを示唆している。

Abstract

When instructed to underperform on multiple-choice evaluations, do language models engage with question content or fall back on positional shortcuts? We map the boundary between these regimes using a six-condition adversarial instruction-specificity gradient administered to two instruction-tuned LLMs (Llama-3-8B and Llama-3.1-8B) on 2,000 MMLU-Pro items. Distributional screening (response-position entropy) and an independent content-engagement criterion (difficulty-accuracy correlation) jointly characterise each condition. The gradient reveals three regimes rather than a monotonic transition. Vague adversarial instructions produce moderate accuracy reduction with preserved content engagement. Standard sandbagging and capability-imitation instructions produce positional entropy collapse with partial content engagement. A two-step answer-aware avoidance instruction produces extreme positional collapse, with near-total concentration on a single response position (99.9% and 87.4%) and no measurable content sensitivity. This was the only multi-step instruction tested, and it produced the most extreme shortcut. The attractor position matches each model's content-absent null-prompt default. The effect replicates across both models and four academic domains. Distributional collapse and content engagement can co-occur (50% concordance between screening criteria), indicating that entropy-based screening and difficulty-based content assessment capture partially independent dimensions of response validity. Results suggest that instruction complexity can determine whether adversarial compliance uses content-aware or content-blind mechanisms in small instruction-tuned LLMs under greedy decoding.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事