次回の更新記事:オープンモデルなのにClaudeなどに匹敵するとされる…(公開予定日:2026年06月25日)
AIDB Daily Papers

LLMパイプラインを自律的に最適化するFAPO:構造変更も可能な次世代手法

原題: FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines
著者: Paul Kassianik, Baturay Saglam, Huaibo Zhao, Blaine Nelson, Supriti Vijay, Aman Priyanshu, Amin Karbasi
公開日: 2026-06-17 | 分野: LLM 自動化 cs.AI cs.SE パイプライン AI支援

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • LLMパイプラインの性能低下原因を特定し、プロンプト編集だけでなく構造変更も行う自律最適化フレームワークFAPOを提案した。
  • 従来のプロンプト最適化手法では見逃されがちなパイプライン間の相互作用によるボトルネックを、中間ステップの検査と構造変更により解決する点が重要である。
  • 6つのベンチマークと3つのタスクモデルで、ベースライン手法GEPAを大きく上回る性能を示し、特に構造変更を伴うケースで顕著な改善が見られた。

Abstract

Multi-step LLM pipelines fail through interactions among retrieval, reasoning, and formatting steps, so prompt-only optimization can miss bottlenecks in the chain. We present FAPO (Fully Autonomous Prompt Optimization), a framework that lets Claude Code optimize an LLM pipeline inside a standardized codebase. FAPO evaluates a pipeline, inspects intermediate steps, diagnoses failures, proposes scoped changes, and validates variants repeatedly to optimize against a score function. It first tries prompt edits and, only when prompt optimization appears insufficient, changes chain structure within the permitted scope when attribution identifies a structural bottleneck. Across six benchmarks and three task models, FAPO beats the baseline GEPA in 15 of 18 model-benchmark comparisons. In 11 model-benchmark comparisons, FAPO wins with non-overlapping mean $pm$ trial-standard-deviation ranges, and the mean FAPO-GEPA gain is +14.1 pp. In the six HoVer and IFBench comparisons where prompt-first search escalated to structural changes, FAPO wins all six with a mean gain of +33.8 pp. FAPO also improves performance on security tasks: on CTIBench-RCM, a security CVE-to-CWE task, prompt-only FAPO lifts test accuracy by +4.0 pp on GPT-5, +7.1 pp on Foundation-Sec-8B-Instruct, and +2.0 pp on Foundation-Sec-8B-Reasoning. These results position FAPO as a state-of-the-art pipeline optimization technique for both general-purpose and security-focused tasks.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事