次回の更新記事:良いREADMEを書けているかLLMで自動検証・改善する方…(公開予定日:2026年03月06日)

LLMが戦略的にプロンプトを最適化するPromptAgent

プロンプト(プロンプトエンジニアリング、few-shot、in-context learning)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

専門家レベルのプロンプトを自動作成する『PromptAgent(プロンプトエージェント)』が開発されました。

様々なタスク、複数のLLMで性能が検証できています。
広いプロンプト空間をエージェントが探索し効果的な解に辿り着く仕組みとのこと。

カリフォルニア大学やMicrosoftの研究者らによる発表です。

@ Xinyuan Wang et al., “PromptAgent: Strategic Planning with Language Models Enables Expert-level Prompt Optimization”

特定のタスクをLLMに実行させるプロンプトは専門家によって依然として手作りされていますが、やはり自動生成が望まれています。

既存のプロンプト最適化手法は、専門家レベルのプロンプトを効率的に探索する能力に欠けています。

そこで研究者らはプロンプト最適化を「計画問題」だと捉え、エラーの検出と修正を繰り返す手法『PromptAgent』を発明しました。

■『PromptAgent』の特徴
① 建設的なエラーフィードバックを活用
② 各バージョンのプロンプトを精緻化する
③ プロンプト空間を木構造で系統的に拡大する
(モンテカルロ木探索)

■性能の検証実験
① 12のタスクにPromptAgentを適用
② 三つの実用的なドメイン(BIG-Bench Hard、ドメイン固有のNLPタスク、一般的なNLPタスク)で評価

■実験結果
① 人間とAutomatic Prompt Engineer(APE)のベースラインを一貫して上回る
② パフォーマンスの向上率は、APEに対してGPT-3.5で9.1%、GPT-4で7.7%、PaLM 2で6%
③ 人間のプロンプト(ZS)、CoTに対してそれぞれ28.9%、9.5%の相対的な改善を達成した

※APEとは、プロンプト最適化の最先端手法の一つ

■実装ロジック
① 下記を用意する
・初期の自然言語タスクプロンプト
・ターゲットタスク
・小さなトレーニングサンプルセット
② 各バージョンのプロンプトをエラーフィードバックに基づいて精緻化する
③ プロンプトに対する修正アクションを生成
(単語の置き換えや言い換えなども考慮する)
④ プロンプト空間を木構造で成長させる
⑤ 高報酬の経路を優先してプロンプト空間を探索

■注意点
PromptAgentの効果は、使用する基本モデル(例:GPT-3.5, GPT-4, PaLM 2)に依存する可能性があります。

📄 参照論文

論文情報と関連研究

関連記事