次回の更新記事:AIコーディングエージェントのコスト構造を読み解く(公開予定日:2026年05月26日)
AIDB Daily Papers

AIワークフローはいつリリースすべきか?ブラックボックス生成・検証システムの常に有効な推論

原題: When Should an AI Workflow Release? Always-Valid Inference for Black-Box Generate-Verify Systems
著者: Young Hyun Cho, Will Wei Sun
公開日: 2026-05-13 | 分野: 統計 機械学習 AI アルゴリズム ソフトウェアエンジニアリング cs.AI cs.LG AIエージェント stat.ML stat.ME

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • 本研究は、生成・評価・修正の繰り返しを行うAIワークフローにおいて、いつ結果をリリースすべきかという問題に対処する。
  • 既存の生成・評価パイプラインに常に有効なリリースラッパーを提案し、ブラックボックススコアを保守的な証拠に変換する。
  • コーディングエージェントの事例研究では、不適切な早期リリースを削減しつつ、十分な証拠が集まったタスクでのリリースを実現した。

Abstract

LLM-enabled AI workflows increasingly produce outputs through iterative generate-evaluate-revise loops. Each iteration can improve the candidate, but it also creates a release decision: when to stop and output the current result? This raises a statistical challenge because deployment-time evaluator scores are adaptively generated and repeatedly monitored, yet the likelihood models or exchangeability assumptions typically used for calibration are unavailable. We propose an always-valid release wrapper for existing generator-evaluator pipelines. The wrapper builds a hard-negative reference pool of high-scoring failures, calibrates deployment-time evaluator scores against this pool, and accumulates the resulting evidence with an e-process. This separates two roles: the reference pool turns black-box scores into conservative evidence, while the e-process provides validity under optional stopping. In theory, we show that a conservative reference pool yields finite-sample control of the probability of releasing on infeasible tasks, that is, tasks for which the given workflow is not capable of producing a reliable solution. We also characterize conditions under which the same conservative rule still achieves nontrivial release on feasible tasks. In an MBPP+ coding-agent case study, the wrapper reduces premature incorrect release relative to baseline stopping rules while still releasing on tasks for which the workflow repeatedly accumulates moderate supporting evidence.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事