AIエージェントを業務に組み込もうとして、似た経験をした人は多いかもしれません。デモでは完璧に動いたのに、本番で回し始めたら無限ループに陥る。ツール呼び出しが止まらずコストが跳ね上がる。承認なしで触ってほしくないファイルを書き換えてしまう。ログを遡ろうにも、どこで何が起きたのかが追えない。
こうした失敗は、モデルの知能が足りないせいに見えがちです。ところが最近の議論では、原因はもっと別のところにあると指摘されています。モデル単体は優秀な頭脳ですが、「何にアクセスしていいか」「どこまで自動で動いてよいか」「失敗したときにどう立て直すか」といった運用上のルールは、モデル自身の中には入っていません。その空白を埋める層をきちんと設計しないと、どんなに賢いモデルを載せても実運用では転ぶ、という話です。

この空白を埋める層に「ハーネス」という名前をつけて、設計の焦点として扱い直そうとする流れが出てきています。OpenAIがCodexのエンジニアリング議論の中で使い始めた言葉で、素のモデル能力を信頼できる挙動へ変換するための「足場」を指します。
本記事では、サーベイ研究を取り上げ、エージェント開発の現場で実際に何を設計すべきなのかを6つの観点から見ていきます。