LLMに「この単語を使うな」のような指示を出すと、最終的な答えではちゃんと従えるのに、思考過程ではほぼ従えない(成功率が数%以下のことも多い)という現象が確認されました。わざわざ「思考過程でも使わないで」と指示しても同じです。
モデルが大きいほど制御できる傾向もありますが、推論時間を長く取ったり、難しい問題を解かせたりすると、この現象はどんどん色濃くなるそうです。
とはいえ、制御できないなら、悪意や危ない計画を思考過程に書き出してしまい外から読んで検知できるため、良いことでもあります。AIが裏で良からぬことを企んでも、思考過程に出てしまうので検知できる。さらに、監視されてると気づいたAIが取り繕おうとしてもうまくいかない、ということだからです。
OpenAI等の研究者らによる報告。