AIエージェントはどんどん賢くなっており、人間より賢くなった際に自分自身の目的を持つ可能性があるため安全に保つ方法を今から考える必要があるとのこと。
最先端モデルのリリース前評価を任せられているApollo Researchの研究者などによる報告。
AIの賢さを5段階に分けて考えると、いまは
1と2の間にいるそうです。一部の高度なモデルは自分の本当の考えを隠すような振る舞いを見せ始めています(=レベル2)。
レベル3に達する前に制御方法を確立するべきであり、今の急速な発展スピードを考えると余裕はあまりないとの主張。
なお、今より賢いAIが出てきた際に安全かを確かめるためには同じくらいの賢いAIが必要になりますが、そこが大変難しい点だと述べられています。
📄 参照論文
How to evaluate control measures for LLM agents? A trajectory from today to superintelligence