LLMエージェントの制御評価：超知能への道筋

2025.04.08

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

AIエージェントはどんどん賢くなっており、人間より賢くなった際に自分自身の目的を持つ可能性があるため安全に保つ方法を今から考える必要があるとのこと。

最先端モデルのリリース前評価を任せられているApollo Researchの研究者などによる報告。

AIの賢さを5段階に分けて考えると、いまは
1と2の間にいるそうです。一部の高度なモデルは自分の本当の考えを隠すような振る舞いを見せ始めています（＝レベル2）。

レベル3に達する前に制御方法を確立するべきであり、今の急速な発展スピードを考えると余裕はあまりないとの主張。

なお、今より賢いAIが出てきた際に安全かを確かめるためには同じくらいの賢いAIが必要になりますが、そこが大変難しい点だと述べられています。

How to evaluate control measures for LLM agents? A trajectory from today to superintelligence

著者: Tomek Korbak, Mikita Balesni, Buck Shlegeris, Geoffrey Irving

関連記事