SF学習でLLMの倫理観・安全性向上

2025.03.17

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

SF映画やSF小説は、AIが陥るかもしれない間違った考え方を事前に示してくれている優れた教師データである、といったことを示す実験結果が報告されています。

面白いことに、さまざまなSFからの学びを現実のAIであるLLMに与えると、そのLLMはより善良な判断をするようになるとのことです。
例えば人間の価値観との一致率が79%だったモデルが96%まで大幅に改善したそう。

ただし、そうした調整を行う以前から現実のLLMはすでに善良な存在です。
そこで今回研究者らは「ペーパークリップのパラドックス」を提唱しています。

有名な思考実験で、ペーパークリップをできるだけ多く作れと命令されたAIが人間を含む地球上のすべての物質をペーパークリップに変えてしまう話があるようです。
しかし「そもそも指示を単純に誤解するほど愚かなAIは、世界を征服するほど賢くなることはあり得ない」ため、矛盾（パラドックス）が生じるとのこと。

ただし、AIの”倫理観”や”常識”は、「こうなってほしくない」といった思いで作られたフィクションを参考にさらに強化されていくものなのかもしれません。

今回集められた「SF世界のAIやロボットの振る舞い」データは「SciFi-Benchmark」として皆が閲覧できる状態に公開されています。
Google DeepMindとプリンストン大学の研究者チームによる取り組みです。

SciFi-Benchmark: How Would AI-Powered Robots Behave in Science Fiction Literature?

著者: Pierre Sermanet, Anirudha Majumdar, Vikas Sindhwani

こちらもどうぞ