ChatGPTの登場以降、AIの能力は驚異的なスピードで進化してきました。しかし、その「賢さ」の向上に、「安全性」は追いついているのでしょうか。
実は、通常のテストでは優秀な成績を収めるモデルでも、特定の条件下では全く異なる顔を見せることがあります。また、ある言語では安全でも、別の言語では危険な回答をしてしまうケースも報告されています。

背景
LLMは急速な進化を遂げてきました。文章の理解や生成において人間に近い能力を発揮するようになり、さらに最近では画像も扱えるマルチモーダルモデルへと発展しています。
こうした進化に伴い、AIは私たちの日常に急速に浸透しつつあります。検索エンジンや業務効率化ツール、教育アプリなど、すでに多くの場面で活用が進んでいます。おそらく読者の皆さんの中にも、仕事でこれらのツールを使い始めている方は多いのではないでしょうか。
しかし、能力の向上と同時に懸念も生まれています。有害なコンテンツを生成してしまったり、巧妙な質問によって安全装置をすり抜けてしまう「ジェイルブレイク」と呼ばれる問題が報告されているのです。
もちろん、こうしたリスクに対する研究も進んでいます。ただ、これまでの安全性評価は断片的なものが多く、テキストだけ、あるいは特定の攻撃手法だけを対象にしたものがほとんどでした。そのため、実際の利用場面でモデルがどの程度安全なのか、全体像を把握することが難しい状況が続いていました。
そこで本記事では、最新のフロンティアモデル6種を複数の観点から統一的に評価した研究を紹介します。