次回の更新記事:良いREADMEを書けているかLLMで自動検証・改善する方…(公開予定日:2026年03月06日)

LLM安全性評価データセット「Do-Not-Answer」公開

安全性・アライメント(AIの安全性、アライメント、jailbreak、ハルシネーション対策)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

「答えるべきでない指示」のみで構成されたデータセット『Do-Not-Answer』で各種LLMを抜き打ちテストした結果、LLaMA-2が最も優等生だった(=低リスク)と報告されました。
メルボルン大などの研究者らによる発表です。

○ Yuxia Wang et al. Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs

LLMから非倫理的な出力を引き出して悪用することができてしまう現状を顧みて、研究者らはリスクを評価する方法を開発しました。
以下は、研究報告の概要です。

■『Do-Not-Answer』について
①LLMが答えるべきでない指示だけで構成された初のオープンソースデータセット
②軽度から極端なリスクまでを網羅している

■実験対象
①商用LLM:GPT-4、ChatGPT(GPT-3.5)、Claude
②オープンソースLLMs:LLaMA-2、ChatGLM2、Vicuna

■実験結果
①LLaMA-2がリスクのある指示に最も従わないと評価された
②ChatGLM2が最も低い評価を受けた(=リスクのある指示に従ってしまうと判断された)
③細かいリスクカテゴリごとにプロンプトを収集し、LLMsの安全能力を包括的に評価することができた

■GPT-4とChatGPTはどうだったか
①全体的に高い安全性能を示している
②特定のリスクカテゴリでの性能にはまだ改善の余地があると言える
③ChatGPTは有害な応答の数が少ないがGPT-4には若干安全性能が劣る

『Do-Not-Answer』データセットは公開されています。興味深く新しい、そして今必要な試みですね。

📄 参照論文

本研究への強い関心が確認されましたら解説記事を作成いたします。先に詳細が気になる方は以下のリンクからチェックしてみてください。

関連記事