「良いAIの話」を学習データに加えると振る舞いが劇的に改善

2026.01.302026.02.16

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

AIモデルが学習中に読んだ「AIについての話」が、そのモデル自身の振る舞いに影響を与えることが分かったそうです。
悪いAIの話を読むと悪い行いをするようになり、良いAIの話を読むと良い行いをするようになる。
なお、悪い話を取り除くよりも、良い話を加える方がはるかに効果的だったとのこと。

世の中にはAIが人間を裏切ったり危険な行動をとったりする話があります。実験において、こうした「悪いAI」の話をたくさん読んで育ったAIモデルは、実際に自分も悪い選択をしやすくなったといいます。
逆に、AIが正しい選択をする話、たとえば誘惑に負けずに人間のために行動する話を意図的に学習データに加えると、モデルは劇的に良い振る舞いをするようになりました。

「とは言っても学習データよりアライメント次第だろう」と思うかもしれませんが、こうした大規模学習の段階でモデルの振る舞いはある程度決まってしまい、後から完全に書き換えるのは難しいことが示唆されています。
ただし本実験は69億パラメータという比較的小さなモデルで行われている点は注意。

なお、少し想像を広げると、私たちがAIの未来について語る言葉も、いつかAIの学習データになるかもしれません。そう思うと、（もちろん慎重な議論自体は必要ですが、）積極的に良いシナリオを語っていく価値もあるかもしれません。

📄 参照論文

Alignment Pretraining: AI Discourse Causes Self-Fulfilling (Mis)alignment

著者: Cameron Tice, Puria Radmard, Samuel Ratnam, Andy Kim, David Africa 他

所属: Geodesic Research

📎 論文を読む（arxiv.org）

X（Twitter）で見る

「良いAIの話」を学習データに加えると振る舞いが劇的に改善

📄 参照論文

関連記事

🔒 LLMにハイレベルな問題の解決アプローチを自分で考えさせるエージェント化手法「SelfGoal」

🔒 「HTMLをそのままLLMに入力してはどうか」という新しいアプローチ

🔒 大規模言語モデルは税理士になりうるか？ケーススタディの結果

🔒 AIペルソナの「ステレオタイプ」をどう防ぐ　実際の会話データから人間の多様性を学習させる手法

🔒 ハーバード大学とGoogleの研究者ら、LLMチャットボットを総合的に評価するデータセットの作り方を報告（作成されたデータセットも公開）

🔒 大喜利データセットでLLMをユーモアラスにチューニングする手法

📄 参照論文

📚 関連記事

🔗 関連短信

関連記事

🔒 LLMにハイレベルな問題の解決アプローチを自分で考えさせるエージェント化手法「SelfGoal」

🔒 「HTMLをそのままLLMに入力してはどうか」という新しいアプローチ

🔒 大規模言語モデルは税理士になりうるか？ケーススタディの結果

🔒 AIペルソナの「ステレオタイプ」をどう防ぐ 実際の会話データから人間の多様性を学習させる手法

🔒 ハーバード大学とGoogleの研究者ら、LLMチャットボットを総合的に評価するデータセットの作り方を報告（作成されたデータセットも公開）

🔒 大喜利データセットでLLMをユーモアラスにチューニングする手法

🔒 AIペルソナの「ステレオタイプ」をどう防ぐ　実際の会話データから人間の多様性を学習させる手法