AIの性格を数学的に理解し制御する方法を開発したと報告されています。
Anthropicの研究者らによる報告。
彼らはこれを「人格ベクトル」と呼んでいます。
研究者たちは、AIモデルの内部で「悪意」「お世辞」といった性格特性が、特定の方向として明確に表現されていることを発見しました。
次の意外な発見は、AIの性格変化が予期せぬ形で起こることでした。例えば数学の問題を間違って解くように訓練したAIが、なぜか悪意のある発言もするようになったりするのです。
しかし研究者たちは、この現象を人格ベクトルの変化として数学的に説明できることを理解しました。
その結果、訓練前のデータを分析するだけで、そのデータがAIにどんな性格変化をもたらすかを高い精度で予測できるようになりました。
転じて、AIの望ましくない性格を技術的に修正する方法も開発することも可能になりました。
人格ベクトルを逆方向に調整することで、悪意のあるAIを善良にしたり、お世辞ばかり言うAIを正直にしたりできるようになったのです。プロンプトのみで調整するよりもはるかに効果的だそうです。
AI安全性研究における新たに重要な突破口になるかもしれません。
📄 参照論文
Persona Vectors: Monitoring and Controlling Character Traits in Language Models
所属: Anthropic Fellows Program, UT Austin, Constellation