AIが人間のように「本当のことを言うべきか、相手の気持ちを考えるべきか」という葛藤をどう処理するかを調べたところ、
推論能力が高いモデルは相手の感情への配慮よりも正確な情報を伝えることを優先する傾向があるとのこと。
また、AIの性格は訓練の最初の段階でほぼ決まっており、その後いくら調整しても大きくは変わらないことが分かりました。
つまり、AIを優しくしたければ、後から教え込むより、最初から優しい傾向のあるモデルを選ぶ方が効果的だということになります。
ハーバード大学とGoogle DeepMindの研究者らによる報告。
*推論能力が高いモデルが感情への配慮を全くしないわけではなく、また後からのチューニングによる効果が全くないということではありません
📄 参照論文
Inside you are many wolves: Using cognitive models to interpret value trade-offs in LLMs
所属: Harvard University, Google DeepMind