本記事では、大言模言語モデル(LLM)が人間のような性格を持つかどうかを探求する最新の研究を紹介します。人間の性格を評価するための一般的なツールであるマイヤーズ・ブリッグス・タイプ指標(MBTI)を用いて、LLMの「性格」を評価することを試みた研究です。
研究を行ったのはTikTokなどを運営するByteDance社の研究者らです。
参照論文情報
- タイトル:Do LLMs Possess a Personality? Making the MBTI Test an Amazing Evaluation for Large Language Models
- 著者:Keyu Pan, Yawen Zeng
- 所属:ByteDance
- URL:https://doi.org/10.48550/arXiv.2307.16180
- GitHub:https://github.com/harderthenharder/transformers_tasks
関連研究
LLMは性格を持つのか?変えられるのか?
本研究では、大規模言語モデル(LLM)が人間のような性格を持つかどうかを探求しました。その手法として、人間の性格を評価するための一般的なツールであるマイヤーズ・ブリッグス・タイプ指標(MBTI)を用いて、LLMの性格を評価しました。この評価は、MBTIの93の選択肢からなる質問に対するLLMの回答を分析することで行われました。
研究者らは、LLMが多様な性格を示すことを発見しました。そして、適切なチューニングを行うことで、性格を変更することが可能であることが示されました。
技術と手法の要点
性格評価のためのMBTIの活用
研究者らは、MBTIを用いてLLMの性格を評価しました。MBTIは、人間の性格を評価するための一般的なツールであり、エクストラバージョン/イントロバージョン(E/I)、センシング/イントュイション(S/N)、思考/感情(T/F)、判断/知覚(J/P)の4つの二元的な性格指標を用いて、16種類の性格タイプを定義します。これらの性格タイプは、個々の強み、弱み、コミュニケーションスタイルを示し、ビジネス、教育、個人開発の分野で広く使用されています。
研究者らは、MBTIの93の選択肢からなる質問に対するLLMの回答を分析しました。最終的なトークンの確率値を分析し、最も高い確率を持つ選択肢をモデルの回答として選びました。その後、各指標を4つのグループ(E-I/S-N/T-F/J-P)に分類し、各グループ内で最も高いスコアを持つものをそのグループの決定的な回答としました。
LLMの評価
LLMの知識を評価するために、研究者らは複数の選択肢からなる質問の正確さを計算するいくつかの指標を用いました。これには、CommonsenseQA(一般的な常識に関する質問)、HellaSwag(一般的な常識に関する推論)、MMLU(57のタスクをカバーするテスト)、C-Eval(多様な分野と難易度レベルをカバーする包括的な中国語評価スイート)などが含まれます。
この手法の検証結果
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。