ChatGPTなどのLLMにユーザーの性格特性を分析させる手法『PsyCoT』と実行プロンプト

ChatGPTをはじめとしたLLM（大規模言語モデル）に個人的なテキストを送って相談するのは一般的な使い方のひとつです。

そんな中、今回Meta AIとTencent AI Labの研究者らは「PsyCoT」を開発しました。心理学アンケートを基にした性格特性の評価方法をLLMに応用することで、テキスト入力からの性格推定能力を高めることを目指しています。本手法は、ChatGPTを使用し、心理学理論に基づいてユーザーの性格特性を診断することを可能にするとのことです。

研究によると、PsyCoTは性格診断に特化したモデルに匹敵、またはそれを超える性能を発揮することが確認されています。性格検出の分野における新たな可能性であり、LLMの応用範囲の拡大を物語っています。

本稿では、PsyCoTの主な特徴、性能、そして実際のプロンプトの例に焦点を当て、論文を詳しく見ていきます。また、本論文に基づいて、1回の入力のみで性格特性の分析を行うMyGPTを作成しました。記事の最後にリンクを置くので、興味がある人は使ってみてください。

参照論文情報

タイトル：PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for Personality Detection

著者：Tao Yang, Tianyuan Shi, Fanqi Wan, Xiaojun Quan, Qifan Wang, Bingzhe Wu, Jiaxiang Wu

所属：School of Computer Science and Engineering, Sun Yat-sen University, Meta AI, Tencent AI Lab

URL：https://doi.org/10.48550/arXiv.2310.20256

GitHub：https://github.com/TaoYang225/PsyCoT

背景

LLMの進歩と性格検出の挑戦

近年、大規模言語モデル（LLM）は、文脈を含む形で設計されたプロンプトに基づいて高精度な予測を行う能力を示しています。いわゆる「インコンテキスト学習（ICL）」と呼ばれる手法です。さまざまなタスクで威力が検証される一方、「テキストから個人の性格を検出する能力」に関しては、ニーズがある一方でまだ十分に確認されていません。

心理学における性格検出においては、個人の性格特性を評価するために、一連の項目からなる心理学アンケートが使用されています。もしそれをLLMに応用するならば、アンケート項目は構造化されたチェーン・オブ・ソート（CoT）のコレクションと見なすことができ、合理的な性格推定を可能にするかもしれません。

性格検出への新たなアプローチ

これまでにも性格検出を行うモデルの開発は行われてきました。主にデータ駆動型アプローチによるモデルのトレーニングやファインチューニングが採用されてきています。
そんな中LLMの登場によって、性格検出を複数ステップの推論タスクとして捉える新たな方法の可能性が浮上しました。さらにLLMベースのアプローチは、中間的な推論ステップを生成することで、より複雑な推論を実行する能力を持っています。

上記の背景から、LLMの応用範囲を性格検出の分野に広げる研究が登場しました。
研究者たちは個人が心理学アンケート式の性格診断をマルチターンの対話方式で完了する方法を実現する新しい性格検出手法「PsyCoT」を提案しています。テキスト分析に特化したアシスタントとしてのLLMが、個々の項目を評価し、性格を導き出します。

『PsyCoT』の主なポイント

1. 心理学手法の応用

PsyCoTは、心理学アンケートの項目をチェーン・オブ・ソート（CoT）の枠組みとして活用し、推論する手法です。LLMは心理学アンケートに基づいて個々の項目を評価し、その結果に基づいて最終的な性格特性を推測します。

PsyCoTは、自己評価の性格テストから着想を得ており、心理学のアンケートから得られる項目を扱います。なお、本手法で活用されている心理学理論であるビッグファイブ性格特性については後述します。

2. マルチターン対話方式

ChatGPTなどのAIが特定のテキストを評価するマルチターンの対話方式を採用しています。各ターンで、心理学のアンケートからサンプリングされたアイテムがAIに提示され、AIはその項目に対して特定のスコアを返します。すべての項目が評価された後、AIアシスタントは総合的な評価結果に基づいて最終的な性格特性を提示します。

PsyCoTは、単一ターンの対話方式よりもマルチターンの対話方式でより正確な推論を達成し、オプションの順序が変更された場合でも強い堅牢性を示すとのことです。LLMが個々の項目を評価することに、高い集中力を持つことで、より正確な結果を得ることが可能だと述べられています。また、項目間には相関が存在するため、ある評価結果を別の評価に組み込むことで、結果の一貫性が向上します。

3. 性能の検証

PsyCoTの性能は、公開データセットを用いて検証されています。データセットは、それぞれ異なる性格タクソノミーを用いており、あるデータセットでは44項目のビッグファイブインベントリを使用し、著者が自身の特性を評価しています。

ビッグファイブ性格特性とは

PsyCoTでは主にビッグファイブ性格特性（Big Five）に基づいて、人間の性格を記述することを試みています。行動、思考、感情のパターンを以下5つの次元で捉えるものです。

協調性（Agreeableness）

協調性は、他者に対する信頼や友好性、協力性を指します。高い協調性を持つ人は、同情的で親切、他人との対立を避ける傾向があります。一方、協調性が低い人は、競争心が強く、他人に対して批判的であることが多いです。

外向性（Extraversion）

外向性は、社交性、活動性、感情の表出の程度を表します。外向的な人は、社交的で元気があり、積極的に人と関わります。内向的な人は、静かで予約がちで、一人でいることを好むことがあります。

開放性（Openness）

開放性は、新しい経験や異なる視点への受容性を示します。高い開放性を持つ人は、創造的で想像力豊かで、芸術や冒険を好むことが多いです。開放性が低い人は、従来の方法や習慣を好み、変化に対して保守的な傾向があります。

神経症的傾向（Neuroticism）

神経症的傾向は、感情の安定性とストレスに対する反応性を指します。神経症的傾向が高い人は、心配性で不安がりで、感情の起伏が激しいです。低い人は、精神的に安定しており、ストレス状況でも落ち着いています。

誠実性（Conscientiousness）

誠実性は、組織化、強い意志、信頼性、効率性に関連します。誠実性が高い人は、計画的で責任感が強く、仕事に対して献身的です。誠実性が低い人は、無計画で衝動的、または目的に対して緩やかなことがあります。

上記5つの特性に対してスコア付けを行う分析手法であるビッグファイブは、心理学の学術だけでなく、産業やビジネス、臨床の現場などで幅広く使用されています。

ChatGPTによる性格診断の性能

パフォーマンスの向上

PsyCoTは、GPT-3.5を用いた性格検出において、顕著な性能向上を示しました。従来の標準プロンプト手法と比較して、平均F1スコアがエッセイとKaggleの二つのベンチマークデータセットでそれぞれ4.23/10.63ポイント向上しました。ランダムなプロンプト手法よりも高いパフォーマンスを示すことを意味します。

競合モデルとの比較

さらに、PsyCoTは競合するプロンプトベースの手法の中で最高の性能を達成しました。Kaggleデータセットにおいては、標準プロンプトに対して18.37/10.63ポイント、ゼロショットCoTに対して1.50/4.08ポイントの改善を達成しました。また、ファインチューニングされたモデルと比較しても、BERTやDDGCNモデルに近い性能を示しました。

これらの実験結果は、PsyCoTが従来の手法と比較して性格検出性能と堅牢性を大幅に向上させることを示しています。特に、ビッグファイブ性格特性（特に協調性、外向性、開放性）において強い正の相関が見られ、性格特性のスコアと個性タイプとの間に強い相関関係が認められました。PsyCoTが性格診断に特化したモデルに匹敵する性能を持つことを示唆しています。

実際のプロンプト例

PsyCoTは、心理学アンケートの項目を使い、GPT-3.5などのLLMをAIアシスタントとして活用します。このアシスタントは、著者のテキストに基づいて与えられた各アイテムに対してスコアを付ける役割を持ちます。マルチターンの対話方式でプロセスが進み、各ターンで心理学アンケートから抽出された項目がAIアシスタントに提示され、アシスタントはその項目に特定のスコアを返します。全てのアイテムが評価された後、AIアシスタントは総合的な評価結果に基づいて最終的な性格特性を選択します。