ChatGPT、「金融」と「心理学」の専門知識で特に役立つとの傾向が顕著に

この記事では、ChatPGTと人間の専門家を比較した研究について紹介します。

ChatGPTの専門性に注目集まる

ChatGPTの桁外れな能力は、人々の関心と、少しの懸念を引き起こしてきました。いま、様々な分野における専門的知識を詳しく調べようという研究がいくつも報告されています。

医師試験の知識で医学部3年生と匹敵

米イエール大学医学部の研究チームは、米国の医師免許試験におけるステップ1およびステップ2の試験範囲で出題したときにChatGPTがどれほどの成績を上げるかについて調査を行いました。また、米ハーバード大学、米ヘルスケア企業などの研究グループが類似の実験を行いました。結果はどちらも好成績。イエール大学医学部の研究チームによると、ChatGPTは医学部3年生に匹敵する知識を持っていたと言います。

https://aiboom.net/archives/50310

司法試験に挑戦し、好成績を収める

ChatGPTに使用されている大規模言語モデルGPT-3.5で米国司法試験を受けるという試みを、米Chicago-Kent College of Lawの研究グループが行なっています。

結果、7科目全部を平均するとGPT-3.5（平均正解率50％）は人間の受験者（平均正解率68％）に約18％の差で負けたとのことです。しかし2つの科目（証拠法と不法行為法）では、平均合格率を超えたとのことです。

論文：M Bommarito II, DM Katz – arXiv preprint arXiv:2212.14402, 2022 – arxiv.org

「医療」「法律」よりも得意な領域が見つかる

上海財経大学に所属する研究者らが発表した論文「How Close is ChatGPT to Human Experts?Comparison Corpus, Evaluation, and Detection」は、OpenAIの大規模言語モデルGPT-3.5を基に構築されたチャットボット「ChatGPT」が人間の専門家といかに異なるかを検証した研究報告です。

人々ChatGPTに対して関心をもつ点の一つは、「ChatGPT が人間の専門家にどれほど近いか」についてです。人々はChatGPTに対して、専門的なアシスタントとして役立つのではないかという期待、特定の分野におけるプラットフォームの品質・信頼性を脅かすかもしれないという不安の両方を抱えています。

この問題に対して知見を得るために研究チームは、金融、医療、法律、心理学における約40,000の質問に対するChatGPTと人間の回答を収集したデータセットを作成し、分析しました。

まず人間によって包括的な評価を行った所、ChatGPT の回答は、「一般的に、半数以上の質問で人間の回答よりも役立つ」と考えられました。そして、その傾向は特に金融と心理学の分野で顕著でした。

また、ChatGPTの特徴や人間との違いは、以下のような項目が挙げられました。