人間とコンピュータ(LLM)がテキストを解釈するときに、どれだけ似たような感覚で読むのかを調べた研究が報告されています。
ある実験では、人間とLLMで、重要だと感じた単語は6割以上同じでした。EEG(脳波)とアイトラッキングデータを使用して検証されています。
イエール大学やカリフォルニア大学などの研究者らによる発表です。
@ Yuhong Zhang et al., “Integrating LLM, EEG, and Eye-Tracking Biomarker Analysis for Word-Level Neural State Classification in Semantic Inference Reading Comprehension”
人間はテキストを読むときに目の動きで重要な情報を拾いますが、LLMは文脈から次の単語を予測します。
その違いによって読解にどのような違いが出るのでしょうか?
人間とLLMの感覚の違いを明らかにすることは今後のアプリケーション開発に役立つと考えられます。
研究者らは、人間とLLMがテキストを読む時に、どの単語を重要と判断するのかを比較しました。
■実験デザイン
① GPT-3.5とGPT-4が、あるテキストの中に含まれる単語を、「低関連ワード」と「高関連ワード」に分類
② 人間の被験者(12人)が文章を読む際に、その脳波(EEG)と目の動き(アイトラッキング)を記録
③ 脳波と目の動きから得られたデータを解析する
④ 脳の各部分の連携を理解するために、脳のネットワークを再現
⑤ 解析結果を用いて、人がどの単語を「高関連ワード」または「低関連ワード」に分類しているかを分析
■実験の結果
① 総合的に人間とLLMは60%以上の割合で関連性(重要度)の分類が似ていた
② 脳波と目の動きのデータは有効な指標であることが示された
③ 高関連ワードに対する目の動きが、低関連ワードよりも多かった
(人間は高関連ワードにより注意を払っている)
④ 人間は高関連ワードに対して特定の脳波パターンを持っている
■注意点
単語の意味は文脈によって大きく変わる可能性があり、これがデータの解釈に影響を与える可能性があります。
また、本研究はパイロットテストであるため、さらなる調査が必要です。
■研究者らの考察と展望
① 本研究はEEG(脳波)とアイトラッキングとLLMを組み合わせて単語理解を調べた初めての試みである
② 人間の読解における認知プロセスを明らかにするための重要な布石となる研究である可能性
③ 将来的にはブレイン・マシン・インタフェースや、人間と機械が協力するシステムへの応用も期待