本記事では、大規模言語モデル(LLM)の推論能力を向上させる新たな手法を紹介します。
LLMは目覚ましい発展を遂げている一方で、思考や推論において依然として課題を抱えています。
そこで今回研究者らは、哲学者のフレームワークをLLMに応用することでモデルの推論能力を向上させる研究を行いました。
発表者情報
- 研究者:Federico Castagna et al.
- 研究機関:ブルネル大学ロンドン校、リンカーン大学
背景
2022年11月のChatGPTリリース以降、様々な企業や組織から新たなLLMが次々と発表され、性能の向上が進められてきました。
しかし現状のLLMには、重要な課題が残されています。複雑な推論能力を必要とするタスクにおいて、モデルは依然として誤りを起こしやすい傾向にあります。研究者たちの分析によれば、LLMは学習データの記憶と再現には長けているものの、未知の問題や学習時に見たことのない推論課題への対応には苦心していることが指摘されています。実際、トレーニングデータに含まれていないパターンの推論問題に直面した際、パフォーマンスが著しく低下することが確認されています。
LLMの性能を向上させるための手法として、「思考の連鎖(Chain of Thought)」と呼ばれるアプローチが開発されてきました。推論の過程を段階的に示すことで、モデルの論理的思考を強化しようという試みです。
一方で人間の思考プロセスに関する研究分野では、Toulminという哲学者によって提唱された「議論モデル」という理論が支持されています。人間の推論において重要なのは最終的な結論だけでなく、その結論に至るまでの根拠や思考過程であるという考えが体系化されたものです。さらに、議論の妥当性を検証するための「批判的質問」という手法も確立されています。
そのような背景のもと、研究者らはToulminの議論モデルと批判的質問の概念をLLMに応用し、モデルの推論能力を向上させる新たな手法の開発に取り組みました。従来の手法では十分に解決できなかった論理的推論の課題に対し、人間の思考プロセスの研究から得られた知見を活用するアプローチです。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。