LLMのIn-Context Learning、注意機構の変化を解明

2024.02.23

プロンプト（プロンプトエンジニアリング、few-shot、in-context learning）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

タスクに応じたプロンプト（コンテキスト内学習）でLLMの性能が向上するのはなぜなのか、
神経科学にインスパイアされた方法でMicrosoftの研究者らが分析しています。

その結果、モデルの内部で「タスクに必要な情報への注意に重みが増す」ことが理由との見解が得られています。

“Decoding In-Context Learning: Neuroscience-inspired Analysis of Representations in Large Language Models”より

■背景
– LLMはタスクに応じたプロンプト（コンテキスト内学習）で性能が向上する
– しかし、その背後にあるメカニズムは不明
– モデルの内部表現を知るために神経科学を活用できる可能性がある

■神経科学インスパイアの新アプローチ
関連情報と無関係情報の「注意の比率」を計算する”注意比率分析（ARA）”という手法を考案した

■実験
– Vicuna-1.3 13BとLlama-2 70Bを使用
– 線形回帰タスクと読解タスクで実験
– コンテキスト内学習前後の（埋め込みや）モデルの注意重みの変化に注目した

■結果
– コンテキスト内学習を通じてモデルの内部で一貫したパターンの変化が見られた
– 「重要な情報」の扱い方（注意）が改善する
– モデルに与える文脈やプロンプトの例を増やすと、モデルの誤りが減少することがわかった

論文情報：

📎 論文を読む（doi.org）

関連記事