トランスフォーマーベースのLLMにおける根本的な5つの弱点をおさらいする
本記事では、LLMの5つの根本的な弱点についての分析を取り上げます。
LLMは急速に進化し、文章生成や質問応答、コード作成などに幅広く使われています。モデルの規模を大きくすれば性能も上がるという「スケーリング則」も知られ、GPTシリーズは数年で1000倍以上の規模に拡大しました。それでもLLMには、いくつか弱点があります。

背景
過去5年間で、LLMは急速に進化してきました。OpenAIが開発した初期のGPT-1は約1億のパラメータしか持っていませんでしたが、今では1兆を超えるモデルも存在します。数年で1万倍もの拡大が起きたことになります。
この急成長を支えたのが「スケーリング則」と呼ばれる法則です。モデルのサイズや学習データ、計算資源を増やすほど、性能も向上するという経験則です。実際、GPT-3.5からGPT-4への進化では、ベンチマークのスコアが大きく伸びました。
こうした成果から、より大きなモデルに、より多くのデータを与えれば課題は解決できるという楽観論が広がりました。スケーリングさえ進めれば知能も高まり、現在の問題は技術的な調整で解決できると考えられてきたのです。
しかしモデルが1兆パラメータ規模になっても、依然として課題は残っています。事実と異なる内容を自然に語る「幻覚」、論理の破綻、長い文脈を覚えていられない、検索結果を活用できない、画像とテキストの整合性が取れないなどの問題は、今のスケール拡大では解消されず、体系的に現れています。
こうした問題は偶然ではなく、計算理論・情報理論・学習理論といった数学的な限界に根ざしたものである可能性が高い、という話を紹介します。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。


PAGE TOP