「LLMを知能が高いかどうかで評価することには根本的な問題点がある」「汎用性で測ろう」と主張されています。
現状、「知能テスト」で高得点を取ることと実際に人間にとって使いやすいかどうかとは別問題になってしまっています。
そもそも「知能」という概念自体が曖昧で、
神経科学でも認知科学でも統一的な定義が存在しないとのことです。
何十年も議論されてきたものの、結局「知能とは何か」について合意に至っていません。
そして、テストの点数が良くても、質問応答やコーディングといった実用的なタスクで必ずしも優れているわけではありません。
研究者たちは、「知能が高いか低いか」ではなく、「どれだけ幅広いタスクを確実にこなせるか」という汎用性で評価すべきだと主張しています。
つまり、実際にできることの広さと安定性で測るのが現実的だという見解です。
数学的にも、複数のタスクでの性能を総合的に見る方が、単一のテストよりも信頼性の高い評価になることが証明できるそうです。
📄 参照論文
On the Measure of a Model: From Intelligence to Generality
所属: University of Copenhagen