研究者らによると「AIの根本的な能力は8つであり、すべての評価はこの8つの能力の組み合わせで説明できる」とのことです。
その8つは以下の通り。
1. 文章理解
2. 論理的推論
3. 長文読解
4. 指示に従った文章生成
5. 専門的な質問応答
6. 倫理的判断
7. 正確性
8. 大学院レベルの高度な推論
これまでの評価では、この8つの能力のうち一部にしか対応しないタスクに偏重しがちだと報告されています。
よく「このAIはこのテストで何点、あのテストで何点」という風に個別のテストの点数が話題になりますが、それは木を見て森を見ずといった状況なのかもしれません。
なお、この上で、AIの性能を決めるのはモデルのサイズ(パラメータ数)よりも、どんなデータで訓練されたかの方が重要である傾向が強いそうです。
📄 参照論文
IQ Test for LLMs: An Evaluation Framework for Uncovering Core Skills in LLMs
所属: Bar-Ilan University, OriginAI, Columbia University