人間の子どもが桁違いに少ない言葉に触れるだけで言語をマスターする過程を参考にして、少量データで効果的に学習する言語モデルの作り方が調査されました。
その結果、「テレビの対話データを追加すると学習効果が上がる」「語彙は大きすぎても小さすぎても良くない」「簡単な例から複雑な例へと順番に学習させる方法が効果的」「一般的に“良質“とされるデータが必ずしも少量学習には適していない」などが発見されたと報告されています。
完成した新しいモデルは同規模の他モデルより全体的に優れたパフォーマンスを発揮したとのこと。
ただし、本研究プロジェクト「BabyLM Challenge」では、開発の基盤とされたモデルのサイズが小規模であるため、今後さらなる追加実験が期待されます。
📄 参照論文
Towards Data-Efficient Language Models: A Child-Inspired Approach to Language Learning