「データは多ければ良い」は本当か?データを減らしてAIの性能がアップする条件とは
本記事では、「どの条件でデータを減らすとAIモデルの性能が上がるか」という問いと、その理論的な背景・実験による裏付けを紹介します。
データは多ければ多いほど良い、そんな考えが当たり前に思われてきましたが、実際にはそうとも限らないようです。
LLMを始めとした機械学習モデルを活用する現場にとってヒントになる内容です。

背景
機械学習モデルを作るには、大量のデータが必要です。画像や文章、音声など、さまざまな分野で、大きなデータセットが使われています。
その中で「データが多ければ多いほど、モデルの性能も良くなる」という見方が根強いです。これはいわゆる「スケーリング則」と呼ばれ、「たくさんあればあるほど良い(more is more)」という考え方です。
でも、その学習のしかたにはムダも多く含まれています。
今よく使われている方法では、すべてのデータを同じように扱います。でも実際には、すべてのデータが同じように役立つとは限りません。モデルを賢くするのに役立つデータもあれば、似たようなものばかりであまり意味がないもの、さらには悪影響を与えるようなデータもあります。こうしたことから、”役立つデータだけを選んで使おう”という考え方が注目されています。
実際に、すべてのデータを使うのではなく、その中から少しだけ選んで学習させることで、全部を使うよりも良い結果が出ることがわかっています。
こうした「少ない方が良い(less is more)」という結果は、これまでの「多ければ良い」という考えとは正反対のように見えます。では、どんなときにデータを選ぶことが効果的なのでしょうか? 逆に、どんなときは全部のデータを使った方がよいのでしょうか?
理論と実践の両面からこの考え方を紐解いていきます。LLMだけでなく機械学習モデル全般に関連する話です。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。


PAGE TOP