既存の言語モデルが人間生成データに依存しているゆえの限界があります。
現状の言語モデルは、人間が生成したデータによってファインチューニングする方法が一般的なアプローチになっています。しかしこの方法では、データの量と多様性、質によってモデルの限界が決まってしまいます。
高品質な人間生成データを収集すれば問題ない(あるいは収集するのが鍵である)とも言われていますが、複雑な問題解決タスクにおいてデータ収集は大きなボトルネックとなりえます。多大なリソースと専門知識をもってしても、完全な解決に至らないことがあり、課題ははっきりしているのにプロジェクトが前に進まないといった状況に陥る恐れがあります。
そのため、仮にモデル生成データの品質が保証されれば、拡張性とコスト効率の面で有望な代替手段となりえます。