DeepSeek R1が実現した教師なし強化学習による推論性能の向上

本記事では、LLMの推論能力を強化学習のみで向上させることに取り組んだ新しい研究を紹介します。 大規模言語モデルの推論能力向上には従来、大量の教師あり学習データが必要とされてきましたが、DeepSeek社の研究チームは強 … 続きを読む DeepSeek R1が実現した教師なし強化学習による推論性能の向上