LLMエージェントをニューラルネットワークのように扱い、強化学習で協調させると、育て方次第で「エージェント数をスケール」させることがそのまま性能向上につながるとわかったとのこと。
研究者らは複数のLLMをニューラルネットの層のように並べて文章を受け渡しさせ、各エージェントに「計画担当」「批評担当」といった役割を”一切与えない”方式を検証しました。
最終的な正解だけを報酬として全体をまとめて強化学習させる仕組み。
小さなモデルでもこのやり方で性能が向上し、しかも一度小さな構成で学習させてから段階的にネットワークを大きく育てると、最初から大きく組むより安定して伸びることがわかりました。
マルチエージェントの組み方そのものが、モデルサイズとは別のスケーリング軸になり得ると示した格好です。