ある問題に対してLLMに何回も答えを作らせて最も多かった回答を使うとよい、という話は有名ですが、
無限(∞)個の答えを作ると理論上極めて高い性能になることが明らかにされました。
日本人研究グループによる報告。
しかし、実行するには無限の計算量が必要になってしまいます。
そこで、
研究者らは、「バラバラな答えが出てくる場合には多めに回答」させ、「同じ答えが出がちな時には少なめにする」方法を開発。
この柔軟な考え方によって、計算量の増加はほどほどに抑えつつも精度を高く引き上げることに成功したそうです。
さらに、性能の低いモデルでも、得意分野が違えば強いモデルと組み合わせることで全体の性能が向上するという発見も得られたようです。
どのモデル同士をどんな比率で混ぜるのかはとても難しい問題ですが、小規模な数であれば解が導き出せるとのこと。
この「最も多く出た答えを採用する」というシンプルなアイデアは、他の複雑な手法より優れる場合も多いようで、現実的に検討すべきアプローチかもしれません。
📄 参照論文
Best-of-∞(\infty) — Asymptotic Performance of Test-Time Compute
所属: Mohamed bin Zayed University of Artificial Intelligence, New York University, RIKEN AIP