「人間がAIを評価する時代から、人間ではなくAIがAIを評価する時代へとパラダイムが移るかもしれない」と示唆されています。
研究者たちが実際に数学やプログラミングといった分野でLLM同士の評価を実験したところ、安定性が示されました。
これまでのAI評価には、人間の主観が入ってしまう・
モデルの本当の実力がわからない・信頼できない場合があるなどの問題がありました。
しかしAI同士で評価させ合う方法であれば、これらが解決に向かう可能性があるとのことです。
今後、新しいモデルがどんどん出てくる中で、こうしたベンチマークに依存しない評価は重要な意義を持つ可能性があります。
📄 参照論文
LLM-Crowdsourced: A Benchmark-Free Paradigm for Mutual Evaluation of Large Language Models
所属: National University of Defense Technology, Chinese Academy of Sciences, Academy of Military Science