深堀り解説ベンチマーク・リソース 🔒 AGIを見据えて専門家レベルの問題を集めたベンチマーク「MMMU」、GPT-4VやGemini Ultraでも正解率6割未満 2023.12.302025.03.08 クリップする
注目論文まとめ Tencentの研究者らが、人間のようにタップやスワイプでスマホアプリを操作するAIエージェント『AppAgent』を開発したと報告しています。 2023.12.222024.02.22 クリップする
深堀り解説ベンチマーク・リソース 🔒 あらゆるLLMを「使い心地」基準でバトルさせる便利なプラットフォーム『Chatbot Arena:チャットボットアリーナ』 2023.12.212025.03.08 クリップする