深堀り解説ベンチマーク・リソース 🔒 AGIを見据えて専門家レベルの問題を集めたベンチマーク「MMMU」、GPT-4VやGemini Ultraでも正解率6割未満 2023.12.302025.03.08 クリップする
注目論文まとめ Tencentの研究者らが、人間のようにタップやスワイプでスマホアプリを操作するAIエージェント『AppAgent』を開発したと報告しています。 2023.12.222024.02.22 クリップする
深堀り解説ベンチマーク・リソース 🔒 あらゆるLLMを「使い心地」基準でバトルさせる便利なプラットフォーム『Chatbot Arena:チャットボットアリーナ』 2023.12.212025.03.08 クリップする
深堀り解説テクニカルレポート 🔒 Geminiの高い推論能力を活かして、過去最高水準のプログラミングAI『AlphaCode 2』も誕生したとの報告 2023.12.082025.04.27 クリップする