深堀り解説ベンチマーク・リソース 🔒 Claude CodeやCodexなどのAIエージェントにゼロからソフトウェアを作らせるとき、どこで苦労するのか・どのツールが優秀なのか 2026.02.092026.02.19 クリップする
深堀り解説ベンチマーク・リソース 🔒 MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果 2024.06.052025.03.08 クリップする
深堀り解説ベンチマーク・リソース 🔒 GPT-4o、Gemini、Claude 3などにおける「長いプロンプトのマルチモーダルタスク」性能を測定した結果 2024.05.212025.03.08 クリップする
深堀り解説ベンチマーク・リソース 🔒 AGIを見据えて専門家レベルの問題を集めたベンチマーク「MMMU」、GPT-4VやGemini Ultraでも正解率6割未満 2023.12.302025.03.08 クリップする
深堀り解説ベンチマーク・リソース 🔒 あらゆるLLMを「使い心地」基準でバトルさせる便利なプラットフォーム『Chatbot Arena:チャットボットアリーナ』 2023.12.212025.03.08 クリップする