深堀り解説 🔒 難しいベンチマークで高性能なLLMでも単純な問題で間違えてしまう現象について「不思議の国のアリス問題」とGPT-4o、Claude-3、Llama 3などで分析 2024.06.102025.03.08 クリップする
深堀り解説 🔒 MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果 2024.06.052025.03.08 クリップする
深堀り解説 🔒 スタンフォード大学の研究者ら、GPT-4oとGemini1.5 Proで「マルチモーダルモデルにおける『Many-Shot』の効果」を検証 2024.05.172025.03.08 クリップする