深堀り解説 🔒 難しいベンチマークで高性能なLLMでも単純な問題で間違えてしまう現象について「不思議の国のアリス問題」とGPT-4o、Claude-3、Llama 3などで分析 2024.06.102025.03.08 クリップする
深堀り解説 🔒 MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果 2024.06.052025.03.08 クリップする