次回の更新記事:良いREADMEを書けているかLLMで自動検証・改善する方…(公開予定日:2026年03月06日)

GPT-4、大学院レベル問題で39%正解

評価・ベンチマーク(モデル評価、ベンチマーク、性能測定)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

ニューヨーク大学やAnthropicなどの研究者らにより開発された大学院レベルの問題集『GPQA』で、GPT-4が約39%の割合で正解することが報告されました。

今後「人間の専門家でも難しい問題に対してAIが出す答え」をどのように信頼/検証していくかが論点となります。

なお『GPQA』はGoogle検索をしても正解が検証できない高い難易度が設定されています。

@ David Rein et al., “GPQA: A Graduate-Level Google-Proof Q&A Benchmark”

研究者らは「将来的に人間の知識を超えたAIシステムが登場する可能性がある」とし、「モデルの信頼性を人間が評価できなくなった際のシステム基盤が必要である」と考えています。

そこで、まずは現時点で専門家レベルの問題ツール『GPQA』を作成し、最先端のモデル(GPT-4など)がどれほどの専門知識を持つのかを確認しました。

■『GPQA』の内容
① 生物学、物理学、化学の問題データセット
② 専門家が作成した448問
③ 複数選択式
④ 非常に困難かつ高品質
⑤ 関連分野の博士または博士取得予定者の正解率は65%
⑥ 非専門家の検証者の正解率は34%

■実験の内容と結果
① 複数のモデルを使用
(Llama-2-70B、GPT-3.5、GPT-4)
② ゼロショット、フューショット、CoTの各設定で検証
③ Llama-2-70Bの正解率は約28.4〜30.4%
④ GPT-3.5の正解率は約28.2〜30.0%
⑤ GPT-4の正解率は約31.3〜38.7%

■考察と議論
上記の結果から、以下のような議論が得られています。
① 最先端モデルは高度なレベルの問題に対して一定の正解率を達成するが、完全な水準ではない
② 人間とAIの性能比較が引き続き重要である

今後の展望として、(1)さまざまなモデルの専門分野をさらに細かく評価すること、(2)AIの出力を監視するためのスケーラブルなシステムを開発することなどが挙げられています。

📄 参照論文

論文情報と関連研究

著者: 著者:David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang 他

関連記事