DeepSeek-R1の性能を検証 4つの主要LLMと比較

DeepSeek-R1の性能を検証　4つの主要LLMと比較

DeepSeek（DeepSeek-R1）はAIコミュニティ内外で大きな注目を集めています。本記事では、DeepSeekがその他のLLMと比較してどのような性能を示すのかを探求した研究を紹介します。

比較に使用されたのは4種類の代表的なLLM（Claude、Gemini、GPT、Llama）です。

また実験されたタスクは「テキストが人間の執筆か、それともAIによる執筆なのか」を判断すること、「引用文の周辺テキストから、その引用を4つのタイプのいずれかに分類すること」でした。比較の結果、さまざまな新しい事実が浮かび上がりました。

発表者情報

研究者：Tianchen Gaoほか

研究機関：カーネギーメロン大学、ハーバード大学

論文情報詳細は記事の下部に記載されています。

背景

新しいLLMであるDeepSeekはAI業界を大きく揺るがしています。2025年1月20日に最新版（DeepSeek-R1）がリリースされて以来、DeepSeekはニュースやSNSの見出しを飾り、Apple Storeのダウンロード数でも急上昇し、投資家を驚嘆させ、Nvidiaをはじめとする一部テック株を下落させました。

DeepSeekが注目される理由は、特定のベンチマークタスクにおいて、大手のAIモデル（例：OpenAIのChatGPT）と同等、あるいはそれ以上の成績を収めているにもかかわらず、学習コストがはるかに低いという点です。例えば、Evstafevは、MATHデータセットから抽出した30題以上の難易度の高い数学問題を用いたテストですが、DeepSeek-R1がChatGPTやGemini等を上回る正答率を示すことを報告しました。

また、2025年1月28日に、医学とAIを専門とする研究者 Javier Aguirre 氏（韓国）がLinkedIn上で「DeepSeekに非常に感銘を受けた。ChatGPT-o1では解決できなかった複雑なコーディング問題を一発で解き明かした」と投稿し、他のAI研究者からも同様の反応が寄せられています。

DeepSeekの開発元からのテクニカルレポート内容は下記をご参照ください。

DeepSeek R1が実現した教師なし強化学習による推論性能の向上

ただし、LLMの機能は多岐にわたり（インフラストラクチャ、アーキテクチャ、性能、コストなど）、実行可能なタスクも数え切れません。検証が済んだタスクはLLMの可能性のごく一部です。既にインターネットやSNS上では多くの議論が始まっています。

今回カーネギーメロン大学、ハーバード大学の研究者らが注目したのは「LLMを用いた予測タスクにおける精度」です。LLMならプロンプトを工夫するだけで、ある程度小規模のデータでも柔軟に対応可能になるという利点があります。この点から、DeepSeekが他のLLMと比べてどの程度の予測精度をもつのかが興味深いテーマとなります。そこで、その比較タスクとして2つの「分類」問題が設定されました。

1つ目は著者識別で、人間が書いたテキストかAIが書いたテキストか、あるいは人間が書いたものをAIが手直ししたテキストなのかを分類するタスクです。

2つ目は引用分類で、学術論文の引用文周辺テキストから、その引用がどのタイプかを分類するタスクです。

これら2つにおいて、DeepSeek-R1と他の4つのLLM（OpenAIのGPT-4o-mini、GoogleのGemini-1.5-flash、MetaのLlama-3.1-8b、AnthropicのClaude-3.5-sonnet）が比較実験されました。

以下で詳しく紹介します。