最新の記事:科学は「研究」と「査読」両方が加速していく AIと…
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

DeepSeek-R1の性能を検証 4つの主要LLMと比較

2025.02.10
深堀り解説

DeepSeek(DeepSeek-R1)はAIコミュニティ内外で大きな注目を集めています。本記事では、DeepSeekがその他のLLMと比較してどのような性能を示すのかを探求した研究を紹介します。

比較に使用されたのは4種類の代表的なLLM(Claude、Gemini、GPT、Llama)です。

また実験されたタスクは「テキストが人間の執筆か、それともAIによる執筆なのか」を判断すること、「引用文の周辺テキストから、その引用を4つのタイプのいずれかに分類すること」でした。比較の結果、さまざまな新しい事実が浮かび上がりました。

背景

新しいLLMであるDeepSeekはAI業界を大きく揺るがしています。2025年1月20日に最新版(DeepSeek-R1)がリリースされて以来、DeepSeekはニュースやSNSの見出しを飾り、Apple Storeのダウンロード数でも急上昇し、投資家を驚嘆させ、Nvidiaをはじめとする一部テック株を下落させました。

DeepSeekが注目される理由は、特定のベンチマークタスクにおいて、大手のAIモデル(例:OpenAIのChatGPT)と同等、あるいはそれ以上の成績を収めているにもかかわらず、学習コストがはるかに低いという点です。例えば、Evstafevは、MATHデータセットから抽出した30題以上の難易度の高い数学問題を用いたテストですが、DeepSeek-R1がChatGPTやGemini等を上回る正答率を示すことを報告しました。

また、2025年1月28日に、医学とAIを専門とする研究者 Javier Aguirre 氏(韓国)がLinkedIn上で「DeepSeekに非常に感銘を受けた。ChatGPT-o1では解決できなかった複雑なコーディング問題を一発で解き明かした」と投稿し、他のAI研究者からも同様の反応が寄せられています。

DeepSeekの開発元からのテクニカルレポート内容は下記をご参照ください。

DeepSeek R1が実現した教師なし強化学習による推論性能の向上

ただし、LLMの機能は多岐にわたり(インフラストラクチャ、アーキテクチャ、性能、コストなど)、実行可能なタスクも数え切れません。検証が済んだタスクはLLMの可能性のごく一部です。既にインターネットやSNS上では多くの議論が始まっています。

今回カーネギーメロン大学、ハーバード大学の研究者らが注目したのは「LLMを用いた予測タスクにおける精度」です。LLMならプロンプトを工夫するだけで、ある程度小規模のデータでも柔軟に対応可能になるという利点があります。この点から、DeepSeekが他のLLMと比べてどの程度の予測精度をもつのかが興味深いテーマとなります。そこで、その比較タスクとして2つの「分類」問題が設定されました。

1つ目は著者識別で、人間が書いたテキストかAIが書いたテキストか、あるいは人間が書いたものをAIが手直ししたテキストなのかを分類するタスクです。

2つ目は引用分類で、学術論文の引用文周辺テキストから、その引用がどのタイプかを分類するタスクです。

これら2つにおいて、DeepSeek-R1と他の4つのLLM(OpenAIのGPT-4o-mini、GoogleのGemini-1.5-flash、MetaのLlama-3.1-8b、AnthropicのClaude-3.5-sonnet)が比較実験されました。

以下で詳しく紹介します。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能
  • プロンプト管理ツールの利用

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に
  • プロンプト管理ツールの無制限使用

記事検索

年/月/日
年/月/日

関連記事