LLMが「自然言語で記述されたアルゴリズムを実行する」能力で非常に高い性能を示す

今回研究者らは、自然言語で記述されたアルゴリズムの理解におけるLLMの能力を調査しました。

そしてアルゴリズムの教科書『アルゴリズムイントロダクション』から30の代表的なアルゴリズムを使用した実験により、GPT-3.5、GPT-4などの代表的なLLMの性能を検証しました。

結果、LLM、特にGPT-4は、重い数値計算が含まれていない限り、自然言語で記述されたプログラムを効果的に実行できることが示されています。

参照論文情報

タイトル：Executing Natural Language-Described Algorithms with Large Language Models: An Investigation

背景

コンピュータサイエンスの世界では、自然言語で記述されたプログラムを理解し実行できるシステムが必要とされており、高性能なツールの登場が待たれています。そのため、最近ではLLMのコード実行能力が期待されていますが、評価ベンチマークが不足しているため、現在の性能はあまりわかっていません。

この問題に取り組むため、研究者らは以下のように研究を行いました。

なお、実験に使用したタスクは、『アルゴリズムイントロダクション』から使用されています。のちに説明するとおり、研究者らはリーク（モデルが答えを暗記しているケース）の可能性は低いと考えています。

以下で、実験内容と結果を詳しく紹介します。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

AIDBは、論文などの文献に基づいてAIの科学技術や市場にキャッチアップするためのサービスです。個人の研究や仕事探し、法人の調査や採用を支援します。2019年から運営しています。