大規模言語モデルに16,000以上のAPIを理解し適切に操作する能力を与える「ToolLLM」

近年、大規模言語モデルは、その能力を発揮し、人間と同等のパフォーマンスを達成することができるようになりました。しかし、それでもまだ解決すべき課題があります。今回紹介する研究は、大規模言語モデルが実世界のAPIを理解し、適切に操作する能力を与えることで、課題解決能力を上げるものとなります。

参照論文情報

タイトル：ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

著者：Yujia Qin, Shihao Liang, Yining Ye et al.

所属：イエール大学、WeChat AIなど

URL：arXiv:2307.16789

GitHub：https://github.com/OpenBMB/ToolBench

関連研究

Metaが商用利用可能な大規模言語モデル「Llama 2」リリース　無料でブラウザから動かせるデモも続々登場

大規模言語モデルが音声をダイレクトに理解する能力を与える　Metaとケンブリッジ大

大規模言語モデルにおける課題と応用例を整理した結果

ToolLLMとは何か？

ToolLLMは、大規模言語モデルが実世界のAPIを理解し、適切に操作する能力を向上させるためのフレームワークです。具体的には、16,000以上のAPIを理解し、それらを適切に操作することができます。

ToolLLMの目指すものは、大規模言語モデルがAPIを自然言語で理解し、それに基づいてAPIを操作することです。その結果、大規模言語モデルは、より具体的なタスクを達成する能力を獲得します。

この研究では、ToolBench、ToolLLaMA、およびToolLLMという三つの主要なコンポーネントが提唱されています。それぞれの役割と関係性について説明します。

ToolBench: チューニングデータセットの構築を助けるフレームワークです。具体的には、16,464の実世界のRESTful APIをRapidAPIから収集し、それらを使用する多様な人間の指示を生成します。さらに、各指示に対する有効な解決策パス（API呼び出しの連鎖）を検索します。

ToolLLaMA: ToolBenchで提供されるデータセットを用いてLLaMAモデルを微調整した結果生まれたモデルです。ToolLLaMAは、特定の指示を実行するための具体的なAPI呼び出しを生成し、その結果を解釈する能力を持っています。

ToolLLM: この研究全体を表す用語です。大規模言語モデル（LLM）を用いて実世界のAPIを理解し、操作する能力を持つ一般的なツール使用フレームワークを指します。ToolLLMは、ToolBenchによるデータ構築、ToolLLaMAの訓練、および評価（ToolEval）を含む一連のプロセスを指します。

これらの用語は、それぞれ異なる役割を果たし、ToolLLMフレームワーク全体の一部を形成しています。

ToolLLMの技術的な特徴

APIの理解と深化

ToolLLMは、APIのドキュメンテーションを自然言語処理によって理解する能力を持っています。この理解は、APIの機能や使用方法を把握するための基礎となります。さらに、ToolLLMはAPIのドキュメンテーションをただ理解するだけでなく、その内容を深化させることも可能です。これは、APIのドキュメンテーションに書かれていない情報を推測し、APIの使用方法をより広範に理解するための手法です。

APIの操作と最適化

APIの操作は、理解したAPIのドキュメンテーションに基づいて行われます。ToolLLMは、APIの呼び出し方を学習し、それを基にAPIを操作します。さらに、ToolLLMはAPIの操作を最適化することも可能です。これは、APIの呼び出し方を学習する過程で得られた知識を活用し、APIの操作をより効率的に行うための手法です。

大規模言語モデルとの連携

ToolLLMは、大規模言語モデルと連携して動作します。大規模言語モデルは、自然言語の理解能力を活用してAPIのドキュメンテーションを理解し、ToolLLMはその理解を基にAPIを操作します。この連携により、ToolLLMは大規模言語モデルが持つ広範な知識と理解能力を活用して、APIの操作をより効果的に行うことが可能になります。