日常タスクAIベンチマークGAIA GPT-4正答率15%

2023.11.23

評価・ベンチマーク（モデル評価、ベンチマーク、性能測定）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

「難しいことは頼まないが、人間にとって当たり前のことをやってほしい」といった場合に、AIの能力を評価するためのテストツール『GAIA』が作成されました。

つまり日常的なアシスタントとしてのAIのベンチマークです。
GPT-4は達成率15%でした。

Meta、HuggingFace、AutoGPTの研究者らによる発表です。

@ Grégoire Mialon et al., “GAIA: a benchmark for General AI Assistants”

論文によると、既存のAI評価ベンチマークの測定対象は、一般的なニーズとは異なる可能性があります。
AIは人間にとって困難なタスクをこなしますが、一方で、AIは人間にとって当たり前なタスクが出来ないことが多いためです。

そこで研究者らは、AIをアシスタントとして実行させる際に一般的に求める能力を測定する新たなベンチマーク『GAIA』を作成しました。

■何を測るものか
① 日常的なタスク遂行能力
② 科学的知識
③ 一般知識　など

■どのように測るのか
① 大量の短い質問によるテスト
② テキスト、画像、スプレッドシートによる
③ 答えは一意に定められる

■タスクの内訳
① ウェブブラウジング：355問
② コーディング：154問
③ マルチモダリティ：138問
（各メディアファイルの認識や変換）
④ 多様なファイル形式から内容の読解
⑤ その他：32問
（テトリスの知識など）

■GPT-4の実験結果
全体で15%の成功率であった。
（人間の被験者は92%の成功率であった）

本ベンチマーク『GAIA』は世の中の一般的なニーズにAIが応えられるかどうかを試すものであり、平たく表現すると「地に足のついた素朴なAIがほしい」といったような要望において有用なツールかもしれません。

現在のAIモデルには『GAIA』を優秀な成績でクリアするものは恐らくまだ無いため、今後の開発や普及に期待が持たれています。

論文情報と関連研究

著者: 著者：Grégoire Mialon, Clémentine Fourrier, Craig Swift, Thomas Wolf, Yann LeCun 他

こちらもどうぞ