マルチモーダルLLMに心の目を与える『Visualization-of-Thought』プロンプティングが空間推論タスク性能を向上させる

   
★AIDB会員限定Discordを開設いたしました! ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします!↓

最終更新日:2024/04/13

Microsoftの研究者らは、LLMに「心の目」を授けるプロンプト手法『Visualization-of-Thought』(VoT)を考案しました。

実験の結果、VoTによってLLMの空間推論能力(物体の位置関係や動きを理解し、推論する能力)が大幅に向上することが示されています。


AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

参照論文情報

  • タイトル:Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models
  • 著者:Wenshan Wu, Shaoguang Mao, Yadong Zhang, Yan Xia, Li Dong, Lei Cui, Furu Wei
  • 所属:Microsoft Research

背景

LLMにおいて「空間推論」の能力についてはあまり研究が進んでいないのが現状です。空間推論とは、物体の位置関係や動きを理解し、推論する能力のことを指します。

一方で人間は、言語だけでなく、視覚情報から抽象的な表現を作り出したり、見えないものを想像したりする「心の目」と呼ばれるような認知能力を持っています。研究チームは、LLMにも同様の能力があるのではないかと考え、「Visualization-of-Thought (VoT)」と名付けた新しいプロンプティング手法を開発しました。






VoTは、LLMに推論の途中経過を可視化するよう促して追跡を可能にします。LLMは推論ステップごとに心の目でイメージを生成し、次のステップに活かすことができます。また、VoTはゼロショットプロンプティングを採用しており、外部ツールや人手の入力に頼る必要がありません。(なおゼロショットプロンプティングとは、学習済みのモデルに対して、タスクの説明だけを与えて推論させる手法です。)

実験の結果、VoTを適用することでLLMの空間推論能力が大幅に向上することが明らかになりました。

以下で詳しく紹介します。

空間推論能力について

空間推論は、ロボットや自動運転など、さまざまな分野で重要な役割を果たします。言語モデルはそれらのアプリケーションにおいて応用されはじめていますが、空間推論能力については未知の状態です。

研究チームは、LLMの空間認識と推論力を評価するために、ナビゲーション(移動)や幾何学的推論に関連する以下の3つのタスクを使用しました。

  1. 自然言語ナビゲーション
    ランダムウォークに基づいて生成された空間構造内を移動し、以前に訪れた場所を認識するタスクです。(ランダムウォークとは、各ステップで移動方向をランダムに選択しながら空間内を移動すること)
  2. 視覚ナビゲーション
    視覚的な手がかりを用いて、障害物を避けながら出発点から目的地まで移動するタスクです。「経路計画」と「次のステップの予測」という2つのサブタスクがあります。
  3. ビジュアルタイリング
    制限されたスペース内で、様々な形のポリオミノ(正方形を辺で連結してできる図形)のピースを理解し、組織化し、推論するタスクです。

上記は「空間の理解」、「幾何学的な形状の推論」のほか、「方向性感覚」、「距離感覚」などに関する能力も試されるタスクです。

タスクの実装方法

自然言語ナビゲーションでは、ランダムウォークに基づいて生成された一連のナビゲーション指示と対応するオブジェクトを含む3×3の正方形のマップを使用します。

視覚ナビゲーションとビジュアルタイリングでは、特殊な文字を用いた2次元グリッドワールドを設計し、LLMに対して豊富な入力形式を提供しています。
視覚ナビゲーションのマップは、半オイラーグラフ(全ての頂点の次数が偶数であるグラフのこと)に基づいて生成されており、移動ステップ数に応じて複雑度が変化します。

ビジュアルタイリングでは、既存のアルゴリズムを用いて有効な空間配置を生成し、ランダムにポリオミノをマスクすることでQAパズルが作成されました。

選択されたタスクは抽象化されているものの、現実世界での空間推論に必要とされるスキルを反映しており、LLMの性能を測る上で適切であると考えられます。

自然言語ナビゲーションは、人間が日常生活で行う経路探索や道順の理解に通じるスキルです。例えば、「駅から3ブロック先の右側にあるレストラン」のように、言葉だけを頼りに目的地を見つけ出すようなシーンに該当します。

視覚ナビゲーションは、ロボットや自動運転車が環境を認識し、適切な経路を計画・実行するために必要な能力と関わりが強いです。

ビジュアルタイリングは、制限されたスペースに複数の図形を配置する能力が必要とされるため、現実世界で例えると荷物の積み込みや、限られたスペースを有効活用するインテリア配置などに応用できる可能性があります。

Visualization-of-Thought(VoT)プロンプティング

人間がナビゲーションなどの空間タスクを行う際、頭の中でマップをイメージしたり、動きをシミュレーションしたりすることで、空間認識を高め、意思決定に役立てています。研究チームは、LLMにも同様の能力があると考え、推論の途中経過を可視化することで、LLMの空間認識を引き出し、推論の根拠を明確にすることを目指しました。

そこで、「推論ステップごとに状態を可視化せよ」というプロンプト(指示)を与える手法を考案しました。推論の痕跡と可視化を交互に生成することで、空間推論能力を向上させられると考えたのです。

仕組み

VoTでは、LLMが推論ステップごとに「視空間スケッチパッド」を用いて思考を可視化します。前のステップまでの思考と可視化に基づいて、次の思考を生成するものです。また、「状態」という概念を導入し、各ステップにおける部分的な解を表現します。

視覚的状態追跡による推論の強化

視覚的状態追跡では、LLMが各推論ステップ後の内部状態をメンタルイメージとして生成します。これにより、時空間的な因果関係を反映した後続の状態が導出され、LLMの空間推論能力が強化されます。

VoTプロンプティングは、LLMに人間の「心の目」に類似したメカニズムを与えることで、空間推論を向上させる新しいアプローチです。推論ステップごとに視覚化することで、LLMは状態を追跡し、根拠に基づいた推論を行うことができます。この手法は、マルチモーダルな大規模言語モデル(MLLM)の発展にも貢献すると期待されています。

VoTプロンプティングで使用されるプロンプトを、本実験で使用された例をもとに日本語で具体化してみると以下のようになります。

自然言語ナビゲーションタスクのプロンプト

あなたは3×3の正方形グリッドを与えられました。グリッドの頂点からスタートし、辺に沿って移動します。 

最初は、グリッドの左下の頂点にいます。そこでは懐中電灯が見つかります。
右に移動すると、ベビーベッドが見つかります。
さらに右に移動すると、アメリカアカゲラが見つかります。

そこから上に移動すると、カケスが見つかります。
左に移動すると、ヌマガメが見つかります。 
さらに左に移動すると、電子レンジが見つかります。

そこから上に移動すると、野球選手が見つかります。
右に移動すると、ザトウムシが見つかります。
さらに右に移動すると、ネックブレースが見つかります。

これで、地図に関する情報がすべて得られました。

懐中電灯がある位置からスタートし、
1ステップ右に移動し、
さらに1ステップ右に移動し、
1ステップ上に移動し、
さらに1ステップ上に移動し、
1ステップ左に移動し、 
1ステップ下に移動し、
さらに1ステップ下に移動します。

そこで何が見つかりますか?

推論の各ステップ後の状態を可視化してください。

視覚ナビゲーションタスクのプロンプトテンプレート

ナビゲーションタスク: 提供された地図において、〜は出発地点、〜は目的地を表します。〜は道、〜は障害物を意味します。各地図には、必ず1つの有効な経路が存在します。各ステップでは、方向を選択し、連続する道の端または目的地まで移動します。

地図:(画像を入力)
〜から出発し、〜まで移動するためのステップを提供してください。
推論の各ステップ後の状態を可視化してください。

ビジュアルタイリングタスクのプロンプトテンプレート

タスク: 与えられたポリオミノピースとそれぞれのバリエーションを使って、ターゲットの長方形にある空白のマス( )を、既存のポリオミノと重ならず、長方形の外に出ないように埋めてください。バリエーションは、平行移動のみ可能で、回転や反転はできません。必ず解が存在することが保証されています。

ターゲットの長方形 (空白のマス12個):(画像を入力)

提供されたポリオミノ:
1. テトロミノ I ( )
2. テトロミノ L ( )
3. テトロミノ T ( )

テトロミノ Iのバリエーション:
バリエーション1 (バウンディングボックス内に配置):(画像を入力)

バリエーション2 (バウンディングボックス内に配置):(画像を入力)
...
提供されたすべてのポリオミノを空白のマス( )に当てはめるとき、テトロミノTの正しいバリエーションは何ですか?
A. 2
B. 3
C. どちらでもない

推論の各ステップ後の状態を可視化してください。

いずれのタスクでも、「推論の各ステップ後の状態を可視化してください」という指示がキーポイントになっています。LLMは与えられた情報を空間的に理解し、移動指示を正しく解釈して最終的な答えを導き出すと期待されています。

実験

研究チームは、Visualization-of-Thought (VoT) プロンプティングの効果を確かめるために、上述した3つの空間推論タスク(自然言語ナビゲーション、視覚ナビゲーション、ビジュアルタイリング)を用いて実験を行いました。

モデルの設定

実験では、(最先端のLLMである)GPT-4と、画像なども理解できるGPT-4 Visionを使用しました。そして、以下の4つの設定で性能を比較しました。

  1. GPT-4 CoT: 思考の流れを言葉で説明させるプロンプティングを適用したGPT-4
  2. GPT-4 w/o Viz: 可視化を明示的に禁止したGPT-4
  3. GPT-4V CoT: 画像入力を与えたGPT-4 Visionに対して思考の流れを言葉で説明させるプロンプティングを適用
  4. GPT-4 VoT: VoTプロンプティングを適用したGPT-4

データセット

自然言語ナビゲーションでは、9つのランドマークを含む3×3のマップを200個用意しました。また、視覚ナビゲーションでは、移動回数に応じて難易度が変化するマップを生成しました。

そしてビジュアルタイリングでは、5つのポリオミノピース(正方形を辺で連結してできる図形)を使って5×4の長方形を埋める問題を作成し、一部のピースを隠してLLMに当てさせるクイズを出題しました。

結果と考察

実験の結果、VoTプロンプティングを適用したGPT-4 VoTが全てのタスクで最も高い性能を示しました。つまり、視覚的な状態追跡がLLMの空間推論能力を大きく向上させることが明らかになりました。

また、視覚タスクにおいてGPT-4 CoTがGPT-4V CoTを上回ったことから、LLMが2次元グリッドを理解することで、画像を扱う場合よりも高い性能を発揮できる可能性が示唆されました。平たく言えば、画像理解性能よりも、テキスト理解性能のほうが、視覚情報を処理する上で優位に立っている可能性が示されたのです。

なおGPT-4 VoTでも完璧とは言えず、特に難しいルートプランニングタスクでは人間のような柔軟な問題解決には至りませんでした。LLMの視覚化能力には限界があり、今後さらなる改善が必要だと考えられます。

また、興味深いことに、論理的な推論だけで解決できるタスクでは、VoTプロンプティングがかえって性能を下げてしまう場合があることも分かりました。

議論

実験の過程で、GPT-4 VoTが状態追跡に失敗するケースがわずかに見られました。つまり、VoTは、推論のステップごとに状態を可視化して次のステップに活用するという視覚的状態追跡を行うことを期待されていますが、時折それができないことがあったようです。また、VoTの出力には不正確な可視化が含まれることもありました。

一方、GPT-4 CoTでは、ルートプランニングを除く特定のタスクで同様の推論パターンが時折観察されました。VoTプロンプティングで見られたような推論パターン(つまり、各推論ステップでの状態の可視化)が見られたということです。

そこで、研究チームは以下の2つの疑問について、全てのタスクの出力を詳細に分析しました。

  1. プロンプティング手法によって、視覚的状態追跡の挙動に違いはあるのか?
  2. 可視化はどのように最終的な回答の精度を向上させるのか?

分析の結果、明示的に可視化を指示しないGPT-4 CoTでも、ルートプランニングを除くほぼ全てのタスクで状態追跡が行われていることが分かりました。これは、LLMが時空間的なシミュレーションが必要な推論を行う際、本質的にこの能力を発揮していることを示唆しています。

また、2次元グリッドの入力は自然言語よりもLLMの状態追跡を活性化させやすいことも明らかになりました。

一方で、状態追跡の挙動はプロンプトに敏感で、VoTプロンプトから「reasoning」という単語を削除すると、LLMが間違った回答を生成した後に可視化を行うようになってしまいました。つまり、VoTは推論のステップごとに可視化するようLLMに明示的に指示することで、視覚的状態追跡を大幅に増加させ、パフォーマンスを向上させているのです。

可視化が回答の精度に与える影響

理想的には、VoTは各ステップで正確な可視化を生成し、それに基づいて次のステップを適切に選択することでLLMの推論を助けます。

視覚ナビゲーションとビジュアルタイリングのタスクにおいて、GPT-4 VoTの最後の推論ステップで生成された可視化を分析したところ、状態の可視化精度は50%程度であることが分かりました。一方、正確な可視化が得られた場合の空間理解精度は65%以上でした。

つまり、LLMの状態可視化能力には大きな改善の余地がありますが、正確な可視化ができれば、それに基づいて適切な判断を下せる空間理解能力は十分に備わっているようです。

研究チームは、VoTプロンプティングによる推論の過程で、LLMがユニークな挙動を示すことに気づきました。例えば、状態追跡の際には実に多様な記号や表現が使われていました。また、言語と可視化の間に矛盾が生じることもありましたが、LLMは後続のステップで推論を修正し、正確な可視化と回答にたどり着くこともありました。この現象の解明は今後の課題となります。

まとめ

本記事では、大規模言語モデル(LLM)の空間推論能力を向上させる新しいアプローチとして、Visualization-of-Thought (VoT) プロンプティングを提案した研究を紹介しました。

VoTプロンプティングは、人間の「心の目」と呼ばれる認知機能に着想を得た手法です。LLMに推論の途中経過を可視化するよう指示を出すことで、LLMが視覚的に状態を追跡しながら空間推論を行わせるものです。

研究チームは、GPT-4を用いた実験で、VoTプロンプティングがLLMの空間推論能力を大幅に向上させることを実証しました。

一方で、VoTプロンプティングにはまだ限界があることも明らかになりました。

研究チームは、今回の知見を活かし、LLMの「心の目」をさらに進化させることで、人間のような柔軟な空間理解の実現を目指しています。


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






業界/カテゴリー

PAGE TOP