視覚を手にしたLLMが自動運転にどれほど役立つのかを探るため、GPT-4Vの能力が検証されました。
さまざまなタスクで実験したところ、「因果関係の推論」や「シーン(景色)の理解」に長けていると結論づけられました。
一方で、課題感の強いタスクも浮き彫りになっています。
@ Licheng Wen et al., “On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving”
論文によると、完全自動運転の実現においては「常識的な推論」や「繊細なシーン理解」がハードルになっているとのことです。
研究者らは、視覚を持つ最先端のLLMが、自動運転にどのように応用できるのかを調べるため、GPT-4V(ision)を評価しました。
■評価結果のポイント
GPT-4Vは、およそ高い能力を示したとのことです。
① 昼夜や天候の違いを識別し、運転戦略を提案
② 交通信号や標識の識別は一部、誤認識が発生
③ 異なるカメラの画像から、他者の行動を評価
④ 複雑な交通状況や、突発的なシナリオにおいても適切な判断を下す
⑤ リアルタイムの運転状況から意思決定を行う
■GPT-4Vがまだ苦手だったこと
実際の運転環境への応用にはさらなる改善が必要とのことです。
① 交通信号の正確な識別
② 特に小さな信号やカウントダウンタイマーの認識
③ 連続する映像データの処理
④ 空間的な推論や複雑な方向判断
今後、将来的な完全自動運転に向けて、視覚を持ったLLMがどのように役立つのかを知るきっかけとなる研究報告です。