LLMで実現、ゼロショット対話型ジェスチャー理解

2023.11.04

画像・Vision（画像認識、VLM、マルチモーダル、OCR）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

「人間の身振り手振り」をLLMを活用して高い精度で認識することができると明らかにされました。

開発されたシステム『GestureGPT』は、事前に知っているジェスチャーだけでなく、新しい表現に対しても柔軟に理解能力を示すとのこと。

@ Xin Zeng et al., “GestureGPT: Zero-shot Interactive Gesture Understanding and Grounding with Large Language Model Agents”

機械がジェスチャーを理解できると、多方面でインタフェースなどに画期的な進歩をもたらします。
これまで特定のジェスチャーを認識させる取り組みは行われてきました。
しかし、個人や文化の違いなども汲み取る柔軟なシステムの登場が待たれていました。

そこで研究者らは、LLMが文脈を理解する力を活かしたジェスチャー理解システム『GestureGPT』を開発しました。

■『GestureGPT』の主な仕組み
① ユーザーの手や視線の動きを（Tobii Eye Tracker 5で）キャプチャ
② 既存の訓練データを（ジェスチャーの開始点と終了点を特定し、）前処理
③ ジェスチャーを自然言語に変換し、LLMが理解できる形式にする
④ 記述を入力として受け取った2体のLLMエージェントが話し合い、アクションプランを予測

■性能の評価テストと実験結果
・テスト：
① GPT-3.5とVicuna-13Bで検証
② 人間の被験者がジェスチャーを通して様々なタスクを実行
② タスクに対して被験者が任意/指定のジェスチャーで表現
・結果：
① 動きが複雑化してトラッキングが難しい場合でもLLMが柔軟に文脈を解釈
② IoTシステム操作タスクで90.78%、動画再生インタフェース操作タスクでは80.11%の精度であった

■結論/注意点
① LLMのAPI応答時間がさらに速くなると性能が向上する可能性がある
② 将来的には特定のタスクに対してデータを収集し、専用モデルをファインチューニングすることも検討している

📄 参照論文

論文情報と関連研究

📎 論文を読む（arxiv.org）

X（Twitter）で見る

LLMで実現、ゼロショット対話型ジェスチャー理解

📄 参照論文

こちらもどうぞ

🔒 LLMと人間の協働に必要となる「ユーザーの適切な依存」

LLM内部に報酬系に類似する反応パターン、予想外の正解で活性化