物理概念を理解するVision-Languageモデル

2023.09.08

ロボティクス（ロボット制御、embodied AI、マニピュレーション）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

AIが「見た目に対する物理的感覚」を得ました。
”変形しにくい容器はどっち？”
“壊れやすいのはどっち？”
などの問いに対して正確に答えます。

スタンフォード大学、DeepMind、プリンストン大学の研究チームが報告しました。

○ Jensen Gao et al. Physically Grounded Vision-Language Models for Robotic Manipulation

研究者たちはAIに物理的概念を教える『PhysObjects』という新しいデータセットを作成し、訓練されたモデルが驚きのタスクに成功する結果に出会いました。

■『PhysObjects』の内容
約36,900個の家庭用品に対する、約417,000件の「物理概念」（※）ラベルデータ

※「物理概念」の内訳
・質量（Mass）
・壊れやすさ（Fragility）
・変形性（Deformability）
・材料（Material）
・透明性（Transparency）
・内容物（Contents）
・液体の保持能力（Can Contain Liquid）
・密封性（Is Sealed）

■『PhysObjects』とVLMの使い方
① PhysObjectsでVLMを微調整
② VLMの「オブジェクトに対する物理的感覚」が向上
③ VLMが「見た目から物理情報を推測できる」ようになる
④ VLMがロボットなどに組み込まれる

■実験結果
PhysObjectsで微調整されたVLMが組み込まれたロボティックマニピュレーションが、以下などのタスクに成功しました。
・水を運ぶことができる容器のみ移動する
・最も壊れやすいオブジェクトを移動する
・最も質量が少ない2つのオブジェクトを、最も変形しにくい容器に入れる
・最も重い3つのオブジェクトを移動する

なお、データセットやモデルは公開されており、誰でも試すことができます。

📄 参照論文

○ Physically Grounded Vision-Language Models for Robotic Manipulation

著者: 著者：Jensen Gao, Bidipta Sarkar, Fei Xia, Ted Xiao, Jiajun Wu 他

📎 論文を読む（arxiv.org）

X（Twitter）で見る

物理概念を理解するVision-Languageモデル

📄 参照論文

こちらもどうぞ

🔒 今週の注目AI論文リスト（論文公開日2026/2/22～2/28）

🔒 企業システムという複雑な環境でAIエージェントを動かすと起きること