次回の更新記事:良いREADMEを書けているかLLMで自動検証・改善する方…(公開予定日:2026年03月06日)

物理概念を理解するVision-Languageモデル

ロボティクス(ロボット制御、embodied AI、マニピュレーション)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

AIが「見た目に対する物理的感覚」を得ました。
”変形しにくい容器はどっち?”
“壊れやすいのはどっち?”
などの問いに対して正確に答えます。

スタンフォード大学、DeepMind、プリンストン大学の研究チームが報告しました。

○ Jensen Gao et al. Physically Grounded Vision-Language Models for Robotic Manipulation

研究者たちはAIに物理的概念を教える『PhysObjects』という新しいデータセットを作成し、訓練されたモデルが驚きのタスクに成功する結果に出会いました。

■『PhysObjects』の内容
約36,900個の家庭用品に対する、約417,000件の「物理概念」(※)ラベルデータ

※「物理概念」の内訳
・質量(Mass)
・壊れやすさ(Fragility)
・変形性(Deformability)
・材料(Material)
・透明性(Transparency)
・内容物(Contents)
・液体の保持能力(Can Contain Liquid)
・密封性(Is Sealed)

■『PhysObjects』とVLMの使い方
① PhysObjectsでVLMを微調整
② VLMの「オブジェクトに対する物理的感覚」が向上
③ VLMが「見た目から物理情報を推測できる」ようになる
④ VLMがロボットなどに組み込まれる

■実験結果
PhysObjectsで微調整されたVLMが組み込まれたロボティックマニピュレーションが、以下などのタスクに成功しました。
・水を運ぶことができる容器のみ移動する
・最も壊れやすいオブジェクトを移動する
・最も質量が少ない2つのオブジェクトを、最も変形しにくい容器に入れる
・最も重い3つのオブジェクトを移動する

なお、データセットやモデルは公開されており、誰でも試すことができます。

📄 参照論文

○ Physically Grounded Vision-Language Models for Robotic Manipulation

著者: 著者:Jensen Gao, Bidipta Sarkar, Fei Xia, Ted Xiao, Jiajun Wu 他

関連記事