GPT-4との対話でタスクプランニングを行うロボットシステムフレームワークが発明されました。
複雑なプロンプトエンジニアリングなしで細かな機能実行可能とのこと。
いわゆる “お料理ロボット” の原型が如く、一連の材料を正しい手順で混ぜてドリンクを作ることに成功しています。
UCバークレーの研究者らによる発表です。
@ Boyi Li et al., “Interactive Task Planning with Language Models”
従来のロボットタスクプランニングは、目標に応じて事前に定義されたモジュール設計が必要であり、汎用的ではありませんでした。
最近、LLMの活用が注目を集めてきましたが、ドメインごとの学習やプロンプトエンジニアリングが複雑だと言われてきました。
そこで研究者らは、さまざまなタスクにおいて、シンプルな対話で細かな作業が行えるフレームワーク『Interactive Task Planning(ITP)』を開発しました。
■『ITP』フレームワークの方法論
① ビジョン言語モデル(VLM)で視覚入力を言語に変換
② GPT-4を言語モデルとして使用
③ 高レベルのプランと低レベル(細かい機能)のロボットスキル実行を生成
④ 各レベルに異なる言語エージェントを採用
⑤ ロボットスキルを機能的なAPIに変換
■実証実験
① ドリンク作成システムを検証した
② タスクは、一連の材料から特定のドリンクを作成すること
■実験の結果
① 既存のレシピから実行可能なプランを生成できる
② ユーザーの入力に基づいてプランを動的に調整
■主な結論
① 対話型のタスクプランニングにおいて有用
② リアルワールドのロボットシステムに適用可能
③ コードレベルのプロンプトエンジニアリングが不要
■今後の展望
ユーザーからの新しいリクエストやフィードバックをリアルタイムで組み込む能力が必要