最新の記事:科学は「研究」と「査読」両方が加速していく AIと…
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

マルチモーダルLLMで画像分析する際、画像に「ドットマトリックス」を重ねるだけで認識精度が大きく向上

2024.03.13
深堀り解説

大規模マルチモーダルモデルは、複雑な推論が必要なタスクではまだまだパフォーマンスが限られています。そこで、画像上に点のマトリックスを重ね、各点に座標を割り当てることで精度を向上する手法『SCAFFOLD』が考案されました。

実験では空間推論、視覚的理解、幻覚の検出など、様々なベンチマークでSCAFFOLDの有効性が示されました。

参照論文情報

  • タイトル:Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models
  • 機関:Tsinghua University
  • 著者:Xuanyu Lei, Zonghan Yang, Xinrui Chen, Peng Li, Yang Liu

背景

GPT-4Vなどの大規模マルチモーダルモデルは様々なタスクで優れた性能を示しています。言語モデルの高度な推論能力を活用し、現実のシナリオへの応用が期待されています。

しかし、現在は複雑な推論を行う際に性能が限られています。例えば、空間推論タスクでは、画像中の様々な情報源の関係を明らかにする必要があります。つまり、正確な視覚認識と言語理解のオーケストレーションが求められるのです。

マルチモーダルモデルのレベルを上げるためにこれまでに大きく2つのアプローチが取られてきました。

一つ目はInstruction Tuningで、高品質な画像テキストペアで追加学習する手法です。しかし、大量の計算リソースを消費するため、柔軟性に欠けます。

二つ目はPromptingで、Chain-of-Thoughtなどが代表例です。ただし、テキストpromptは探求されているものの、Visual promptingはあまり検討されていません。

今、シンプルで汎用的なVisual promptingの手法が求められています。そこで新たに考案されたのが『SCAFFOLD』です。

以下で詳細を紹介します。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能
  • プロンプト管理ツールの利用

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に
  • プロンプト管理ツールの無制限使用

記事検索

年/月/日
年/月/日

関連記事