マルチモーダルLLMにRAG(検索拡張生成)を組み合わせ、「目の前の画像に関連する ”過去の画像” 」を参照させることで推論の性能を上げるフレームワークが考案されています。
“Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination”より
さまざまな視覚言語タスク(例えば画像に関する質問応答)でマルチモーダルLLMが活用されつつある一方、ハルシネーションを抑えて推論性能を上げるノウハウが求められています。
そこで今回RAGで解決する試みが行われています。
■フレームワーク『Pensieve』
– 推論時に関連画像をデータベースから取得する
– 画像間の比較により、重要な情報を抽出する
– 結果としてハルシネーションが抑制される
■実験と結果
– マルチモーダルLLMのLLaVA-1.5、InstructBLIPを使用
– 4種類のベンチマークで「画像キャプション生成」と「画像に関する質問応答タスク」を実験
– 『Pensieve』適用により一貫して性能が向上することが定量的に示された
ハルシネーションが生じる際にもモデルは画像を分析して手掛かりを得ることはできている点に注目し、設計されたのが今回のフレームワークとのことです。