テキストだけでなく画像や動画などの視覚情報も理解し、それらを組み合わせて高度なタスクを遂行するマルチモーダルの大規模言語モデル(マルチモーダルLLM)が注目を集めています。
そんな中、モデルが生成した内容が入力された情報と矛盾したり、事実とかけ離れたりする現象である「ハルシネーション」の問題が、マルチモーダルLLMにおいても問題となっています。
そこで今回Amazon Prime Videoなどの研究者らは、マルチモーダルLLMにおけるハルシネーションの原因や評価方法、対策などについて詳しく調査しています。
参照論文情報
- タイトル:Hallucination of Multimodal Large Language Models: A Survey
- 著者:Zechen Bai, Pichao Wang, Tianjun Xiao, Tong He, Zongbo Han, Zheng Zhang, Mike Zheng Shou
- 所属:National University of Singapore, Amazon Prime Video, AWS Shanghai AI Lab
背景
マルチモーダルLLMが注目を集めるようになりました。マルチモーダルLLMは主に、画像や動画などの視覚情報を理解し、それに基づいて言語生成を行うことができるモデルを指します。今後も、さらに異なるモダリティ(情報の種類)に対応できるようになることが期待されています。
しかし、マルチモーダルLLMにおいてもハルシネーションの問題が顕在化しています。生成されたテキストと入力された視覚情報が不整合するといった現象です。存在しないオブジェクトを言及したり、オブジェクトの属性や関係性を誤って説明したりするなどのケースがあります。
ハルシネーションに起因する信頼性や安全性への懸念から、マルチモーダルLLMの社会実装が阻まれる恐れがあります。そのため、解決に向けた取り組みが求められています。
今回研究者らは、マルチモーダルLLMのハルシネーション問題に関する最新の動向を整理し、課題と将来の方向性を示しています。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。