マルチモーダルLLMにおける幻覚（ハルシネーション）の原因と対策クリエイティブでの活用も推奨 AWSなどが網羅的に調査

マルチモーダルLLMにおける幻覚（ハルシネーション）の原因と対策　クリエイティブでの活用も推奨　AWSなどが網羅的に調査

テキストだけでなく画像や動画などの視覚情報も理解し、それらを組み合わせて高度なタスクを遂行するマルチモーダルの大規模言語モデル（マルチモーダルLLM）が注目を集めています。

そんな中、モデルが生成した内容が入力された情報と矛盾したり、事実とかけ離れたりする現象である「ハルシネーション」の問題が、マルチモーダルLLMにおいても問題となっています。

そこで今回Amazon Prime Videoなどの研究者らは、マルチモーダルLLMにおけるハルシネーションの原因や評価方法、対策などについて詳しく調査しています。

参照論文情報

著者：Zechen Bai, Pichao Wang, Tianjun Xiao, Tong He, Zongbo Han, Zheng Zhang, Mike Zheng Shou

マルチモーダルLLMが注目を集めるようになりました。マルチモーダルLLMは主に、画像や動画などの視覚情報を理解し、それに基づいて言語生成を行うことができるモデルを指します。今後も、さらに異なるモダリティ（情報の種類）に対応できるようになることが期待されています。

しかし、マルチモーダルLLMにおいてもハルシネーションの問題が顕在化しています。生成されたテキストと入力された視覚情報が不整合するといった現象です。存在しないオブジェクトを言及したり、オブジェクトの属性や関係性を誤って説明したりするなどのケースがあります。

ハルシネーションに起因する信頼性や安全性への懸念から、マルチモーダルLLMの社会実装が阻まれる恐れがあります。そのため、解決に向けた取り組みが求められています。

今回研究者らは、マルチモーダルLLMのハルシネーション問題に関する最新の動向を整理し、課題と将来の方向性を示しています。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

AIDBは、論文などの文献に基づいてAIの科学技術や市場にキャッチアップするためのサービスです。個人の研究や仕事探し、法人の調査や採用を支援します。2019年から運営しています。