マルチモーダルLLMにおける幻覚(ハルシネーション)の原因と対策 クリエイティブでの活用も推奨 AWSなどが網羅的に調査

   

テキストだけでなく画像や動画などの視覚情報も理解し、それらを組み合わせて高度なタスクを遂行するマルチモーダルの大規模言語モデル(マルチモーダルLLM)が注目を集めています。

そんな中、モデルが生成した内容が入力された情報と矛盾したり、事実とかけ離れたりする現象である「ハルシネーション」の問題が、マルチモーダルLLMにおいても問題となっています。

そこで今回Amazon Prime Videoなどの研究者らは、マルチモーダルLLMにおけるハルシネーションの原因や評価方法、対策などについて詳しく調査しています。

重要なお知らせ:AI分野のお仕事マッチングサービス「AIDB HR」を開始しました!登録後はオファーを受け取るだけのシンプルなサービスです!現在、期間限定で、ギフト券が必ずもらえる新規登録キャンペーンも行っています。



参照論文情報

  • タイトル:Hallucination of Multimodal Large Language Models: A Survey
  • 著者:Zechen Bai, Pichao Wang, Tianjun Xiao, Tong He, Zongbo Han, Zheng Zhang, Mike Zheng Shou
  • 所属:National University of Singapore, Amazon Prime Video, AWS Shanghai AI Lab

背景

マルチモーダルLLMが注目を集めるようになりました。マルチモーダルLLMは主に、画像や動画などの視覚情報を理解し、それに基づいて言語生成を行うことができるモデルを指します。今後も、さらに異なるモダリティ(情報の種類)に対応できるようになることが期待されています。

しかし、マルチモーダルLLMにおいてもハルシネーションの問題が顕在化しています。生成されたテキストと入力された視覚情報が不整合するといった現象です。存在しないオブジェクトを言及したり、オブジェクトの属性や関係性を誤って説明したりするなどのケースがあります。

ハルシネーションに起因する信頼性や安全性への懸念から、マルチモーダルLLMの社会実装が阻まれる恐れがあります。そのため、解決に向けた取り組みが求められています。

今回研究者らは、マルチモーダルLLMのハルシネーション問題に関する最新の動向を整理し、課題と将来の方向性を示しています。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






PAGE TOP