私たちの日常生活では、表やグラフを通じて重要な情報がやり取りされています。例えば、企業の業績報告で使われる表や、データの傾向を示すグラフなどです。LLMにもこのような情報を理解してほしいところですが、現状では人間のような「賢い読み方」ができていません。
人間は表やグラフを見るとき、まず全体を見渡し、そこから必要な部分に注目し、順を追って情報を理解していきます。例えば売上データの表を見るとき、最初に「売上」の列を探し、その中から特に気になる期間の数字に注目する、といった具合です。しかしLLMは通常、画像全体を一度に処理しようとするため、このような段階的な理解が苦手です。
そのような課題に対し、マイクロソフトなどの研究チームは、LLMに「画像の見方」を教える新しい手法を開発しました。重要な部分を強調したり不要な部分を隠したりする編集機能を組み込むことで、LLMも人間のように段階的に画像を理解できるようになるとのことです。