GPT-4匹敵の画像分析LLM『LLaVA-1.5』OSS公開

2023.10.08

画像・Vision（画像認識、VLM、マルチモーダル、OCR）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

画像分析機能を持つオープンソースLLM『LLaVA-1.5』が登場しました。
GPT-4に匹敵する能力を持つとのことです。

デモが公開されており、手持ちの画像を分析させることも可能です。

ウィスコンシン大学とMicrosoftによる開発です。
○ Haotian Liu et al., “Improved Baselines with Visual Instruction Tuning”

GPT-4V以前、従来のLLMは視覚的な情報を処理する能力が不十分だとされていました。
さらに、高性能な画像分析LLMが、あらゆる開発者に提供されることが望まれていました。

そこで研究者らは、フレームワークを工夫して高性能な画像分析LLMであるLLaVA-1.5を開発し、オープンソースで公開しました。

■LLaVA-1.5の特徴
① 画像分析とテキスト処理機能の両方を持つ
② GPT-4を使用して合成データを生成する
③ 未見の画像/指示に対してGPT-4のように高度に処理
④ GPT-4のシナジーにより科学的な質問に高度に対応
⑤ モデルとコード、データセットは公開されている

■LLaVA-1.5の性能
① GPT-4と比較して85.1%の相対スコアを達成
② 科学的な質問にLLaVA単体でも90.92%を達成
③ 11のベンチマークで最先端（SoTA）のパフォーマンスを達成

■備考
① LLaVA-1.5とLLaVA-v1のどちらを使用するかは、何を達成したいかによって変わる
② 基本的にはLLaVA-1.5がより高性能
③ モデルの使用はライセンスに準拠する必要がある

□考察
LLaVAはさまざまな産業や研究で活用できる可能性があり、また開発者の参入によって改善が繰り返されることが期待されます。

一方で、まだ計算コストが高く、参入障壁は存在します。さらにデータの偏りやバイアス、プライバシーなどのリスクは十分に検証し対策する必要があります。

Improved Baselines with Visual Instruction Tuning

著者: 著者：Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee

こちらもどうぞ