Gemini-1.5-proやGPT-4o-miniなどの性能を上回るLLaVA-o1(11Bパラメータ)

   

本記事では、視覚と言語を組み合わせたマルチモーダルLLMの推論能力を大きく向上させる新しい研究成果を紹介します。

これまでの視覚言語モデルは論理的な推論を苦手としており、また推論過程でエラーを起こしやすいという問題を抱えていました。そこで研究チームは、人間のように段階的に考えを組み立てていく新しいアプローチを開発し、その有効性を実証しました。

重要なお知らせ:AI分野のお仕事マッチングサービス「AIDB HR」を開始しました!登録後はオファーを受け取るだけのシンプルなサービスです!現在、期間限定で、ギフト券が必ずもらえる新規登録キャンペーンも行っています。



参照論文情報

  • タイトル:LLaVA-o1: Let Vision Language Models Reason Step-by-Step
  • 著者:Guowei Xu, Peng Jin, Li Hao, Yibing Song, Lichao Sun, Li Yuan
  • 所属:Peking University, Tsinghua University, Peng Cheng Laboratory, Alibaba DAMO Academy, Lehigh University

背景

視覚は世界を理解し認知能力を拡張するために言語と同様に重要な要素とされています。そのため、言語と視覚を統合しながら推論するマルチモーダルモデルの開発は重要な課題となっています。

通常、視覚言語モデル(VLM)は論理的推論を必要とするタスクは得意としていません。Chain-of-Thoughtを導入すると性能は向上するものの、多くのVLMは依然として推論過程でエラーや幻覚出力を生成するという課題を抱えています。

研究チームの分析によると、問題の主な原因は、既存のVLMの推論プロセスが十分に構造化されていないことにあります。OpenAI o1は問題に効果的に対処していますが、技術的詳細はブラックボックスのままです。

そこで今回研究者らは、VLMが自律的にステップバイステップの推論を行う能力を向上させるアプローチに取り組みました。そうして生まれたのがLLaVA-o1と呼ばれる方法論です。

LLaVA-o1が、より大規模なオープンソースモデルや一部のクローズドソースモデルを上回る性能を示すグラフ

2つの問題解決例を通じて、ベースモデル(Llama-3.2-11B-Vision-Instruct)とLLaVA-o1の推論プロセスの違いを示す





提案手法

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について




■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






PAGE TOP