小さなLLMを多数組み合わせることで、単一の巨大モデルに匹敵する可能性

大規模言語モデル(LLM)のパフォーマン...
Read More

大規模言語モデル(LLM)のこれまでとこれから② -モデル構築編-

本記事では、LLM研究全体の背景と現状、...
Read More

大規模言語モデル(LLM)のこれまでとこれから① -代表的なモデル編-

本記事では、LLM研究全体の背景と現状、...
Read More

画像認識

マルチモーダルLLMの技術や開発トレンド、26種類のモデル例を網羅的にまとめた報告
JPモルガンの研究者らは、企業のドキュメントをLLMで読み込むモデル『DocLLM』を発表しました。
視覚・テキスト・音声そして行動データを処理するマルチモーダルLLM「Unified-IO 2」を開発したと報告されています。
Gemini Pro 対 GPT-4V、画像認識能力でどちらが優秀なのか
「視覚は本来、言語に依存しない」と考えた研究者らが、言語データなしで大規模ビジョンモデル(LVM)を構築するアプローチを開発
画像分析機能を持つオープンソースLLM『LLaVA-1.5』登場。手持ちの画像を分析可能。GPT-4Vとの違い
「1枚絵の3D化」が非常に手軽な操作で実行できる軽快なツール『DreamGaussian』とWebでの使い方
OpenAI、ChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化

業界/カテゴリー

PAGE TOP