量子化はLLMの性能にどう影響を与えるか?モデルが持つ「自信」の観点から説明

LLMは多大な計算コストとメモリーを必要...
Read More

LLMでWikipediaのような文書を作成する方法「STORM」スタンフォード大学研究者ら開発

スタンフォード大学の研究グループが提案し...
Read More

Appleが開発 スマホに特化したマルチモーダルLLM『Ferret UI』

「スマホ画面上のオブジェクトを理解するの...
Read More

画像認識

Gemini Pro 対 GPT-4V、画像認識能力でどちらが優秀なのか
「視覚は本来、言語に依存しない」と考えた研究者らが、言語データなしで大規模ビジョンモデル(LVM)を構築するアプローチを開発
画像分析機能を持つオープンソースLLM『LLaVA-1.5』登場。手持ちの画像を分析可能。GPT-4Vとの違い
「1枚絵の3D化」が非常に手軽な操作で実行できる軽快なツール『DreamGaussian』とWebでの使い方
OpenAI、ChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化
数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』
ロボットが「初めて見る環境」で「初めて聞く指示」に対しても行動をとれるようにする
未知の物体を認識し、それを既知の物体と区別する新たな研究 BMWやGoogleなど

業界/カテゴリー

PAGE TOP