高解像度な深度マップを高速生成するモデル『Depth Pro』Appleが公開

本記事では、1枚の画像から高精度な奥行き...
Read More

100万体のLLMエージェントによるシミュレーションを実験できる環境が登場

本記事では、LLMを活用した大規模マルチ...
Read More

「o1」は従来のモデルとは明確に異なり「珍しいタイプの問題」にも強い

本記事では、OpenAIが開発した新しい...
Read More

画像認識

高解像度な深度マップを高速生成するモデル『Depth Pro』Appleが公開
マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと
漫画を台本に変換するモデル『Magi v2』オックスフォード大学の研究グループが開発
画像と「動画」の中にあるものを認識する『SAM 2(Segment Anything 2)』をMetaが開発
タスクを一度視覚化して取り組ませることで、LLMの推論能力を大きく向上させるプロンプト手法『Whiteboard-of-Thought(ホワイトボード思考法)』
マルチモーダルLLMは従来手法よりゼロショット画像分類の精度が大幅に向上 Googleが報告
GPT-4o、Gemini、Claude 3などにおける「長いプロンプトのマルチモーダルタスク」性能を測定した結果
スタンフォード大学の研究者ら、GPT-4oとGemini1.5 Proで「マルチモーダルモデルにおける『Many-Shot』の効果」を検証
PAGE TOP