次回の更新記事:推論時のトークン数を80%以上削減しながら出力精度を…(公開予定日:2025年03月17日)

マルチモーダル

LLMを活用した「Text to CAD」 テキスト指示から高品質な3Dモデルを作成する
マルチモーダルLLMによる表やグラフの理解力を向上させる方法
時系列データをグラフにしてLLMに見せると文字だけより最大120%性能向上 トークンも節約
画像も文字も表も全部まとめて理解するRAGシステムの提案 Bloombergなど
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと
『プロンプトレポート』OpenAIなどが作成した調査報告書 〜その2 マルチモーダルとエージェント〜
マルチモーダルLLMは従来手法よりゼロショット画像分類の精度が大幅に向上 Googleが報告
GPT-4o、Gemini、Claude 3などにおける「長いプロンプトのマルチモーダルタスク」性能を測定した結果
スタンフォード大学の研究者ら、GPT-4oとGemini1.5 Proで「マルチモーダルモデルにおける『Many-Shot』の効果」を検証

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録
PAGE TOP