Loading [MathJax]/extensions/tex2jax.js
次回の更新記事:標準作業手順書(SOP)をもとにLLMエージェントシス…(公開予定日:2025年03月31日)

マルチモーダル

文書に含まれるテキスト・図・表をすべて詳しく調べるエージェント手法
LLMを活用した「Text to CAD」 テキスト指示から高品質な3Dモデルを作成する
マルチモーダルLLMによる表やグラフの理解力を向上させる方法
時系列データをグラフにしてLLMに見せると文字だけより最大120%性能向上 トークンも節約
画像も文字も表も全部まとめて理解するRAGシステムの提案 Bloombergなど
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと
『プロンプトレポート』OpenAIなどが作成した調査報告書 〜その2 マルチモーダルとエージェント〜
マルチモーダルLLMは従来手法よりゼロショット画像分類の精度が大幅に向上 Googleが報告
GPT-4o、Gemini、Claude 3などにおける「長いプロンプトのマルチモーダルタスク」性能を測定した結果
スタンフォード大学の研究者ら、GPT-4oとGemini1.5 Proで「マルチモーダルモデルにおける『Many-Shot』の効果」を検証
マルチモーダルLLMにおける幻覚(ハルシネーション)の原因と対策 クリエイティブでの活用も推奨 AWSなどが網羅的に調査
マルチモーダルLLMにおける欠点と原因を明らかにする調査研究の結果
Appleが開発 スマホに特化したマルチモーダルLLM『Ferret UI』
LLMに心の目を与える『Visualization-of-Thought』プロンプティング マルチモーダルモデルに匹敵する空間推論性能を達成

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録
PAGE TOP