次回の更新記事:ブラウザでLLMをローカル展開する手法(公開予定日:2024年12月27日)

LLMと人間の協働に必要となる「ユーザーの適切な依存」

本記事では、大規模言語モデル(LLM)と...
Read More

18兆トークンで学習されたオープンソースLLM『Qwen2.5』シリーズの性能

本記事では、新たに発表された大規模言語モ...
Read More

企業実務タスクにおけるLLMエージェントの能力を評価する方法

本記事では、企業のデジタル業務におけるL...
Read More

動画を理解する軽量なLLM『Apollo』、オープンソースで登場(商用利用も可能)

本記事では、動画を理解する大規模マルチモ...
Read More

LLMエージェントに人間のような欲求を持たせてシミュレーションする手法

本記事では、人間らしい行動を再現するLL...
Read More

LLM同士による人工言語コミュニケーションで発見された「言語構造の創発」

本記事では、LLMが人工言語を学習・使用...
Read More

LLMを利用した「自動データクリーニング」方法

本記事では、データ活用の現場で大きな壁と...
Read More

マルチモーダル

マルチモーダルLLMにおける幻覚(ハルシネーション)の原因と対策 クリエイティブでの活用も推奨 AWSなどが網羅的に調査
マルチモーダルLLMにおける欠点と原因を明らかにする調査研究の結果
Appleが開発 スマホに特化したマルチモーダルLLM『Ferret UI』
LLMに心の目を与える『Visualization-of-Thought』プロンプティング マルチモーダルモデルに匹敵する空間推論性能を達成
GPT-4Vで画像分析する際、画像に「ドットマトリックス」を重ねるだけで認識精度が大きく向上
マルチモーダルLLMの技術や開発トレンド、26種類のモデル例を網羅的にまとめた報告
Gemini Pro 対 GPT-4V、画像認識能力でどちらが優秀なのか
PAGE TOP