LLMが長々と説明するときは自信がない傾向にある 14個のモデルで検証

本記事では、LLMが「答えに自信がない時...
Read More

LLMプロジェクト開発に必要な新しい概念「AgentOps」とは

本記事では、LLMエージェントを安全に開...
Read More

画像も文字も表も全部まとめて理解するRAGシステムの提案 Bloombergなど

本記事では、複数の文書やページから図や表...
Read More

LLMにおける長文処理能力の進化を調査 Claude 3.5は情報の流れを追跡するスキルに長ける

本記事では、LLMの長文処理能力について...
Read More

「HTMLをそのままLLMに入力してはどうか」という新しいアプローチ

本記事では、LLMの精度向上のために用い...
Read More

LLM

マルチモーダルLLMは従来手法よりゼロショット画像分類の精度が大幅に向上 Googleが報告
難しいベンチマークで高性能なLLMでも単純な問題で間違えてしまう現象について「不思議の国のアリス問題」とGPT-4o、Claude-3、Llama 3などで分析
仮想の翻訳会社「TRANSAGENTS」に学ぶ マルチLLMエージェントによる効果的な翻訳システム
LLMの出力が信頼できるかを判定する手法 Google DeepMindが新しく考案
MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果
グラフニューラルネットワークを活用したRAG手法『GNN-RAG』 7BのLLMでも最先端性能
LLMで因果推論を行うためのプロンプト手法
LLMエージェントの認知バイアス
PAGE TOP