LLMが長々と説明するときは自信がない傾向にある 14個のモデルで検証

本記事では、LLMが「答えに自信がない時...
Read More

LLMプロジェクト開発に必要な新しい概念「AgentOps」とは

本記事では、LLMエージェントを安全に開...
Read More

画像も文字も表も全部まとめて理解するRAGシステムの提案 Bloombergなど

本記事では、複数の文書やページから図や表...
Read More

LLMにおける長文処理能力の進化を調査 Claude 3.5は情報の流れを追跡するスキルに長ける

本記事では、LLMの長文処理能力について...
Read More

「HTMLをそのままLLMに入力してはどうか」という新しいアプローチ

本記事では、LLMの精度向上のために用い...
Read More

包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発
人とLLMの実際のチャット履歴から抽出した1,024のリアルなタスクでClaude 3などを評価した結果
LLMは与えられたペルソナ(役割)に応じてバイアスが変化することが明らかに
マルチモーダルLLMは従来手法よりゼロショット画像分類の精度が大幅に向上 Googleが報告
難しいベンチマークで高性能なLLMでも単純な問題で間違えてしまう現象について「不思議の国のアリス問題」とGPT-4o、Claude-3、Llama 3などで分析
仮想の翻訳会社「TRANSAGENTS」に学ぶ マルチLLMエージェントによる効果的な翻訳システム
LLMの出力が信頼できるかを判定する手法 Google DeepMindが新しく考案
MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果
PAGE TOP