LLMが長々と説明するときは自信がない傾向にある 14個のモデルで検証

本記事では、LLMが「答えに自信がない時...
Read More

LLMプロジェクト開発に必要な新しい概念「AgentOps」とは

本記事では、LLMエージェントを安全に開...
Read More

画像も文字も表も全部まとめて理解するRAGシステムの提案 Bloombergなど

本記事では、複数の文書やページから図や表...
Read More

LLMにおける長文処理能力の進化を調査 Claude 3.5は情報の流れを追跡するスキルに長ける

本記事では、LLMの長文処理能力について...
Read More

「HTMLをそのままLLMに入力してはどうか」という新しいアプローチ

本記事では、LLMの精度向上のために用い...
Read More

論文

LLMに「自分自身との対戦」で能力を向上させる手法『Self-Play Fine-Tuning(SPIN)』
1.1Bパラメータの小さなモデルを巨大データ(約3兆トークン)で訓練したモデル『TinyLlama』が、比較的優秀な性能を発揮
LLMが「教えてはいけない事実」を抑制するパーツが明らかに Llama-2を1057個に分解
LLMにおける情報抽出(文章から必要な事柄を読み取る)タスクについての調査
LLMの内部状態を観察することで「出力がハルシネーションか否かを判別する」手法『LLMファクトスコープ』
Geminiの「常識を推論する能力」を網羅的に調査した結果 間違えやすいタイプの問題も明らかに
人間のカリキュラム教育のような学習でLLMの性能は向上するとの報告
AGIを見据えて専門家レベルの問題を集めたベンチマーク「MMMU」、GPT-4VやGemini Ultraでも正解率6割未満
PAGE TOP