LLMが長々と説明するときは自信がない傾向にある 14個のモデルで検証

本記事では、LLMが「答えに自信がない時...
Read More

LLMプロジェクト開発に必要な新しい概念「AgentOps」とは

本記事では、LLMエージェントを安全に開...
Read More

画像も文字も表も全部まとめて理解するRAGシステムの提案 Bloombergなど

本記事では、複数の文書やページから図や表...
Read More

LLMにおける長文処理能力の進化を調査 Claude 3.5は情報の流れを追跡するスキルに長ける

本記事では、LLMの長文処理能力について...
Read More

「HTMLをそのままLLMに入力してはどうか」という新しいアプローチ

本記事では、LLMの精度向上のために用い...
Read More

LLMの機能別「領域」はまるで脳のようであるとの仮説

本記事では、LLMの内部で発見された驚く...
Read More

論文

GPT-4oで保険、銀行、小売りなどで人間への売り込みを実験 最大35%の確率で購買決定に成功
「AIが自動的に優れたAIエージェントを設計する」新分野の提唱 数学エージェントが読解でも好成績
RAGで検索文書の要約を活用したクエリ書き換えが検索精度を大幅に向上させる AWS報告
人間を討論で言い負かすディベート上手なLLMの実装
プロンプトの影響によるLLMの性能のばらつきを考慮した評価指標「Sharpeスコア」 NAIST研究者ら考案
モデルとデータの大規模化で変化するLLMのハルシネーション Google DeepMindの研究
LLMにおける現状のリスクと対策に関するまとめ
LLMのサイバーセキュリティタスク性能評価フレームワーク「Cybench」
PAGE TOP