記事
手法
分析
実証
サーベイ
テクニカルレポート
ベンチマーク・リソース
ポジション
記事検索
短信
論文
AI全般
LLM&AIエージェント
PDF変換
PDF翻訳
PDF to MD/HTML
クリップ
会員作成
ログイン
AIDBについて
次回の更新記事:
AIエージェントに「私のこと」をテキストではなくコ…
(公開予定日:2026年06月29日)
記事一覧
HOME
論文ページ
AI評価の記事一覧
T1-Bench: 現実世界の多様なシナリオにおけるAIエージェントの性能を評価するベンチマーク
2026.06.12
クリップする
P3D-Bench: パラメトリック3D生成と構造推論のためのマルチモーダル大規模言語モデル評価ベンチマーク
2026.06.12
クリップする
プログラム的推論による人間と建物のインタラクションのためのゼロショットマルチエージェントフレームワーク
2026.06.12
クリップする
AIエージェントのスキル評価と進化:フレームワークとベンチマークの現状
2026.06.12
クリップする
AIエージェントのスキル組織が実行時行動に与える影響を測定するSkillJuror
2026.06.12
クリップする
研究ノートから確信度を考慮した科学AIエージェントのスキルへ変換するNotes2Skills
2026.06.12
クリップする
心の理論ユーティリティ:メンタライジング機構の形式的仕様
2026.06.12
クリップする
LLMの心理測定評価を再考する:自己報告はいつ、なぜ行動を予測するのか
2026.06.12
クリップする
プロンプト次第で、LLMは人間の判断をより正確に捉えられる
2026.06.12
クリップする
日常タスク評価のためのオープンエンドベンチマーク「DailyReport」
2026.06.12
クリップする
記憶すべきことを学習する:エージェント型記憶のための認知科学的知見に基づく多因子価値モデル
2026.06.12
クリップする
LLMにおける潜在的視点を通じた多元性の評価
2026.06.12
クリップする
推論はパターンマッチング:人間とLLMの日常的推論における共通メカニズム
2026.06.12
クリップする
再帰型エージェントハーネス:コード実行と並列サブエージェントで長文推論を強化
2026.06.12
クリップする
大規模言語モデルによる社会行動科学における再現性評価の自動化
2026.06.12
クリップする
魂の計算:独立した意識を持つAIエージェントのための理論的枠組みと技術的アーキテクチャ
2026.06.10
クリップする
メタプレート:個人に合わせた食事推薦と高血糖予防のための反事実的ガイダンス付きRAG-LLMツール
2026.06.10
クリップする
LLMエージェントの進化能力を解きほぐす:ハーネス更新は必ずしも利益にならない
2026.06.06
クリップする
LLMエージェント向け、モデル依存性を考慮したスキル適応フレームワークMASA
2026.06.06
クリップする
LLMエージェントにおけるスキル利用可能性と提示粒度の影響:SkillsBenchを用いた制御実験
2026.06.06
クリップする
投稿のページ送り
1
…
4
5
6
…
11
AI論文解説&翻訳・AIエージェントスキル
サイト概要
プレミアム会員規約
運営会社
お問い合わせ
よくある質問
Copyright © Parks, Inc. All rights reserved.
記事
手法
分析
実証
サーベイ
テクニカルレポート
ベンチマーク・リソース
ポジション
記事検索
短信
論文
AI全般
LLM&AIエージェント
PDF変換
PDF翻訳
PDF to MD/HTML
クリップ
会員作成
ログイン
AIDBについて