次回の更新記事：AIエージェントに「私のこと」をテキストではなくコ…（公開予定日：2026年06月29日）

記事一覧

T1-Bench: 現実世界の多様なシナリオにおけるAIエージェントの性能を評価するベンチマーク

2026.06.12

P3D-Bench: パラメトリック3D生成と構造推論のためのマルチモーダル大規模言語モデル評価ベンチマーク

2026.06.12

プログラム的推論による人間と建物のインタラクションのためのゼロショットマルチエージェントフレームワーク

2026.06.12

AIエージェントのスキル評価と進化：フレームワークとベンチマークの現状

2026.06.12

AIエージェントのスキル組織が実行時行動に与える影響を測定するSkillJuror

2026.06.12

研究ノートから確信度を考慮した科学AIエージェントのスキルへ変換するNotes2Skills

2026.06.12

心の理論ユーティリティ：メンタライジング機構の形式的仕様

2026.06.12

LLMの心理測定評価を再考する：自己報告はいつ、なぜ行動を予測するのか

2026.06.12

プロンプト次第で、LLMは人間の判断をより正確に捉えられる

2026.06.12

日常タスク評価のためのオープンエンドベンチマーク「DailyReport」

2026.06.12

記憶すべきことを学習する：エージェント型記憶のための認知科学的知見に基づく多因子価値モデル

2026.06.12

LLMにおける潜在的視点を通じた多元性の評価

2026.06.12

推論はパターンマッチング：人間とLLMの日常的推論における共通メカニズム

2026.06.12

再帰型エージェントハーネス：コード実行と並列サブエージェントで長文推論を強化

2026.06.12

大規模言語モデルによる社会行動科学における再現性評価の自動化

2026.06.12

魂の計算：独立した意識を持つAIエージェントのための理論的枠組みと技術的アーキテクチャ

2026.06.10

メタプレート：個人に合わせた食事推薦と高血糖予防のための反事実的ガイダンス付きRAG-LLMツール

2026.06.10

LLMエージェントの進化能力を解きほぐす：ハーネス更新は必ずしも利益にならない

2026.06.06

LLMエージェント向け、モデル依存性を考慮したスキル適応フレームワークMASA

2026.06.06

LLMエージェントにおけるスキル利用可能性と提示粒度の影響：SkillsBenchを用いた制御実験

2026.06.06

Copyright © Parks, Inc. All rights reserved.