次回の更新記事：AIエージェントに「私のこと」をテキストではなくコ…（公開予定日：2026年06月29日）

記事一覧

不確実性の粒度がLLM支援意思決定における人間の検証に与える影響

2026.05.30

論文からベンチマークへ：機械学習の不完全な手法をエージェントとフレームワークで再現する

2026.05.30

知識から行動へ：LLMトレーディングエージェントの株式市場における記憶制御ベンチマーク

2026.05.30

SMILE-Next：大規模言語モデルに笑いの検出・分類・推論を教える

2026.05.30

Harness-Bench：現実的なエージェントワークフローにおけるモデル間のハーネス効果測定

2026.05.30

ボードゲームシミュレーションでLLMの動的資産管理と戦略的金融推論を評価するFinBoardBench

2026.05.30

MERIT：ルーブリック情報に基づくトレーニングで査読者割り当ての専門知識をマッチング

2026.05.30

ChildEval：大規模言語モデルと子どもの個性が交差する評価ベンチマーク

2026.05.30

質問だけでは不十分：LLMの信頼度校正におけるプロトコル感受性

2026.05.30

ユーザーの心を捉え、AIエージェントの心の理論を強化するUserHarness

2026.05.30

RAGにおける文書位置とコンテキストサイズの影響：再現性の検証

2026.05.30

研究論文の批判を自動化する「E3」：意思決定に影響する技術的懸念を特定

2026.05.30

LLMエージェントの信頼性は能力ではなく「ハルシネーション感受性」で決まる：階層間の非単調性を解明

2026.05.30

LLMと人間の戦略行動における「限界合理性」の解明：計算能力の違いに着目した新たな分析フレームワーク

2026.05.30

静的コンテキストから校正された対話型強化学習へ：シミュレータ整合による複数ターン対話における分布シフトの緩和

2026.05.30

JobBench：AIエージェントの業務を人間の意図に沿って評価する新ベンチマーク

2026.05.30

AIエージェントの「老化」を評価する：寿命を考慮した信頼性ベンチマークAgingBench

2026.05.30

LLMエージェントのセキュリティ脆弱性を測定するベンチマーク「AgentSecBench」

2026.05.30

Sentinel：協調的空間推論と計画を行う自律型エージェント

2026.05.30

AIが未知の物理法則を発見するベンチマーク「DiscoverPhysics」

2026.05.30

Copyright © Parks, Inc. All rights reserved.