次回の更新記事：「AIっぽくて白ける」現象の正体（公開予定日：2026年05月01日）

記事一覧

投稿の記事一覧が表示されるページです。

アイデアの精緻化がアイデアの独創性自動評価に与える影響

2026.04.26

AIで保険数理士の試験問題作成・評価を自動化する「ActuBench」

2026.04.26

メカニクスを意識した創造的なゲーム生成システム「CreativeGame」

2026.04.26

長期間の企業向けAIエージェントのための4軸意思決定アライメント

2026.04.26

AIエージェントによる科学的分析再現パイプライン「SHARP」

2026.04.26

LLMの性能低下を招くプロンプト分布シフトの測定と評価

2026.04.26

個人の好みに合わせたLLM評価：パーソナライズドベンチマークの提案

2026.04.26

LLMの対話型ソーシャルサポート戦略を評価するマルチターンシミュレーション

2026.04.26

LLMの幻覚を解明する：推論、指示、ソース記憶を probes するPRISM

2026.04.26

パーソナルホームベンチ：パーソナライズされたスマートホームにおけるエージェント評価

2026.04.26

AIによるコード評価の落とし穴：LLM-as-a-Judgeのバイアスを検証する

2026.04.26

APEX-MEM：長期会話AIのための時間的推論を備えたエージェント型半構造化メモリ

2026.04.17

LLMの「雰囲気テスト」を形式化：ユーザー体験に基づいた評価の体系化

2026.04.17

探して解決：日常シーンにおける視覚的手がかり駆動型推論のためのMLLMベンチマーク

2026.04.17

GeoAgentBench：空間分析におけるツール拡張エージェントのための動的実行ベンチマーク

2026.04.17

Co-FactChecker：大規模推論モデルを活用した人間とAIの協調型主張検証フレームワーク

2026.04.17

若者のメンタルヘルスにおける対話型AI：若者の認識と提言

2026.04.17

大規模言語モデルの限界：複雑性がもたらす推論崩壊の経験的証拠

2026.04.17

LLMを活用した手軽なアイトラッキングイベント検出：怠惰か、効率か？

2026.04.17

PersonaVLM：長期的な個別化を実現するマルチモーダルLLM

2026.04.17

Copyright © Parks, Inc. All rights reserved.