次回の更新記事：「AIっぽくて白ける」現象の正体（公開予定日：2026年05月01日）

記事一覧

実環境におけるエージェントスキルの有効性：LLMスキル利用の現実的ベンチマーク

2026.04.11

読心術AI：LLMポーカーエージェントに現れる心の理論

2026.04.11

CresOWLve：実世界知識を用いた創造的問題解決のベンチマーク

2026.04.11

OpenClawとその派生系の体系的なセキュリティ評価：AIエージェントの新たな脆弱性

2026.04.11

LLM裁判官/陪審員による精神病患者への応答安全性評価のスケーラブルな臨床検証

2026.04.11

科学的マルチエージェントAIシステムのための評価フレームワークに向けて

2026.04.11

人材採用を革新するエージェントAI：LLMによる候補者評価

2026.04.11

精度を超えて：長文LLM生成における事実性評価のための重要度を考慮した再現率

2026.04.11

AIフィクションの特異性を探る：物語構造分析ツール「StoryScope」

2026.04.11

Kimi K2.5の安全性評価：オープンソースLLMのリスクを徹底検証

2026.04.11

合議制モード：LLMにおけるハルシネーションとバイアスをマルチエージェントの合意形成で軽減

2026.04.11

LLMの推論能力向上には、深遠な言語制約よりも単純な語彙制限が効果的

2026.04.11

リダイレクトはされても削除はされない：タスク依存のステレオタイプ化がLLMアラインメントの限界を示す

2026.04.11

AIファクトチェック、実社会での実力は？Xコミュニティノートでの大規模実証実験

2026.04.11

大規模言語モデルにおける社会的意味：構造、規模、そして語用論的プロンプティング

2026.04.11

言語モデルにおける確証バイアス：評価と軽減

2026.04.11

測り得ないものを測る：労働経済学における潜在的認知変数のためのLLM活用

2026.04.11

敵は何をしているのか？戦術、技術、手順の自動抽出：体系的レビュー

2026.04.11

SensorPersona：LLMを活用したモバイルセンサーストリームからの継続的なペルソナ抽出システム

2026.04.10

他者の人生を生きる：LLMが生成する心理測定プロファイルに基づいた人生の物語の往復評価

2026.04.09

Copyright © Parks, Inc. All rights reserved.