記事検索
論文DB
スキル
クリップ
おすすめ
お知らせ
会員作成
ログイン
AIDBについて
次回の更新記事:
「AIっぽくて白ける」現象の正体
(公開予定日:2026年05月01日)
記事一覧
HOME
論文ページ
評価の記事一覧
実環境におけるエージェントスキルの有効性:LLMスキル利用の現実的ベンチマーク
2026.04.11
クリップする
読心術AI:LLMポーカーエージェントに現れる心の理論
2026.04.11
クリップする
CresOWLve:実世界知識を用いた創造的問題解決のベンチマーク
2026.04.11
クリップする
OpenClawとその派生系の体系的なセキュリティ評価:AIエージェントの新たな脆弱性
2026.04.11
クリップする
LLM裁判官/陪審員による精神病患者への応答安全性評価のスケーラブルな臨床検証
2026.04.11
クリップする
科学的マルチエージェントAIシステムのための評価フレームワークに向けて
2026.04.11
クリップする
人材採用を革新するエージェントAI:LLMによる候補者評価
2026.04.11
クリップする
精度を超えて:長文LLM生成における事実性評価のための重要度を考慮した再現率
2026.04.11
クリップする
AIフィクションの特異性を探る:物語構造分析ツール「StoryScope」
2026.04.11
クリップする
Kimi K2.5の安全性評価:オープンソースLLMのリスクを徹底検証
2026.04.11
クリップする
合議制モード:LLMにおけるハルシネーションとバイアスをマルチエージェントの合意形成で軽減
2026.04.11
クリップする
LLMの推論能力向上には、深遠な言語制約よりも単純な語彙制限が効果的
2026.04.11
クリップする
リダイレクトはされても削除はされない:タスク依存のステレオタイプ化がLLMアラインメントの限界を示す
2026.04.11
クリップする
AIファクトチェック、実社会での実力は?Xコミュニティノートでの大規模実証実験
2026.04.11
クリップする
大規模言語モデルにおける社会的意味:構造、規模、そして語用論的プロンプティング
2026.04.11
クリップする
言語モデルにおける確証バイアス:評価と軽減
2026.04.11
クリップする
測り得ないものを測る:労働経済学における潜在的認知変数のためのLLM活用
2026.04.11
クリップする
敵は何をしているのか?戦術、技術、手順の自動抽出:体系的レビュー
2026.04.11
クリップする
SensorPersona:LLMを活用したモバイルセンサーストリームからの継続的なペルソナ抽出システム
2026.04.10
クリップする
他者の人生を生きる:LLMが生成する心理測定プロファイルに基づいた人生の物語の往復評価
2026.04.09
クリップする
投稿のページ送り
1
…
4
5
6
…
12
新着AI論文記事一覧
サイト概要
プレミアム会員規約
運営会社
お問い合わせ
よくある質問
Copyright © Parks, Inc. All rights reserved.
記事検索
論文DB
スキル
クリップ
おすすめ
お知らせ
会員作成
ログイン
AIDBについて