次回の更新記事：「この要件、どこに実装してたっけ？」をLLMで解く、…（公開予定日：2026年05月03日）

記事一覧

投稿の記事一覧が表示されるページです。

テストケースの汎化による網羅的なテストシナリオカバレッジの実現

2026.04.26

CASCADE：自動テスト生成でコードとドキュメントの不一致を検出

2026.04.26

LLMで反例生成！動的仕様推論を大幅改善

2026.04.17

エージェントフレームワークのバグ解剖：トリガーと失敗モードの実証的研究

2026.04.17

テスト指向プログラミング：GenAI時代のコーディング再考

2026.04.11

MIMIC-Py：性格駆動型LLMによる拡張可能なゲーム自動テストツール

2026.04.11

REAgent：要求駆動型LLMエージェントによるソフトウェア問題解決

2026.04.11

ATANT：AIの継続性を評価するフレームワーク

2026.04.11

Claude Codeの自動モードにおける許可ゲートの脆弱性評価：意図的な曖昧性シナリオでのストレステスト

2026.04.11

初期設定は脆弱性あり：AI生成コードのセキュリティ脆弱性に関する形式検証研究

2026.04.11

SkillAttack：攻撃経路洗練によるエージェントスキルの自動レッドチーム

2026.04.11

ソフトウェアエンジニアリングにおける自律型AIの再現性、説明可能性、効果的な評価

2026.04.04

SkillTester：エージェントスキルの実用性と安全性を測るベンチマーク

2026.04.04

LLMのための人間のようなロギング：実行時フィードバックによるロギング再考

2026.04.04

RACE-bench：リポジトリレベルのコードエージェントの推論能力を測る新たなベンチマーク

2026.04.04

SWE-PRBench：AIコードレビューの品質をプルリクエストのフィードバックと比較評価

2026.04.04

LLMの心の理論：自己認識モデルにおける選択的欠陥の行動テスト

2026.04.04

AI時代における評価設計：人間とチャットボットで異なる機能を示す項目の特定

2026.03.27

LLMLOOP：自動反復フィードバックループによるLLM生成コードとテストの改善

2026.03.27

BenchBench：AIによるベンチマーク自動生成の性能を測る新たな試金石

2026.03.27

Copyright © Parks, Inc. All rights reserved.