「テストをちゃんと書くAIエージェントほど優秀」そんな思い込みに待ったをかける話です。SWE-benchの上位AIコーディングエージェント6モデルの振る舞いを調べたところ、テストの量と成績の間にはっきりした因果関係が見当たりませんでした。
記事では、テストをやめた場合・逆に書かせた場合のコストと成績のトレードオフの実態や、エージェントの”テスト”が実際に何をしていたのかまで掘り下げます。
📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。
「テストをちゃんと書くAIエージェントほど優秀」そんな思い込みに待ったをかける話です。SWE-benchの上位AIコーディングエージェント6モデルの振る舞いを調べたところ、テストの量と成績の間にはっきりした因果関係が見当たりませんでした。
記事では、テストをやめた場合・逆に書かせた場合のコストと成績のトレードオフの実態や、エージェントの”テスト”が実際に何をしていたのかまで掘り下げます。
Copyright © Parks, Inc. All rights reserved.