GPT-5.1やGemini 2.5 ProといったマルチモーダルLLMが、ウェブのボット対策であるCAPTCHA(画像認証)をどれくらい突破できるかを調べたところ、
動物を選んだり、道筋を見つけたりする単純な認識タスクは、もはや簡単すぎてはじめから80~100%の精度で解けてしまうことが判明しています。
しかも 数回試行すればほぼ確実に突破できる上、コストもごく僅かです。
ただし、指定された順番でアイコンをクリックしたり、最も大きい領域をクリックしたり、サイコロの目を数えて合計を答えさせたりするタスクは、依然として難しいままです。
精度は20%以下にとどまり、数回試しても成功率は上がらず、コストも桁違いに高くつきます。
今後、完全に安全なCAPTCHAは作れないだろうと予想されています。しかし、防御側がAIの苦手なパターンを組めば、少なくとも自動化のコストを大幅に引き上げることはできると結論付けられています。
📄 参照論文
COGNITION: From Evaluation to Defense against Multimodal LLM CAPTCHA Solvers
所属: Missouri University of Science and Technology, University of South Florida, Visa USA Inc.