MLLMによるCAPTCHA突破の実態と対策

2025.12.04

画像・Vision（画像認識、VLM、マルチモーダル、OCR）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

GPT-5.1やGemini 2.5 ProといったマルチモーダルLLMが、ウェブのボット対策であるCAPTCHA（画像認証）をどれくらい突破できるかを調べたところ、

動物を選んだり、道筋を見つけたりする単純な認識タスクは、もはや簡単すぎてはじめから80~100%の精度で解けてしまうことが判明しています。

しかも数回試行すればほぼ確実に突破できる上、コストもごく僅かです。

ただし、指定された順番でアイコンをクリックしたり、最も大きい領域をクリックしたり、サイコロの目を数えて合計を答えさせたりするタスクは、依然として難しいままです。
精度は20%以下にとどまり、数回試しても成功率は上がらず、コストも桁違いに高くつきます。

今後、完全に安全なCAPTCHAは作れないだろうと予想されています。しかし、防御側がAIの苦手なパターンを組めば、少なくとも自動化のコストを大幅に引き上げることはできると結論付けられています。

COGNITION: From Evaluation to Defense against Multimodal LLM CAPTCHA Solvers

著者: Junyu Wang, Changjia Zhu, Yuanbo Zhou, Lingyao Li, Xu He 他

所属: Missouri University of Science and Technology, University of South Florida, Visa USA Inc.

関連記事