次回の更新記事:良いREADMEを書けているかLLMで自動検証・改善する方…(公開予定日:2026年03月06日)

フィッシング詐欺対決:LLMは人間に勝てず

安全性・アライメント(AIの安全性、アライメント、jailbreak、ハルシネーション対策)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

大規模言語モデル vs 小規模人間モデルで「フィッシング詐欺バトル」を行った結果、小規模人間モデル(つまり人間)が勝利しました。
ハーバードやMITなどの研究者らによる報告です。

○ Fredrik Heiding et al. Devising and Detecting Phishing: large language models vs. Smaller Human Models

人間心理を突いた巧妙な詐欺メールを送り不正リンクをクリックさせるフィッシング攻撃は、20年以上前から存在する厄介な問題です。
研究者らは、先端技術の脅威性を知るべく、LLMと人間を比較しました。

対戦テーマ
■より強いフィッシングメールの作成:112人のランダムに選ばれた参加者に対して、各モデルが作成したフィッシングメールを送り、クリック率を競う

対戦カード
■GPT-4:広くさまざまなタスクに優秀なLLM
■V-Triad:人間が手動でフィッシングメールを作成するために開発されたシステム

対戦結果
■V-Triad(人間)の勝利
■ただしV-Triad(人間)とGPT-4の組み合わせは、V-Triad(人間)だけよりも良いか同等の結果をもたらした

結果詳細
■GPT-4で生成されたメールのクリック率は30-44%
■V-Triad(人間)で生成されたメールのクリック率は69-79%
■各手法を組み合わせた場合のクリック率は43-81%

おまけ
■GPT-4はフィッシングメールの「検出」においても優れたパフォーマンスを示した

人間とGPT-4の組み合わせによる半自動アプローチは、パフォーマンスが高い上に、メールの作成にかかる時間と攻撃者の知識要件を大幅に削減してしまいます。
本研究はLLMの悪用リスクを新たに浮き彫りにした結果と読み取れます。

📄 参照論文

論文:https://t.co/ZwCphA1yMM

関連記事