LLMで地雷系検出：文化理解が精度向上に寄与

2025.03.29

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMを活用してSNSから「地雷系」を検出する試みが報告されています。カーネギーメロン大学、ワシントン大学、香港理工大学、東京大学の研究チームによる取り組み。

地雷系とは薬物過剰摂取、摂食障害、自傷行為に関する発信を行う集団を指し、日本および中国で問題になっているとのこと。

興味深いことに、中国のSNSにおける中国語で書かれた地雷系ポストを検出する際においても、LLMに対しては日本語で指示する方が精度が良かったそうです。
地雷系の文化は日本発祥と言われており、そのためだとか。

これを参考に、メンタルヘルス関連のモニタリングを行う際には、単純な言語一致よりも文化的背景に着目することが重要なのではないかと提案されています。

なお、今回地雷系の検出において一部のLLM（OpenAIのGPT-4o）は実行を頑なに拒否したそうです。

JiraiBench: A Bilingual Benchmark for Evaluating Large Language Models’ Detection of Human Self-Destructive Behavior Content in Jirai Community

著者: Yunze Xiao, Tingyu He, Lionel Z. Wang, Yiming Ma, Xingyu Song 他

関連記事