大規模ビジョン言語モデルで産業用の異常検出を自動で行うアーキテクチャ『Anomaly(異常)GPT』が非常に高い精度を出せるとの報告です。
さらに手動での閾値設定が不要であり、少数のサンプルで高い性能を発揮するとのこと。
中国の複数機関が共同で研究発表しました。
○ Zhaopeng Gu et al. AnomalyGPT: Detecting Industrial Anomalies using Large Vision-Language Models
研究の概要は以下のとおりです。
■『Anomaly(アノマリー:異常)GPT』で実現すること
① 閾値の手動設定が不要
② 異常の有無とその位置を直接評価する
(従来の手法は、異常スコアのみが提供され、手動で閾値を設定する必要がある)
③ 高精度での異常検出
■アーキテクチャ全体の働き
① 訓練用データをシミュレーションして生成する
② 事前訓練された画像エンコーダーを①のデータでアップデートする
③ 画像エンコーダーで検査対象画像の特徴を抽出する
④ LLMで画像とテキストの説明を整列させる
⑤ 必要があればプロンプトで微調整する
(「この画像の左上部に異常はありますか?」など)
⑥ 自動的に異常検出が完了する
■実験の結果
① 従来の産業用異常検出手法よりも高い精度だった
② 未見のアイテムに対しても少数のサンプルがあれば対応できる
■結果の数的詳細
MVTec-ADデータセットでの精度は86.1%、画像レベルのAUCは94.1%、ピクセルレベルのAUCは95.3%で、業界標準を上回る結果でした。
論文では薬のカプセルや錠剤に対して実験事例が掲載されていますが、機械や繊維などに対しても応用が見込まれます。
📄 参照論文
論文タイトル:AnomalyGPT: Detecting Industrial Anomalies using Large Vision-Language Models(AnomalyGPT:大規模視覚言語モデルを用いた産業異常の検出)