こんにちは。メーカーで画像認識関連のソフト開発をしている、Y.OKAMOTOです。現場で働くかたわら、最新の技術を人々に届けることに関心を持ち、AIの論文を解説することにしました。
前回から、物体検出技術に着目したコード解説記事を4回にわたってお送りしております。企業や医療機関でコンピュータによる物体認識を扱っていきたい技術者や、技術を理解したい方々におすすめの連載です。
第2回目は、アメリカ・カーネギーメロン大学のYen-Chia Hsuらが発表している、産業に伴う排出煙の認識モデル解説の後編となります。
まだ前編をご覧になってない方は、先にそちらをお読みいただくと理解しやすいかと思います。
▶ 【AI実装コード解説】「産業の排出煙を認識!」(前編)物体認識レクチャー#1
排出煙の認識モデルとデータセットの提案
前編までの流れ
前編の記事では、Yen-Chia Hsuらが発表している、大容量ビデオデータセット:RISEで用いている煙排出認識のベースモデルであるInflated 3D ConvNet (I3DC)について説明しました。
今回は、Yen-Chia Hsuらが評価した5つのモデルのうちもっとも最良なモデル RGB-I3D-TCについて解説します。
動作環境について
動作環境は、前編の記事と同様で以下の通りです。
- Ubuntu 18.04
- CUDA 10.1
- cuDNN 7.6.0
[Package]
- Python 3.7
- pip 2.22.0
- opencv-python 4.1.1.26
- opencv-contrib-python 4.1.1.26
- matplotlib 3.1.1
- scikit-learn 0.21.3
- tb-nightly 2.1.0a20191103
- tensorflow 2.0.0
- future 0.18.2
- moviepy 1.0.1
- pandas 0.25.3
- torchviz 0.0.1
- torchsummary 1.5.1
RGB-I3D-TCモデルの概要
RGB-I3DC-TCは、前編で説明したI3DCのネットワーク層(Fig.1)の一番最後尾へTimeception(TC)層を追加するモデルです。
Timeception(TC)とは?
Timeception(TC)は、Noureldien Husseinらが報告している動作認識ネットワークモデルで、TCは、マルチスケールカーネルでネットワークを構築します。RGB-I3D-TCは、I3DCから得られた特徴量からTCで煙の動きを認識することになります。
RGB-I3D-TCのコード解説
RGB-I3DC-TCの実際のコードで見ていきます。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。