「3D×AI」の最先端を紹介します。トップ学会に採択された論文たち【CVPR2020】

最終更新日：2020/07/28

「3D×AIの最先端にキャッチアップしておきたい」
「トップ学会CVPR 2020の論文には関心があるが、数が多すぎてどれを読めばいいかわからない」
「画像認識技術を仕事で使うので注目度の高い論文に触れておきたい」
「そもそもCVPRって何？」

こんな方のために、アイブンよりサマリーをお届けします！

そもそもCVPRとは？

CVPRの正式名称は「Computer Vision and Pattern Recognition（コンピュータビジョンとパターン認識）」です。Compuer Visionというのはロボット（コンピュータ）の視覚を指します。画像処理、映像処理の技術分野全般を指すことが多いです。

そのComputer Visionの分野において最も権威ある学会の一つがこのCVPR。近年ではComputer Vision分野でDeep Learningを使う事が当たり前になってきているので、CVPRはDeep Learningに関するトップカンファレンスの一つだとも言われています。

3Dの論文5つPICKUP

CVPR 2020では、5865本の論文が投稿され、そのうちacceptされたのが1467本の論文でした。そのうち、3D関連の論文は142件でした。

この中から、特に興味深いおすすめの5本を紹介します。じっくり読む論文を選ぶ際のヒントにしていただけると幸いです。

1本目. Unsupervised Learning of Probably Symmetric Deformable 3D Objects From Images in the Wild
2本目. SurfelGAN: Synthesizing Realistic Sensor Data for Autonomous Driving
3本目. Footprints and Free Space From a Single Color Image
4本目. ActiveMoCap: Optimized Viewpoint Selection for Active Human Motion Capture
5本目. Through the Looking Glass: Neural 3D Reconstruction of Transparent Shapes

1本目：教師データなしで静止画から3Dデータを生成

まず初めに、CVPR 2020でBest Paper Awardに選ばれたこの論文から紹介します。

タイトル：Unsupervised Learning of Probably Symmetric Deformable 3D Objects From Images in the Wild（PDF）
著者：Shangzhe Wu, Christian Rupprecht, Andrea Vedaldi
機関・国：オックスフォード大学、イギリス

課題設定のポイント

教師データなしに、単一視点の静止画から3Dデータを生成します。

アプローチ・結果の面白さ

・入力画像を深度、アルベド（入射光と反射光の比）、視点、照明それぞれの因子に分解するオートエンコーダーを使用します。
・多くの対象の物体が左右対称な構造を持つということを前提にしています。この前提によって、深度やアルベドを反転させた状態でレンダリングを行っても同じ出力となるように学習をします。
・また、左右対称という制約は非常に強力なので、人間のヘアスタイルなど左右対称でないものも考慮に入れるため、同時に対称性確率マップを予測することで、物体の左右対称性の信頼度を推定し、損失関数に利用します。

フォトジオメトリックオートエンコード。ネットワークΦ は、信頼度マップのペアと同時に、入力画像Iを深度、アルベド、視点、照明に分解します。これは、教師データなしで入力を再構成するために訓練されます。

この手法によって、なんの教師データもなしに、単一視点の画像から人の顔、猫の顔、車の3D形状データを生成できるというのは驚くべきことです。

2本目：自動運転のためのデータ生成「SurfelGAN」

自動運転技術はコンピュータビジョン研究の１つの大きな成果だと言えます。

タイトル：SurfelGAN: Synthesizing Realistic Sensor Data for Autonomous Driving（PDF）
著者：Zhenpei Yang, Yuning Chai, Dragomir Anguelov, Yin Zhou, Pei Sun, Dumitru Erhan, Sean Rafferty, Henrik Kretzschmar
機関・国：テキサス大学オースティン校、アメリカ

課題設定のポイント

自動運転システムの開発は、シミュレーション環境の再現度に依存しています。現在では多くの場合UnrealやUnityなどのゲームエンジンが利用されますが、センサシミュレーションの設定は手動であり、現実との乖離も大きいです。

アプローチ・結果の面白さ

この論文では、現実世界での自律走行車によって収集された限られた量のLIDARやカメラのデータのみに基づいて、シミュレーション上でのセンサデータを生成するためのシンプルで効果的なアプローチSurfelGANを提案しています。

テクスチャマッピングされたサーフェル（3D形状の描画手法）を使用して、最初の車両のパスまたはパスのセットから効率的にシーンを再構築し、オブジェクトの3Dジオメトリと外観、およびシーンの条件に関する豊富な情報を保持します。次に、SurfelGANネットワークを活用して、シーン内の自動運転車と移動物体の新しい位置と向きのための現実的なカメラ画像を再構築します。

提案システムの概要 a) 本研究の目的は、自律走行シミュレーション用のカメラ画像の生成です。自律走行車の新しい軌道が与えられると、システムは、物体検出器、行動予測器、モーションプランナーなどの下流のモジュールに有用な現実的な視覚センサデータを生成します。b) まず、ターゲット環境をスキャンし、豊かなテクスチャのサーフェルで構成されるシーンを再構成します。c) サーフェルは、意味的なセグメンテーションマスクとインスタンスセグメンテーションマスクと一緒に、新しい軌跡のカメラ姿勢でレンダリングされます。GANを用いて、リアルなカメラ画像を生成します。

現実世界で取集された限られた量のセンサデータから自動運転のシミュレーションが生成できる点が、この研究の面白いポイントですね。

3本目：単一視点の画像から空間情報がわかる

続いて、画像の空間上をキャラクターが違和感なく歩き回るデモが印象的な論文を紹介します。

タイトル： Footprints and Free Space From a Single Color Image （PDF）
著者：Jamie Watson, Michael Firman, Aron Monszpart, Gabriel J. Brostow
機関・国：Niantic, Inc.、アメリカ

課題設定のポイント

1 枚のカラー画像からシーンの形状を理解することは、コンピュータビジョンの難しい課題です。ほとんどの既存手法では、カメラで見える表面の形状を予測することを目的としており、画像から推測できる空間全体の形状を推定することは行っていません。具体的には単一視点の画像から、移動可能な場所のセグメンテーション画像を出力します。

アプローチ・結果の面白さ

1枚のRGB画像を入力として、可視面と閉塞面の両方の横断可能な面の形状を予測するモデルを導入します。ステレオビデオシーケンスから、カメラのポーズ、フレームごとの深さ、意味的セグメンテーションを用いて学習します。トレーニングデータは、image-to-imageネットワークの教師データに使用されます。

フットプリントの概要：単色画像(a)が与えられると、既存の手法では、人間や仮想キャラクターがどの可視画素を横断できるかのセグメンテーション(b)と、各画素までの深さ(d)を推定することができます。著者らは、隠れた歩行可能な表面を含む範囲(c)とジオメトリ(e)を推定する手法であるFootprintsを紹介しています。著者らの予測では、例えば、世界を通る経路を計画するために利用することができます。ここでは、A*アルゴリズムを用いて、基底予測値を用いてA→B→C→Dの経路を計画します。ベースライン経路(f)では、目に見える地表面のみに固執する非現実的な経路をとります。隠れた形状予測により、物体の背後にある現実的な経路を見つけることができます(g)。

KITTI driving dataset、 the indoor Matterport dataset、および著者自身が何気なく撮影したステレオ映像からモデルを訓練し、評価して類似手法よりも高い精度が得られていることが確認できます。

デモ動画からわかるように、単一視点の画像から空間の情報を推測して、そこにオブジェクトを違和感なく表示できるのは見た目にもインパクトがあります。

4本目：ドローンによる人間の3D姿勢推定の進化系

個人的にドローンと3Dは相性が良さそうに感じますが、あまり研究が進んでないと感じましたので紹介してみます。

タイトル：ActiveMoCap: Optimized Viewpoint Selection for Active Human Motion Capture （PDF）
著者：Sena Kiciroglu, Helge Rhodin, Sudipta N. Sinha, Mathieu Salzmann, Pascal Fua
機関・国：スイス連邦工科大学ローザンヌ校、スイス

課題設定のポイント

単一視点による人間の姿勢推定の精度は、画像を撮影する視点に依存します。ドローンのように自由に動くカメラは視点を制御することができますが、精度が高くなるような位置に自動的にカメラを配置することはまだなされていません。

アプローチ・結果の面白さ

単一視点から2D姿勢推定と3D姿勢推定をして、次の時刻の3D姿勢を予測します。次に、予測した3D姿勢の姿勢推定の不確実性が最小になるように次の時刻の視点が決定されます。このようにしてドローンは最適な場所に移動しながら推定をする。

方法の概要。ドローン映像の現在のフレームから、既製のCNNを用いて2Dと3Dの人間のポーズを推定します。次に、最後のkフレームの2Dポーズと相対的な3Dポーズを用いて、グローバルな3Dの人間の動きを最適化します。ドローンの次のビューは、そのビューからの人間のポーズ推定の不確実性が最小になるように選択され、再構成精度が向上します。

ドローンによる3D推定がメインではなく、3D推定をしやすいような視点の選択を提案している点がユニークですね。

5本目：透明な物体の3次元形状を再構成

最後に、単純に結果の見た目が良かった論文を紹介します。

タイトル： Through the Looking Glass: Neural 3D Reconstruction of Transparent Shapes（PDF）
著者：Zhengqin Li (co-first author), Yu-Ying Yeh (co-first author), Manmohan Chandraker
機関・国：カリフォルニア大学サンディエゴ校、アメリカ

課題設定のポイント

制約のない少数の自然画像を用いて透明な物体の三次元形状を復元することは、屈折と反射によって引き起こされる複雑な光路によって難しい問題となっています。著者らは論文で、既知の環境マップの下で、携帯電話のカメラで取得した少数の画像を用いて、透明な物体の3次元形状を回復する物理ベースのネットワークを提案しました。

アプローチ・結果の面白さ

ネットワークが局所的な計算によって複雑な光輸送をモデル化することを可能にする法線表現、屈折と反射をモデル化するレンダリング層、透明形状の法線絞り込みのために特別に設計されたコストボリューム、3D点群再構成のための予測法線に基づいた特徴マッピングを含むネットワークを提案しました。正解データの生成の難しさのため学習データ構築はCGによって構成されました。著者らの実験によると、5～12枚の画像で高品質の3D再構成が実現できることが示されています。