Connecting the dots,CVPR,2019

概要

初の学習ベースの単眼active深度推定

イントロ

キネクトとかの消費者向けdepthカメラは良い感じに活用されているよね

でも、計算コスト、メモリコストの制限を受けるよ

　キネクト･･･シンプルな相関ベースのブロックマッチング

　インテルリアルセンス･･･セミグローバルマッチング

この２手法は精度の面で全然遅れている、学習ベースの方が精度良い

今回は学習ベースのアクティブステレオを紹介するよ

カメラ一個で良いし、end-to-endだよ

一般的にactive stereoのデータセットをたくさん用意するのは難しい

なので、自己教師かweakly supervised fashion(?)でやる

related work

Active Depth Sensing

まず、active stereoはtemporal(時間方向)とspatial(空間方向)に分けられる

temporalは、複数のパターン画像を連続で投影し、ピクセルごとに一意の符号付けをする

→複数回の撮影が必要

spatialは、ある程度広い領域で見れば一意なパターン分布になるようにしてマッチングを取る

→シンプルなタスクに見えるが、photoconsistencyとpatch内で視差が一定になる問題がある

Fanello[10](HyperDepth)

　ランダムフォレストでマッチングをする、擬似真値にPatchMatch Stereo、早くて並列出来て良い

（よくわからないので今度読む）

→我々は教師なしで良いので強い

インテルリアルセンス

　基本はステレオ、テクスチャレス領域のカバーに構造化光

Fanello(まさかの２回目)

　マッチングの効率良いアルゴリズムをやったらしい

Zhang

　アクティブステレオの学習ベース、でもステレオ画像がいるっぽい？

Stereo Matching

　テクスチャレスむずいよね

Single Image Depth Prediction

　最近になって解決されはじめている

　→一視点からdepthを特定するのは基本的にill-posed

手法

DOE(Diffractive Optical Element)･･･回折光学素子、光の回折を利用していろんな方向にレーザー光を分散

投影光と輝度値の関係

基本的には、パターン光とアンビエント光の和

パターン光は、投影強度×反射率×シェーディング

それにノイズを足す

基本的には、光源は距離に対して二乗の減衰になるのは点光源のみだけど、レーザー光の発散があるので同じと仮定している

画像をアンビエントとパターン光に分けている

　アンビエントは滑らかさ、パターン光はdepthの絶対値がわかる（ステレオ条件を活かせるので）

weak supervision

　教師データのラベル付けもある程度ネットワークにやってもらう、そのデータで学習する