Connecting the dots,CVPR,2019
概要
初の学習ベースの単眼active深度推定
イントロ
キネクトとかの消費者向けdepthカメラは良い感じに活用されているよね
でも、計算コスト、メモリコストの制限を受けるよ
キネクト・・・シンプルな相関ベースのブロックマッチング
この2手法は精度の面で全然遅れている、学習ベースの方が精度良い
今回は学習ベースのアクティブステレオを紹介するよ
カメラ一個で良いし、end-to-endだよ
一般的にactive stereoのデータセットをたくさん用意するのは難しい
なので、自己教師かweakly supervised fashion(?)でやる
related work
Active Depth Sensing
まず、active stereoはtemporal(時間方向)とspatial(空間方向)に分けられる
temporalは、複数のパターン画像を連続で投影し、ピクセルごとに一意の符号付けをする
→複数回の撮影が必要
spatialは、ある程度広い領域で見れば一意なパターン分布になるようにしてマッチングを取る
キネクトV1
→シンプルなタスクに見えるが、photoconsistencyとpatch内で視差が一定になる問題がある
Fanello[10](HyperDepth)
ランダムフォレストでマッチングをする、擬似真値にPatchMatch Stereo、早くて並列出来て良い
(よくわからないので今度読む)
→我々は教師なしで良いので強い
インテルリアルセンス
基本はステレオ、テクスチャレス領域のカバーに構造化光
Fanello(まさかの2回目)
マッチングの効率良いアルゴリズムをやったらしい
Zhang
アクティブステレオの学習ベース、でもステレオ画像がいるっぽい?
Stereo Matching
テクスチャレスむずいよね
Single Image Depth Prediction
最近になって解決されはじめている
→一視点からdepthを特定するのは基本的にill-posed
手法
DOE(Diffractive Optical Element)・・・回折光学素子、光の回折を利用していろんな方向にレーザー光を分散
投影光と輝度値の関係
基本的には、パターン光とアンビエント光の和
パターン光は、投影強度×反射率×シェーディング
それにノイズを足す
基本的には、光源は距離に対して二乗の減衰になるのは点光源のみだけど、レーザー光の発散があるので同じと仮定している
画像をアンビエントとパターン光に分けている
アンビエントは滑らかさ、パターン光はdepthの絶対値がわかる(ステレオ条件を活かせるので)
weak supervision
教師データのラベル付けもある程度ネットワークにやってもらう、そのデータで学習する