Connecting the dots,CVPR,2019

概要

初の学習ベースの単眼active深度推定

 

イントロ

キネクトとかの消費者向けdepthカメラは良い感じに活用されているよね

でも、計算コスト、メモリコストの制限を受けるよ

 キネクト・・・シンプルな相関ベースのブロックマッチング

 インテルリアルセンス・・・セミグローバルマッチング

この2手法は精度の面で全然遅れている、学習ベースの方が精度良い

 

今回は学習ベースのアクティブステレオを紹介するよ

カメラ一個で良いし、end-to-endだよ

 

一般的にactive stereoのデータセットをたくさん用意するのは難しい

なので、自己教師かweakly supervised fashion(?)でやる

 

related work

Active Depth Sensing

まず、active stereoはtemporal(時間方向)とspatial(空間方向)に分けられる

temporalは、複数のパターン画像を連続で投影し、ピクセルごとに一意の符号付けをする

→複数回の撮影が必要

 

spatialは、ある程度広い領域で見れば一意なパターン分布になるようにしてマッチングを取る

 キネクトV1

→シンプルなタスクに見えるが、photoconsistencyとpatch内で視差が一定になる問題がある

Fanello[10](HyperDepth)

 ランダムフォレストでマッチングをする、擬似真値にPatchMatch Stereo、早くて並列出来て良い

(よくわからないので今度読む)

→我々は教師なしで良いので強い

 

インテルリアルセンス

 基本はステレオ、テクスチャレス領域のカバーに構造化光

 

Fanello(まさかの2回目)

 マッチングの効率良いアルゴリズムをやったらしい

 

Zhang

 アクティブステレオの学習ベース、でもステレオ画像がいるっぽい?

 

Stereo Matching

 テクスチャレスむずいよね

 

Single Image Depth Prediction

 最近になって解決されはじめている

 →一視点からdepthを特定するのは基本的にill-posed

 

手法

DOE(Diffractive Optical Element)・・・回折光学素子、光の回折を利用していろんな方向にレーザー光を分散

 

投影光と輝度値の関係

基本的には、パターン光とアンビエント光の和

パターン光は、投影強度×反射率×シェーディング

それにノイズを足す

 

基本的には、光源は距離に対して二乗の減衰になるのは点光源のみだけど、レーザー光の発散があるので同じと仮定している

 

画像をアンビエントとパターン光に分けている

 アンビエントは滑らかさ、パターン光はdepthの絶対値がわかる(ステレオ条件を活かせるので)

 

weak supervision

 教師データのラベル付けもある程度ネットワークにやってもらう、そのデータで学習する