Deformable Convolutional Networks
コンテンツ
J. Dai et al. “Deformable Convolutional Networks” (2017) ICCV2017
概要
- 作用するpixel座標が固定だったConvolutionやROI poolingを拡張し、入力に応じて作用するpixel座標が変わるdeformable convolutionとdeformable ROI poolingを提案した
- 提案手法をObject DetectionやSemantic Segmentationに適用
論文情報
リンク
著者
Microsoft Research Asia (MSRA)のメンバー。第2,3,4,5著者がインターン中の仕事。
- Jifeng Dai 現SenseTime Research。R-FCNなど。
- Haozhi Qi UC Berkeley
- Yuwen Xiong University of Toronto
- Yi Li
- Guodong Zhang University of Toronto
- Han Hu MSRA
- Yichen Wei Megvii。顔検出関連の研究が多い
内容・感想
日本語の記事が既にたくさんあったので、主に感想。
-
解説記事
-
イントロが非常に良く書けている
-
offsetの計算が追加で必要なだけでなく、キャッシュヒット率が下がりそう
Deformable convolution
- 各チャンネルでは同じ空間変換
- deformableを使わなかった場合に畳み込まれる場所を元に、畳み込みでoffsetを計算
- deformable convで畳み込まれる場所はより広いのに、offsetを決めるのに使う場所が狭いのが微妙な気がする
- offsetの出力はカーネルサイズNではなく、2N? → (x,y)の2方向へのoffsetだから2N
Deformable ROI pooling
- 最近の物体検出だと、ROI poolingではなくて、ROI alignが使われているが、Deformableにすると同じものに帰着しそう
- Deformableだと、offsetは整数ではなく少数になり、bilinear補間されるので
- poolingされるbinの中ではdeformable offsetは一定
- Deformable convでは、offsetを出力するのは畳み込み層だったが、Deformable ROI poolingではFC層
- ROI PoolingではFC層を使う理由は?
- ROI poolingでは、PoolingされるROIのサイズは可変なので、offsetの出力は規格化したものにする
- これも、Deformable convと同様に、offsetの出力の元となる特徴量の範囲が狭いのがよく無さそう
Deformable ConvNet
- Object DetectionやSemantic Segmentationは、特徴量抽出をするCNNと各タスクの出力をするCNNに分かれている
- 特徴量抽出をするCNNの最後の方だけ、Deformable convにする
- 全部Deformableにすると遅すぎる?
参考文献
本研究と同じで、幾何学的な変換を学習する手法(本研究と違ってDenseな変換ではない)
- [26] spatial transfer network
- [11] deformable part model
- Sec3.1に他の研究も列挙されている