Deformable Convolutional Networks

2020-12-06

コンテンツ

J. Dai et al. “Deformable Convolutional Networks” (2017) ICCV2017

概要

作用するpixel座標が固定だったConvolutionやROI poolingを拡張し、入力に応じて作用するpixel座標が変わるdeformable convolutionとdeformable ROI poolingを提案した
提案手法をObject DetectionやSemantic Segmentationに適用

論文情報

リンク

公式実装

著者

Microsoft Research Asia (MSRA)のメンバー。第2,3,4,5著者がインターン中の仕事。

Jifeng Dai 現SenseTime Research。R-FCNなど。
Haozhi Qi UC Berkeley
Yuwen Xiong University of Toronto
Yi Li
Guodong Zhang University of Toronto
Han Hu MSRA
Yichen Wei Megvii。顔検出関連の研究が多い

内容・感想

日本語の記事が既にたくさんあったので、主に感想。

解説記事
イントロが非常に良く書けている
offsetの計算が追加で必要なだけでなく、キャッシュヒット率が下がりそう

Deformable convolution

各チャンネルでは同じ空間変換
deformableを使わなかった場合に畳み込まれる場所を元に、畳み込みでoffsetを計算
- deformable convで畳み込まれる場所はより広いのに、offsetを決めるのに使う場所が狭いのが微妙な気がする
offsetの出力はカーネルサイズNではなく、2N？ → (x,y)の2方向へのoffsetだから2N

Deformable ROI pooling

最近の物体検出だと、ROI poolingではなくて、ROI alignが使われているが、Deformableにすると同じものに帰着しそう
- Deformableだと、offsetは整数ではなく少数になり、bilinear補間されるので
poolingされるbinの中ではdeformable offsetは一定
Deformable convでは、offsetを出力するのは畳み込み層だったが、Deformable ROI poolingではFC層
- ROI PoolingではFC層を使う理由は？
ROI poolingでは、PoolingされるROIのサイズは可変なので、offsetの出力は規格化したものにする
これも、Deformable convと同様に、offsetの出力の元となる特徴量の範囲が狭いのがよく無さそう

Deformable ConvNet

Object DetectionやSemantic Segmentationは、特徴量抽出をするCNNと各タスクの出力をするCNNに分かれている
特徴量抽出をするCNNの最後の方だけ、Deformable convにする
- 全部Deformableにすると遅すぎる？

参考文献

本研究と同じで、幾何学的な変換を学習する手法（本研究と違ってDenseな変換ではない）

[26] spatial transfer network
[11] deformable part model
Sec3.1に他の研究も列挙されている