J. Dai et al. “Deformable Convolutional Networks” (2017) ICCV2017

概要

  • 作用するpixel座標が固定だったConvolutionやROI poolingを拡張し、入力に応じて作用するpixel座標が変わるdeformable convolutiondeformable ROI poolingを提案した
  • 提案手法をObject DetectionやSemantic Segmentationに適用

論文情報

リンク

著者

Microsoft Research Asia (MSRA)のメンバー。第2,3,4,5著者がインターン中の仕事。

内容・感想

日本語の記事が既にたくさんあったので、主に感想。

Deformable convolution

  • 各チャンネルでは同じ空間変換
  • deformableを使わなかった場合に畳み込まれる場所を元に、畳み込みでoffsetを計算
    • deformable convで畳み込まれる場所はより広いのに、offsetを決めるのに使う場所が狭いのが微妙な気がする
  • offsetの出力はカーネルサイズNではなく、2N? → (x,y)の2方向へのoffsetだから2N

Deformable ROI pooling

  • 最近の物体検出だと、ROI poolingではなくて、ROI alignが使われているが、Deformableにすると同じものに帰着しそう
    • Deformableだと、offsetは整数ではなく少数になり、bilinear補間されるので
  • poolingされるbinの中ではdeformable offsetは一定
  • Deformable convでは、offsetを出力するのは畳み込み層だったが、Deformable ROI poolingではFC層
    • ROI PoolingではFC層を使う理由は?
  • ROI poolingでは、PoolingされるROIのサイズは可変なので、offsetの出力は規格化したものにする
  • これも、Deformable convと同様に、offsetの出力の元となる特徴量の範囲が狭いのがよく無さそう

Deformable ConvNet

  • Object DetectionやSemantic Segmentationは、特徴量抽出をするCNNと各タスクの出力をするCNNに分かれている
  • 特徴量抽出をするCNNの最後の方だけ、Deformable convにする
    • 全部Deformableにすると遅すぎる?

参考文献

本研究と同じで、幾何学的な変換を学習する手法(本研究と違ってDenseな変換ではない)

  • [26] spatial transfer network
  • [11] deformable part model
  • Sec3.1に他の研究も列挙されている