기존의 anchor box based prediction과 달리 straightforward center와 scaled prediction 방식을 제안하는 논문이다.
즉 box, anchor free이며, 바운딩 박스를 예측하는것이 아니라 물체의 offset, scale, center point를 예측한다.
또한, SSD처럼 scale을 줄여가며 물체를 찾아내는것이 아니라, straightforward convolution을 통해 이미지의 크기를 줄이지 않고, 물체를 찾아내는게 특징이다. (그렇기 때문에 SSD와 비교했을때, parameter의 크기가 매우 작다.)
edge, corner, blob처럼 low level의 피쳐를 통해 물체를 찾는것이 아니라, 이미지 자체에서 물체의 scales of the central points를 찾는다는 뜻이다. 그렇다고 레이어를 타면서 스케일이 줄어드는것은 아니다. 줄어든 스케일의 피쳐맵들을 그 각각에서 물체를 찾아내지않고, 원본의 크기로 rescale한 후 위에서 말한 3개의 아웃풋을 위한 conv를 타 예측을 해낸다.
center point를 찾는 이유는, CSP는 high-level feature point를 통해 object detection을 하는데, 이를 찾는데 있어 다른 방법보다 좋기 때문이다.
backbone으로 Resnet-50을 쓰고, 위에서 말한것처럼 featuremap을 합칠때, 3,4,5번째 featuremap을 합친다.
3줄요약
- CSP는 anchor based의 바운딩 박스를 예측하는 기존의 방식과 달리, 물체의 center point와 scale을 예측하는 anchor free 방식의 object detection이다.
- Face detection과 CityPersons , Caltecth 데이터셋에서 SOTA를 달성했다.
- cross-dataset evaluation에 우수한 성능과 잠재력을 보인다.
keypoint pairing이라는 detection방법도 논문에서 나오는데, 다음에 찾아볼 예정이다.