Hei Law · Jia Deng
Abstract
기존 SSD와 같은 detector의 경우 bounding box기반으로 anchor box를 만들어야 하는 등 (ex SSD에서 8732가량의 prior)의 과정이 필요 했지만 , CornerNet은 bounding box를 왼쪽 위(top-left)와 오른쪽 아래(bottom-right)의 한 쌍의 keypoint로 감지하는 object detection에 대한 새로운 접근방법을 제안한다. 쌍을 이루는 keypoint로 object를 detection하기 때문에 anchor box를 만들 필요가 없다는 것이 핵심 아이디어이다. 또한 corner의 localize하는데 도움이 되는 새로운 유형의 corner pooling을 소개한다.
Intro
single convolutional network를 사용해서 top-left 모서리에 대한 heatmap
, bottom-right 모서리에 대한 heatmap
, 한 쌍의 모서리를 그룹화 해줄 임베딩
을 예측한다.
CornerNet의 또 다른 새로운 구성요소는 Convolutional Network가 경계 상자의 모서리를 더 잘 localize하는데 도움이 되는 새로운 유형의 pooling layer인 corner pooling
이다. bounding box의 모서리는 보통 object의 외부에 존재한다. 따라서 다음과 같은 과정을 통해 localize 한다.
- 두개의 feature map을 받는다.
- 각 pixel 위치에서 첫 번째 feature map에서 오른쪽으로 모든 feature 벡터를 max pooling한다,
- 각 pixel 위치에서 두 번째 feature map에서 아래의 모든 feature 벡터를 max pooling한다.
- 두개의 결과를 더한다.
Overview
Convolution Network는 서로 다른 object categories의 corner의 위치를 나타내는 2개의 heatmap set(top-left, bottom-right)를 예측한다. Network는 또한 동일한 object로 부터 두개의 corner의 임베딩 사이의 거리가 작도록 검출 된 각 corner에 대한 임베딩 벡터를 예측한다. 더 정교한 bounding box를 예측하기 위해서 Network는 corner의 위치를 약간씩 조정하기 위해서 offset을 예측한다.
그래서 예측된 heatmap
, embedding
, offsets
를 사용해 후처리를 하고 최종 bounding box를 얻는다.
backbone으로 Hourglass network
를 사용한다. (특이한 점은 pretrain된 모델을 쓰지 않고 처음 부터 학습한다는 것)
Reference