Center and Scale Prediction: A Box-free Approach for Pedestrian and Face Detection

기존의 anchor box based prediction과 달리 straightforward center와 scaled prediction 방식을 제안하는 논문이다.

즉 box, anchor free이며, 바운딩 박스를 예측하는것이 아니라 물체의 offset, scale, center point를 예측한다.

또한, SSD처럼 scale을 줄여가며 물체를 찾아내는것이 아니라, straightforward convolution을 통해 이미지의 크기를 줄이지 않고, 물체를 찾아내는게 특징이다. (그렇기 때문에 SSD와 비교했을때, parameter의 크기가 매우 작다.)
edge, corner, blob처럼 low level의 피쳐를 통해 물체를 찾는것이 아니라, 이미지 자체에서 물체의 scales of the central points를 찾는다는 뜻이다. 그렇다고 레이어를 타면서 스케일이 줄어드는것은 아니다. 줄어든 스케일의 피쳐맵들을 그 각각에서 물체를 찾아내지않고, 원본의 크기로 rescale한 후 위에서 말한 3개의 아웃풋을 위한 conv를 타 예측을 해낸다.

center point를 찾는 이유는, CSP는 high-level feature point를 통해 object detection을 하는데, 이를 찾는데 있어 다른 방법보다 좋기 때문이다.
backbone으로 Resnet-50을 쓰고, 위에서 말한것처럼 featuremap을 합칠때, 3,4,5번째 featuremap을 합친다.

3줄요약

CSP는 anchor based의 바운딩 박스를 예측하는 기존의 방식과 달리, 물체의 center point와 scale을 예측하는 anchor free 방식의 object detection이다.
Face detection과 CityPersons , Caltecth 데이터셋에서 SOTA를 달성했다.
cross-dataset evaluation에 우수한 성능과 잠재력을 보인다.

keypoint pairing이라는 detection방법도 논문에서 나오는데, 다음에 찾아볼 예정이다.

Leave a Reply Cancel reply

안녕하세요 인하님, 좋은 리뷰 감사합니다. 쉽게 설명해주셔서 덕분에 공부가 많이 되었습니다. positional encoding 부분에서 궁금한 점이 있는데요, 하필 sinusoid 형태의…

질문 감사합니다. φ_db와 φ_llm을 곱하는 게 아니 더하는 등의 다양한 조합에 대해서는 논문에 따로 언급하고있지 않습니다. (Supplementary Material에도 따로 없네요)…

안녕하세요 우진님 댓글 감사합니다. 리뷰에서 말씀드렸다 싶이 예를들어 어떤 샘플이 현재 이미지 + 언어 프롬프트만 있고 2D 포즈/goal image가 없다면,…

좋은 질문 감사합니다. q–v를 각각 평가하거나 q와 여러 비디오를 한 번에 비교하는 방식은 계산적으로는 효율적이겠지만, LLM이 각 비디오를 절대적인 기준으로…

좋은 질문 감사합니다. X-CoT를 단순히 백본 모델의 오답을 고치는 '교정기' 라기보다는, 임베딩 유사도만으로는 잘 드러나지 않는 차이를 비교해 주는 보완…

Center and Scale Prediction: A Box-free Approach for Pedestrian and Face Detection

Author: rcvlab

Leave a Reply Cancel reply

Conference Deadline

NEW POST

New Comment