지난 KCCV 학회에서 찾아본 논문들 중 하나 인 Cascade RPN에 대해서 소개해드리겠습니다. 우선 3줄 요약을 통해 논문의 내용을 설명드리겠습니다.
- 2-Stage의 Object Detection 모델은 first stage인 RPN이 second stage인 R-CNN보다 성능향상에 있어 덜 중요하게 여겨져 왔지만, RPN에 주목했다.
- alignment rule을 보존하는 Adaptive Convolution을 통해 RPN의 성능을 개선시켰다.
- 기존 Fast R-CNN과 Faster R-CNN과 비교하였을때, mAP면에서 3.1%p, 3.5%p의 성능향상을 보였다.
GT box와 Anchor간의 offset을 학습 하는 식이다.
기존 RPN을 발전시키기 위한 방법중 하나인 Iterative RPN은 반복적으로 다음 stage의 anchor로 A1을 사용한다. 정확한 위치를 얻을 때까지 식 (1)에서 (3)을 반복적으로 수행한다. 그러나 이 방식은 anchor와 각 반복 후 변화하는 anchor의 위치와 모양에 대해 표현된 특징들과 anchor간의 불일치가 존재한다. 해당 방법은 해결하기 위해, 최근에 사용되는 방법으로는 deformable convolution이 있다. 하지만 해당 방법 또한 alignment rule에 의한 것인지 kernel에 의한 것인지에 대한 불투명성이 존재하여 여전히 제약이 존재한다.
Adaptive convolution은 기존 Dilated convolution과 Deformable convolution을 합치고 개선한 방법입니다. Deformable convolution 과 달리 Adaptive convolution은 alignment rule을 보존한다.
An alignment rule is “implicitly” defined to set up a correspondence between the image features and the reference boxes이라고 하는데, 잘 이해되지않는다.
리뷰에서 dilated, adaptive, deformable conv을 주요한 설명인 것 같네요… 흠… 그리고 이들을 설명하시려고 alignment rule도 많이 사용하시는데…. 마지막에 이해가 안된다고 하셔서 더 혼란이 옵니다.
이해하신 범주까지라도 각각을 나눠서 설명 해주실 수 있나요?
Cascade RPN에서 제안한 방식을 설명해주신게 잘 이해되지 않고 생략된게 많아보이는데 자세히 설명해주실 수 있을까요?