[CVPR 2020] Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection

object detection은 대부분 anchor-based detector가 주를 이뤄왔고 anchor-free방식이 점차 등장하기 시작했다. 결론적으로 말하자면 본 논문에서는 먼저 anchor-based와 anchor-free 방식 사이의 주요한 차이는 사실 positive sample과 negative sample을 어떻게 정의하느냐에 따라 성능차이가 발생한다고 주장한다. 만약 anchor-based와 anchor-free방식 모두 학습 시 동일한 기준으로 positive, negative sample을 정의한다면 최종 성능에는 큰 차이가 없다고 하며 posivie, negative training sample을 어떻게 정의하느냐가 현재 object detector 성능의 중요한 영향을 미친다고 주장한다. 본 논문에서는 Adaptive Training Sample Selection(ATSS)를 제안하여 object의 통계적 특성을 활용하여 automatical하게 positive와 negative samples를 선택하고자 한다. 이를 통해 기존 sota detector의 성능을 더 끌어올릴 수 있었다. anchor-free에 대해 찾아보다 발견한 논문인데 anchor-based와 anchor-free의 차이에 대해 분석하는 좋은 논문인 것 같고 참고로 2020 cvpr oral paper였다.

Introduction

CNN이 등장하면서 object detection에서는 anchor-based detector가 주를 이뤘다. 크게 one-stage와 two-stage detector로 나뉘는데 두 방법들 모두 이미지에서 예측한 수많은 anchor들을 타일링하여 category를 예측하고 anchor의 coordinate를 refine하여 detection 결과로 도출하게 된다. two-stage의 경우 anchor refinement를 one-stage에 비해 더 많이 하기 때문에 정확도는 높지만 속도가 느리다는 특징이 있다. 보통 detection benchmark에서 sota모델은 대부분 anchor-based 방법론이 차지하고 있다. 하지만 FPN과 focal loss의 등장으로 anchor-free방식이 관심을 받기 시작했다. anchor-free detector는 크게 두 가지 방식으로 사전 정의된 anchor없이 object를 찾는다. 하나는 keypoint를 이용해 object의 위치를 예측하는 keypoint-based method이고 다른 하나는 object center를 예측한 후 positive인 경우 object boundary와의 거리를 예측하는 center-based method이다. 이러한 anchor-free detector는 anchor에 대한 hyperparameter를 사용하지 않고 anchor-based detector와 비슷한 성능을 얻을 수 있기 때문에 detection분야에서 잠재력이 있다고 여겨진다. 이때 keypoint-based와 다르게 center-based 방법론은 anchor-based 방식과 비슷한 점이 있는데, anchor-based의 anchor box를 대신해서 points를 사전 정의한 sample로 사용한다. RetinaNet과 FCOS를 각각 anchor-based, anchor-free방식의 예시로 들었을 때 크게 3가지의 차이점이 존재한다. 먼저 1) RetinaNet은 각 위치마다 여러 개의 anchor box가 생성되지만 FCOS는 위치마다 하나의 anchor point가 생성된다. 그리고 2) positive와 negative sample을 정의하는 방식이 다르다. RetinaNet은 IoU에 의존해서 positive와 negative sample을 나누지만, FCOS는 공간과 scale의 제약을 활용하여 sample을 선택한다. 또 3) RetinaNet은 사전 정의된 anchor box로부터 object bounding box를 회귀하지만, FCOS는 anchor point로부터 object의 위치를 회귀한다. 성능을 비교했을 때 anchor-free방식인 FCOS가 anchor-based방식인 RetinaNet에 비해 더 좋은 성능을 보이는데 저자는 이 두 방식의 성능 차이가 anchor를 사용하는지에 차이인지 다른 영향에 의한 성능 차이인지 분석을 해 볼 필요가 있다고 주장한다. 

본 논문에서는 anchor-based와 anchor-free방식의 차이점에 대해 비교하며 결과론적으로 두 방식의 본질적인 차이는 positive와 negative training sample을 어떻게 정의하느냐에 따라 성능 차이가 발생했다고 한다. 즉, 다시말해 anchor-based와 anchor-free방식을 사용한 두 모델의 성능 차이는 사실 anchor의 사용 유무가 아니라 training 시 positive와 negative를 어떻게 정의하느냐에 따라 성능이 갈렸다는 것이다. 따라서 본 논문에서는 object의 통계적 특성을 활용하여 automatical하게 positive, negative sample을 선택하는 Adaptive Training Sample Selection(ATSS) 알고리즘을 제안한다. 

본 논문의 contribution은 아래와 같다.

1. anchor-based와 anchor-free방식의 본질적인 차이는 training sample의 positive와 negative를 어떻게 정의하느냐에 따름을 보임

2. positive, negative training sample을 automatical하게 선택하는 ATSS 제안

3. 물체 검출을 위해 위치마다 여러 개의 anchor를 타일링 하는 것은 효과가 없음

4. MS COCO에서 sota 성능 달성

Related Work

현재 CNN 기반의 object detection은 크게 anchor-based와 anchor-free로 나눌 수 있다. anchor-based는 다시 one-stage, two-stage로 나뉘고 anchor-free는 keypoint-based와 center-based로 나뉜다. 

Anchor-based Detector

초기에 faster r-cnn이 등장하면서 two-stage anchor-based detector가 많이 사용되었다. 이후에 architecture를 바꾸거나 attention 구조를 활용하거나 loss를 변경하는 등 training 전략을 다양하게 사용한 연구들이 진행되었다. 당시까지만 해도 two-stage 방법론들이 대부분 sota를 달성하고 있었다.

one-stage의 경우 two-stage에 비해 낮은 연산량을 가지는 SSD가 등장하면서 관심을 받게 되었다. 이후에 서로 다른 multi-layer에서 fusion하거나 새로운 loss를 도입하거나 feature enrichment 등을 활용한 연구들이 진행되었다. 그리고 one-stage가 속도는 two-stage에 빠르지만 성능은 좋지 않았는데 inference time과의 trade off관계에서 어느정도 견줄만한 성능까지도 따라 왔다는 분석이다.

Anchor-free Detector

먼저 keypoint-based 방법의 경우에는 사전에 정의된 keypoints(특징점)들을 기반으로 위치를 통해 bounding box를 생성한다. 대표적으로 cornetnet이 존재하며 cornernet은 top-left와 bottom-right의 pair한 keypoint를 통해 object를 검출하게 된다.

center-based 방법의 경우 positive를 정의하기 위해 object의 center를 foreground로 하고, detection을 위해 positive와bounding box와의 네 변까지 거리를 예측한다. 대표적으로 YOLO가 center-based anchor free방식이라고 할 수 있다. YOLO에서는 먼저 input image를 sxs grid로 나누어서 각 grid cell마다 object center를 포함하고 있으면 논문에서는 responsible이라고 표현하며 positive로 판단하게 되어 해당 cell에서 물체를 검출하게 된다. 

FCOS의 경우에는 spatial and scale constraint를 통해 bounding box 내부 영역에 포함되는 모든 pixel에 대해 positive로 분류하여 positive sample의 수를 늘리고 centerness score를 도입하여 object center와 멀어질수록 penalty를 주는 방식을 적용했다. 

Difference Analysis of Anchor-based and Anchor-free Detection

여기서 비교를 위해 anchor-based 방법론은 RetinaNet, anchor-free 방법론은 FCOS를 활용하였다. 본 section에서는 anchor-free와 anchor-based의 차이에 대한 실험을 통해 두 방식의 차이점인 positive/negative sample의 정의가 다르다는 것과 regression할 때 시작하는 상태가 point/box로 다르다는 것에 집중한다. 또 각 location마다 생성하는 anchor의 수가 다르다는 차이도 있는데 이 내용은 뒤에서 다룰 것이다. 일단 여기서는 anchor-based인 RetinaNet에서 각 location마다 하나의 정사각형 anchor만 설정하여 anchor-free와 비슷하게 설정하려고 했다. 

Experiment Setting

데이터 셋은 80개의 object classes를 포함하는 MS COCO데이터셋을 활용했다. 학습 시 backbone으로는 5개 level의 feature pyramid 구조를 포함하는 imagenet에서 사전학습된 ResNet50을 사용하였다. inference하고나서 모델은 예측한 boundign box와 예측한 class를 output으로 하게된다. 그리고 이후에 background box를 threshold에 따라 제거하고 각 feature pyramid level마다 높은 score를 가지는 1000개의 object를 뽑아 각 class마다 iou threshold가 0.6보다 높은 것만 살리는 nms를 통과시킨다. 

Inconsistency Removal

우선 하나의 pixel에 여러 anchor가 할당된느 것의 효과를 분석하기 전에 anchor 유무의 효과 자체에 초점을 맞추고자 위에서 anchor-based인 RetinaNet에 대해 anchor-free인 FCOS와 같이 각 location마다 하나의 정사각형 anchor box를 설정한다고 했고 이를 앞으로 RetinaNet (#A=1)로 표시한다. 하지만 논문의 reporting된 결과를 보면 FCOS와 RetinaNet(#A=1)과는 각각 37.1%, 32.5%로 큰 성능차이를 보인다. 여기에 FCOS는 centerness, Giou loss 등 improvement를 적용했을 때 37.1%에서 37.8%로 성능 향상을 보였다. 이렇게 anchor-based와 anchor-free방법론의 성능 gap이 발생하는 원인에는 다양한 요인들이 존재할 것이다. anchor-free에 적용한 improvement들을 anchor-based에도 하나씩 적용하면서 실험을 해보았고 결과는 Table 1에서 확인할 수 있다.

anchor-free인 FCOS의 경우 37.8%이고 FCOS에 적용한 방법들을 동일하게 적용한 RetinaNet(#A=1)의 가장 오른쪽 column을 보면 37.0%로 0.8%의 성능 차이를 확인할 수 있다. 여기서 anchor-free와 anchor-based의 차이점을 모두 동일하게 했는데 0.8%의 성능 gap이 나타났고, 그럼 이 성능차이는 어디에서 발생하는 것인지를 분석하고자 했다.

Essential Difference 

위의 실험을 통해 anchor-free(FCOS)와 anchor-based(RetinaNet(#A=1))이 다른 부분은 크게 두 가지가 남았다.

1) classification sub-task로 positive와 negative를 정의하는 방식

2) regression sub-task로 regression을 수행할 때 box를 가지고 시작하는지 point를 가지고 시작하는지

Figure 1(a)에서 처럼 RetinaNet은 iou를 활용하여 서로 다른 pyramid level feature에서 anchor box를 positive와 negative로 나누게된다. 먼저 각 object마다 최적의 anchor를 선택하여 iou보다 높으면 positive, 낮으면 negative로 label한다. 반면 Figure 1(b)의 FCOS는 spatial and scale constraints를 통해 서로 다른 pyramid level에서 anchor point를 분류한다. 먼저 gt box안에 포함되는 anchor points들을 candidate positive sample로 설정하고(spatial constraint) 각 pyramid level에서 정의된 scale range에 따라 최종 anchor point를 positive sample로 설정한다고 한다. 이렇게 두 방식의 서로 다른 방법이 서로 다른 positive와 negative samples를 선택하도록 만든다고 한다. Table 2의 첫 번째 column을 보면 Box(;RetinaNet(#A=1))에 대해 iou기반이 아닌 spatial and scale constraint방식으로 positive와 negative를 sampling하였을 때 37.0%에서 37.8%로 성능 향상을 보인 것을 알 수 있다. 

오른쪽의 point(;FCOS)의 경우에도 36.9%에서 37.8%로의 성능 향상을 확인할 수 있다. 즉, anchor-based이든 anchor-free이든지 간에 동일한 방법으로 positive와 negative를 정의하면 동일한 결과를 얻을 수 있다는 것을 증명했다. 이 결과를 통해 positive와 negative samples를 정의하는 방식이 anchor-free와 anchor-based의 성능 차이에 주요한 요인이었다는 것을 알 수 있다. 

그리고 이렇게 positive와 negative samples가 정의되고난 후 positive sample들에 대해 Figure 2(a)처럼 위치를 regression하게 될 것이다.

Figure2(b)처럼 RetinaNet은 anchor box로부터 gt box와의 4방향에 대한 offset을 regression하게 되고 Figure2(c)처럼 FCOS의 경우에는 anchor point로부터 object boundary까지 distance를 regression하게 된다. 즉, positive samples에 대해 RetinaNet은 box로부터 regression을 시작하고 FCOS는 point로부터 regression을 시작한다는 뜻으로 regression을 시작하는 상태가 다르다는 것이다. 하지만 위의 Table2에서 보았듯이 point로부터 regression하든 box로부터 regression하든지 성능에는 차이가 없다는 것을 알 수 있다. 이 결과를 통해 regression을 하는 상태는 positive와 negative를 정의하는데 따른 차이만큼 critical한 차이가 아니라는 것을 알 수 있다. 

결론적으로 실험을 통해 anchor-based와 anchor-free의 성능 차이는 positive와 negative sample을 정의하는데서 오는 차이점이 큰 영향을 미친다는 것을 이해할 수 있다. 

Adaptive Training Sample Selection

object detector를 학습시킬 때 classification을 위해 positive와 negative smaple을 정의해야하고 이후에 positive sample에 대해 regression을 수행하게 된다. 위에서 실험을 통해 positive와 negative sample을 정의하는 방법이 중요하다는 것을 입증하였고, 여기서는 저자가 기존의 iou-based와는 다른 새로운 방식의 positive와 negative sample을 정의하는 방법인 Adaptive Training Sample Selection(ATSS)을 제안한다. 

기존의 sample selection방식을 보면 anchor-based의 경우 iou threshold를 지정해주어야하고 anchor-free의 경우 scale range를 설정해주어야하는, 즉 hyperparameter에 영향을 많이 받아 다르게 설정할 때마다 서로 상이한 결과를 보였다. 따라서 본 논문에서는 ATSS라는 방법을 통해 hyperparameter의 영향을 크게 받지 않고 데이터의 통계적 특성을 활용하여 자동적으로 positive와 negative sample을 나눌 수 있도록 하는 방법을 제안한다. 아래 Algorithm1에서 ATSS의 흐름을 이해할 수 있다. 

간단히 살펴보면 먼저 input image에 대해 각 ground truth box(g)마다 candidate positive samples를 찾게 된다. 3~6줄을 보면 각 pyramid level마다 g의 center와 L2 distance가 가까운 k(=9)개의 anchor box를 선택하여 Cg에 추가한다. L은 feature pyramid levels를 나타내며 g는 k x L개의 candidate positive samples를 가지게 될 것이다. 그리고 7번째 줄에서 g와 positive candidates간 iou(Dg)를 구하게 되는데 이 때 8,9번 줄을 보면 Dg에 대해 mean(mg)과 standard deviation(vg)를 구한 것을 알 수 있다. 이에 따라 iou threshold (tg)는 mg+vg로 나타낸다. 즉 candidates들의 평균과 표준편차의 합으로 iou threshold를 설정해준 것이다. 11번째 줄부터 이 threshold를 넘는 candidate에 대해 positive로 할당하고 나머지는 negative로 할당하였다. 만약 anchor box가 여러 개의 gt box와 matching되었다면 가장 높은 iou를 가지는 것이 선택된다고 한다. 

threshold설정에 대해 좀 더 살펴보자. 아래 Figure 3(a)를 보면 높은 평균(mg)과 높은 표준편차(vg)를 가지는 경우이다. 전체적으로 높은 iou 평균값을 가진다는 것은 대부분의 anchor box가 좋은 quality를 보인다는 뜻이므로 상대적으로 높은 iou의 candidates만을 positive sample로 정의하는 것이 바람직 하므로 iou threshold(tg)를 높여주어야한다. Figure 3(b)는 낮은 평균과 낮은 표준편차를 가지는 경우이다. 낮은 iou 평균을 가진다는 것은 어떻게든 해당 object를 학습하기 위해 candidate에 대한 threshold를 낮출 필요성이 있기 때문에 낮은 threshold(tg)를 설정해야한다. 

반면 standard deviation을 보면 높은 standard deviation을 가지는 경우에는 다르게 설명하면 pyramid level에 따라 iou가 큰 편차를 가진다는 의미이므로 해당 object를 학습하기 위한 적절한 크기의 pyramid level이 존재한다고 이해할 수 있겠다. 이 경우에는 해당 pyramid level의 candidates만을 positive로 사용하는 것이 좋기 때문에 iou threshold(tg)를 높여 다른 candidates들을 걸러낼 수 있을 것이다. 반대로 standard deviation이 낮은 경우라면 여러 pyramid level에 적절한 iou를 가진다고 해석할 수 있기 때문에 여러 pyramid level에 대해 학습을 해도 즉, 다른말로 낮은 iou threshold(tg)로 설정하여 여러 candidates들을 positive로 설정해도 괜찮다는 것을 의미한다. 

이렇게 object의 통계적 특성을 활용하여 positive sample을 정의하게 됨으로써 adaptive하게 iou threshold(tg)를 설정할 수 있다. 

해당 방법을 적용했을 때 필요한 hyperparameter는 k만 존재한다. k는 주변 몇 개의 anchor를 생성할지 사전 지정해주는 parameter로 이것에 따라서도 성능이 달라질 수 있다고 생각한다. 하지만 저자는 k=9로 설정한 것에 대해 k가 변함에 따라서도 실질적으로 성능에 큰 영향을 주지않는다고 한다. 결론적으로 hyperparameter에도 큰 영향을 받지 않고 정말 adaptive하게 iou threshold를 설정할 수 있는 것이다.

먼저 아래 Table 3을 통해 각 방법론에서의 성능 향상을 확인해보자. 

먼저 위의 2개인 anchor-based방법인 RetinaNet을 먼저보면 본 논문에서 제안하는 ATSS를 적용하여 positive와 negative sample을 정의하였을 때 37.0%에서 39.3%로 2.3%나 성능이 향상된 것을 확인할 수 있다. 아래 anchor-free방법인 FCOS의 경우 크게 lite version과 full version으로 나뉜다고 한다. 여기서 lite version은 각 pyramid level에서 각 gt마다 주변 top k개(9개) candidates를 sampling한 방식으로 표에 나와있듯이 center sampling을 9개 한 것이다. 그리고 본 논문에서 제안하는 ATSS를 적용한 것이 full version이라고 한다. ATSS를 적용했을 때 37.8%에서 39.2%까지 성능이 향상한 것을 알 수 있고 눈여겨볼만한 점은 anchor-based인 RetinaNet이나 anchor-free인 FCOS나 여기서 제안하는 ATSS를 적용하여 sampling을 했을 때 각각 39.3%, 39.2%로 거의 동일한 성능을 보였다는 점이다. 즉, 동일한 positive selection하는 방법을 적용하면 anchor-free이든 anchor-based이든지 비슷한 성능을 보이며 anchor-based와 anchor-free 방법론의 실질적인 성능 차이는 positive와 negative sample을 정의하는 방법에서 큰 성능 차이를 보였음을 입증했다. 

분석한 실험들에 대해 좀 살펴보자면 먼저 Table 4에서는 ATSS에 사용되는 유일한 parameter인 k에 대한 ablation이다. 

k는 각 pyramid level에서 positive sample의 후보군을 선택하기 위해 주변 몇 개를 선택할 것인지에 대한 parameter이다. 표를 보면 k를 3부터 19까지 실험해보았는데 7~17까지는 거의 성능 변화가 없이 robust한 것을 확인할 수 있다. k가 너무 크면 quality가 안좋은 candidates들이 많아서 성능에 악영향을 준 것으로 보이고, k가 너무 작으면 필요한 부분을 보지 못할 수 있어 성능 하락을 보이는 것 같다. 

아래 Table 5의 경우는 anchor size에 대한 분석이다. positive를 정의할 때 anchor box에 의존하기 때문에 anchor size에 대해서도 ablation을 수행했다.

보면 anchor scale을 5~9까지 설정해서 실험했다. 이때 scale에 따라서도 성능차이가 크지 않았기 때문에 성능에 의미있는 영향을 미치지 못할 정도로 안정적인 결과를 보였기 때문에 scale은 8로 설정했다. 

또 아래 Table 6에서는 aspect ratio에 대한 분석인데 이것 또한 어떤 aspect ratio를 적용하든 안정적인 결과를 보여주었다. 

결론적으로 제안하는 ATSS방법이 서로 다른 anchor setting에 따라 robust하다는 것을 알 수 있다. 

아래 Table 8에서는 다른 sota 방법론들과 비교한 결과를 보여준다.

ResNet-101을 사용한 ATSS는 동일 backbone을 사용하는 다른 방법들보다 좋은 결과를 보였고 ResNeXt-32x8d-101과 같은 더 큰 backbone으로 바꾸니 더 높은 성능을 보이는 것을 알 수 있다. DCN은 deformable convolutional network를 적용한 것으로 DCN을 적용했을 때 조금 더 성능이 향상된 것을 알 수 있다. multi-scale testing은 이미지의 짧은 쪽을 640에서 800사이로 random하게 resize하는 방식으로 이전 방법론들에 적용되었던 것이데 이를 적용했을 때 최고 50.7%로 가장 좋은 성능을 보이는 것을 확인할 수 있다.

추가로 원래 RetinaNet은 anchor를 9개 생성하는데 (RetinaNet(#A=9)) 위에서 실험을 위해 RetinaNet(#A=1)을 사용했었다. 이에 대한 실험도 있는데 아래 Table 7을 보면 각 location마다 생성하는 anchor 수에 따른 실험이다. sc는 scale, ar은 aspect ratio를 각각 의미한다.

먼저 두 번째 row와 위의 Table 1을 보면 A=1일 때와 A=9로 했을 때 각각 37.0%, 38.4%로 성능차이가 나는 것을 알 수 있다. 즉 anchor의 수에 따라 각 위치마다 더 많은 anchor box를 쌓으면 더 효과적이라는 것이다. 하지만 ATSS가 적용된 아래 4개의 rows를 보면 scale이나 aspect ratio를 변경함에 따라 성능에 큰 변화가 없는 stable한 결과를 얻을 수 있다. 즉 ATSS를 적용했을 때는 각 위치마다 anchor가 몇 개를 쌓든 결과는 동일하다는 것을 알 수 있다. 저자는 ATSS를 적용했을 때에는 많은 anchor box를 굳이 사용하는 것이 의미가 없다는 것을 주장한다. 

Conclusion

본 논문에서는 one-stage anchor-based와 center-based anchor-free방식의 근본적인 성능 차이는 어디서 오는 것인지에 대해 분석하고 실험을 통해 입증했으며 그것은 positive와 negative sample을 어떻게 정의하느냐에 따라 달라진다고 주장한다. 즉 positive와 negative를 잘 선택하는 것이 최종 성능에 중요한 영향을 미친다는 것을 시사한다. 또 object들의 통계적 분포에 따라 positive와 negative samples를 자동으로 부여하는 adaptive training sample selection(ATSS)알고리즘을 제안하여 anchor-based와 anchor-free간 성능 차이는 positive를 assign하는데 차이가 있다는 것을 보인다. 마지막으로 각 location에서 여러 개의 anchor box를 쌓는 것이 ATSS에서는 의미없는 것이라는 것도 실험을 통해 알아내었다. anchor-free에 대해 알고 있으신 분들은 한 번 보면 좋은 논문인 것 같다. 그리고 ablation실험도 체계적으로 잘 된 것 같아 배울 점이 있는 논문이었다고 생각한다.

Author: 도경 김

4 thoughts on “[CVPR 2020] Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection

  1. 안녕하세요 ! 좋은 리뷰 감사합니다.

    우선 anchor-based에 각 location마다 anchor을 하나만 설정하는 것이 어떻게 anchor-free와 비슷하게 설정하였다고 가정할 수 있는지 궁금합니다. 최소한의 anchor box만을 사용하였다는 점에서 anchor-free와 근접하게 설정하였다고 할 수 있는 것인가요 ? ?
    그리고 또 하나 비슷한 맥락으로 RetinaNet을 FOCS와 같이 각 location마다 하나의 정사각형 anchor box를 설정하였다고 말씀해주셨는데, center point를 통해 object를 찾는 FCOS와 비슷하게 설정해주려면 box의 aspect ratio가 어느정도 다른 크기로 두어야하지 않을까 생각하는데 정사각형으로 정의하는 이유에 대해서 언급된 것이 있는지 궁금합니다 ..

    1. 댓글 감사합니다.

      원래 anchor-based의 경우에는 각 픽셀마다 여러 개의 size와 aspect ratio를 가지는 anchor box를 여러 개 생성하게 되는데, anchor-free의 경우 하나의 anchor point로부터 object의 size까지 boundary를 regression하게 됩니다. 이때 anchor-free와 fair한 비교를 위해 여러 개의 anchor box가 아닌 하나의 anchor box만 generation한 것입니다.
      또 아래 질문의 경우 Table 6을 보시면 MS coco에서 aspect ratio를 다양하게 설정했을 때 다른 aspect ratio를 가지는 box와 성능의 차이가 없었기때문이라고 이해하시면 도움이 될 것 같습니다.

  2. 안녕하세요. 리뷰 잘 읽었습니다.
    해당 논문이 분석적으로 보여 한번 쯤 다시 논문과 리뷰를 자세히 읽어볼만하다고 느껴지네요.
    다른 부분보다 간단한 질문 하나가 있는데, 그렇다면 ATSS의 통계적이라는 말은 결국 학습 데이터의 어떤 통계적 특성을 나타내나요? 결국 저자가 시도한 트릭이, 다른 시선에서는 학습 데이터에 편향적일 수 있다고 생각하는데 이에 대해서는 어떻게 생각하실까요?

    1. 댓글 감사합니다.

      ATSS는 fpn의 모든 feature level에서 generate한 box와 gt box와의 iou들을 구해서 iou의 평균과 표준편차의 통계적 수치를 활용하여 iou threshold를 설정하는 방법입니다. 학습데이터에 존재하는 object들의 크기와 scale을 고려한 threshold 설정하는 법이라고 할 수 있습니다.
      학습데이터의 특성에 따라 특정 데이터 셋에 대해 편향적이라고 생각할 수도 있지만, 데이터 셋에 따라 그 특성에 맞는 iou threshold를 설정해주어 adaptive하게 설정이 가능하기 때문에 오히려 모든 데이터 셋에 generalize하게 적용할 수 있다고 생각합니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다