안녕하세요 정의철 연구원입니다. 이번에 제가 소개할 논문은 ‘Deeply Unsupervised Patch Re-Identification for Pre-training Object Detectors’ 이란 논문입니다. 최근 Detection과 self-supervised을 주제로 연구를 진행하고 있어서 이렇게 소개하게 되었습니다. 그럼 바로 리뷰 시작하겠습니다.
1. INTRODUCTION
사전 학습 후 파인 튜닝은 딥 모델을 사용한 컴퓨터 비전 문제 접근 시 널리 사용되는 패러다임입니다. 그동안, 객체 탐지 작업의 파인 튜닝은 ImageNet 지도 학습 사전 학습이 주로 사용되어 왔습니다. 그러나 image-level 분류 사전 학습과 객체 탐지 작업 간에는 불일치가 존재합니다. 객체 탐지는 region- level 예측을 수행하기 때문입니다. 이 불일치를 해결하는 한 가지 방법은 대규모 및 고품질 객체 탐지 데이터셋에서 직접 표현을 사전 학습하는 것입니다. 그러나 이러한 데이터셋의 주석은 시간과 cost가 많이 들며 일부 영역에서는 얻기조차 어렵습니다. 대안으로, 비지도 학습은 인간의 주석 없이 표현을 사전 학습하는 것을 목표로 하며, 이를 통해 많은 양의 레이블 없는 데이터를 사용할 수 있습니다. 그 중에서도 대조 학습 방법은 이미지 분류, 객체 탐지 및 semantic segmentation과 같은 여러 다운스트림 작업에서 ImageNet 지도 학습 사전 학습과 비교할 만한 성과를 달성했습니다. 대조 학습은 긍정 쌍 뷰 간의 유사성을 극대화하고 부정 쌍 간의 유사성을 최소화하여 view-invariant representations을 학습할 수 있습니다.
최신 대조 학습 방법은 동일한 이미지에서 글로벌 뷰를 긍정 쌍으로, 다른 이미지에서 뷰를 부정 쌍으로 사용합니다. 무작위 리사이즈 크롭 등 잘 설계된 증강 기법이 이러한 뷰를 생성하는 데 사용됩니다. 따라서 분류에 유익한 globally spatial invariant representation이 학습됩니다. 예를 들어, 분류 모델은 동일한 이미지에서 생성된 두 뷰에서 동일한 범주 “개”를 예측해야 합니다. 하나는 왼쪽 하단에 개가 있고 다른 하나는 왼쪽 상단에 개가 있는 경우, 이 두 뷰는 동일한 객체를 포함하고 있으므로 유사한 글로벌 표현을 가져야 합니다. 글로벌 뷰를 대조하여 학습된 표현은 범주와 관련된 많은 정보를 인코딩할 수 있으며, ImageNet 선형 평가의 성능을 크게 향상시켜 지도 분류의 정확도에 접근합니다.
그러나 global representations 사전 학습과 객체 탐지와 같은 region-level 다운스트림 작업 간에는 차이가 있습니다. image-level 분류와는 달리, 이는 글로벌 공간 불변 특징으로 전체 이미지의 범주를 예측합니다. 객체 탐지는 여러 지역의 범주와 regression targets를 지역 특징으로 예측하는 region-level 작업입니다. 서로 다른 위치의 지역 특징은 구별되어야 하며, 이는 이러한 지역의 예측 목표가 다르기 때문입니다. 예를 들어, 관심 영역(RoI)은 전경 또는 배경 범주에 할당됩니다. 또한, 다른 위치에서 객체를 겹치는 전경 RoI는 서로 다른 regression targets를 예측해야 합니다. 이러한 이유로, 특징 맵의 다른 위치에서의 특징은 로컬 특징 공간에서 멀리 떨어진 지점으로 매핑되어야 합니다 . 따라서 글로벌 평균 풀링 후 단일 특징만 최적화하는 이전 방법은 구별되는 로컬 표현을 학습하지 않기 때문에 객체 탐지에는 문제가 됩니다. 따라서 ImageNet 분류에서 높은 성능을 보이는 이전 방법이 항상 객체 탐지에서 더 나은 전이 성능을 제공하지는 않습니다. 또한, 이전 작업들은 최종 층(예: 32× 특징 맵)에서 구별되는 특징을 학습하는 데 초점을 맞췄습니다. 그러나 대부분의 딥러닝 기반 객체 탐지기는 multi level 표현에서 특징을 추출해야 합니다 (예: FPN 및 PANet). 따라서, 객체 탐지는 최종 층의 특징만이 아닌 다양한 특징 층에서 구별되는 특징을 요구합니다
위의 문제를 해결하기 위해, 저자는 Deeply Unsupervised Patch Re-ID (DUPR)를 통해 객체 탐지를 위한 multi level 특징 맵에서 region-level 구별되는 표현을 사전 학습하는 것을 제안합니다. 패치 Re-ID의 과제는 두 뷰의 해당 패치 ID를 일치시키는 것입니다. 패치 Re-ID로 사전 학습을 하면, 로컬 특징 공간에서 일치하는 패치의 특징이 일치하지 않는 패치보다 더 유사해야 하므로, 특징 맵의 다른 위치에서의 지역 표현이 구별되어 객체 탐지와 같은 region-level 작업에 유익합니다. 또한, 저자는 multi level 표현을 학습하기 위해 깊이 비지도 학습 전략을 제안합니다. 구체적으로, 다양한 중간 층에서 특징을 추출하여 image level 및 patch level 대조 손실을 구성합니다. 저자의 contributions은 다음과 같이 요약될 수 있습니다.
- 패치 Re-ID라는 자가 지도 사전 학습 과제를 제안하며, 이는 두 뷰 간 동일한 패치 ID를 일치시켜 region-level 구별되는 특징 맵을 학습하며, 이는 객체 탐지에 맞춤화되었습니다.
- 사전 학습 모델의 객체 탐지로의 전이 가능성을 향상시키기 위해 multi level 특징 맵에서 특징을 추출하는 비지도 학습 전략을 제시합니다.
- DUPR 사전 학습은 파인 튜닝을 위한 초기화로 사용될 때 다른 비지도 및 지도 사전 학습 대비 더 나은 성과를 보입니다. 예를 들어, MS COCO에서 Mask R-CNN R-50-FPN을 파인 튜닝할 때, DUPR은 MoCo v2 및 지도 사전 학습을 모든 다른 반복에서 능가합니다.
2. Method
2.1 Preliminary: Contrastive Learning
대조적 학습의 주요 아이디어는 positive views을 모으는 동시에 negative views을 밀어내는 것입니다. MoCo를 예로 들면, I가 원본 이미지이고, I1과 I2는 서로 다른 augmentation으로 동일한 이미지의 두 가지 view로 간주될 수 있습니다. v1과 v2,+를 I1과 I2의 정규화된 임베딩이라고 하면 대조적 학습의 목표는 positive 쌍(v1, v2,+)을 함께 모으는 동시에 negative 쌍(v1, v2,j)을 밀어내는 것입니다. 기본적인 learning objective는 InfoNCE Loss입니다:
(1) 여기서 τ는 temperature hyper-parameter입니다. v1·v2,j는 두 이미지 특징 사이의 거리를 측정하는 cosine similarity입니다. positive 쌍을 선택하는 것은 대조적 학습에서 중요합니다. 어떤 transformation에 대해 representation이 불변해야 하는지는 downstream task에 따라 결정되며 다양한 downstream task에 따라 달라집니다. 예를 들어, 다운스트림 작업이 classification라고 가정해보면 이 경우, representation은 이미지 내에서 객체의 위치에 불변해야 합니다. 왜냐하면 위치가 변하더라도 semantic category는 변하지 않기 때문입니다. 반면에, 다운스트림 작업이 객체의 위치를 예측하는 것이라고 가정해 봅시다. 이 경우, representation은 위치에 대해 불변하지 않아야 합니다. 그러나 category과 같은 다른 요인들은 관련 없는 정보이므로, 이러한 요인들에 대해서는 표현이 불변해야 합니다. 이전 연구들에서는 v1과 v2,+가 global- local features 쌍이거나, 공간적으로 불일치한 global-global features 쌍이었습니다. 이전 방법들과는 달리, 저자의 방법은 spatially aligned한 local-local views selection으로 볼 수 있으며, 여기서 representation은 개체의 위치에 민감하면서 다른 요인에 대해서는 불변합니다
2.2 Deeply Unsupervised Patch Re-ID
DUPR의 파이프라인은 Fig. 3에 나와 있으며, multi-feature levels에서 patch-level 및 image-level의 대조적 학습으로 구성됩니다. patch-level의 대조적 학습은 averaged pooling 전에 전체 피쳐 맵을 직접 최적화하고 일치하는 패치 간의 유사성을 극대화하여 위치 정보를 강화합니다. object detection는 localization과 분류의 결합이므로, 분류를 위해 의미 정보를 강화하기 위해 image-level의 대조적 학습을 포함합니다. 대조적 학습 프레임워크에 대해서는 MoCo v2를 baseline으로 선택합니다. 마지막으로, 대부분의 object detectors가 FPN 및 PANet과 같은 멀티-레벨 표현을 필요로 하기 때문에 패치 level 및 image-level의 대조적 손실을 멀티-피쳐 level에 추가합니다.
전체 손실은 다음과 같이 정의됩니다:
(2) 여기서 M은 피쳐 맵의 수입니다. L(m) image 및 L(m) patch는 m번째 레벨의 이미지 및 패치 대조 손실입니다. αm 및 βm은 다른 레벨의 중요도를 조절하는 가중치입니다.
2.2.1 Patch-Level Contrastive Loss
이전 방법들은 global representations을 최적화하고 구별력 있는 local representations을 학습하지 않습니다. 그러나 위치에 민감한 작업의 경우 피쳐 맵에 있는 다른 패치의 features은 달라야합니다. 예를 들어 아래의 Fig 5에 나와있듯이 다른 영역은 서로 다른 객체 범주나 배경을 나타낼 수 있습니다. 다른 영역의 regression targets도 다릅니다.
따라서 일치하는 패치의 로컬 피처은 로컬 피처 공간에서 인접한 지점으로 매핑되어야 하고, 다른 패치의 로컬 피처은 로컬 피처 공간에서 멀리 떨어진 지점으로 매핑되어야 합니다. 패치 level의 구별력 있는 representations을 학습하기 위해 저자는 동일한 패치 식별을 위한 패치 Re-ID pretext task을 디자인합니다.
저자는 입력 이미지 I에 augmentations을 적용하여 두 가지 view를 얻습니다. I1 = t(I) 및 I2 = t′(I). 원본 이미지 I의 I1 및 I2은 다음과 같이 표시합니다
(3) 여기서 (tlx, tly )는 왼쪽 상단 꼭지점을 나타내고 (brx, bry )는 오른쪽 하단 꼭지점을 나타냅니다. 그런 다음 R1과 R2의 intersection(교차 영역) B = (tl(B)x , tl(B)y , br(B)x , br(B)y )를 다음과 같이 계산할 수 있습니다:
I1 및 I2의 좌표에서 intersection B는 B1 = T1(B) 및 B2 = T2(B)에서 얻을 수 있습니다. T1 및 T2는 각각 I에서 I1 및 I2로의 좌표 변환입니다. 저자는 공간 정보를 잃어버린 전역 평균 피처을 사용하는 대신, B1 및 B2를 두 가지 뷰로 나누어 S × S 패치로 나누고 해당 패치 피처 간의 유사성을 극대화합니다. m번째 피쳐 맵의 상세한 구현에 대해서는 RoI Align을 적용하여 지역 피처를 추출한 다음 1 × 1 컨볼루션에 의해 구현된 픽셀별 MLP 레이어를 통해 구현합니다.
여기서 g(m) 1 및 g(m) 2는 MLP 레이어 및 모멘텀 MLP 레이어이며, r(m) 1 및 r(m) 2는 fregion features of a fixed shape(C, S × S)입니다. 그런 다음 r(m) 1,p 및 r(m) 2,p는 정규화된 피처 벡터의 positive 쌍이며, 여기서 p ∈ [0, S × S)는 교차 영역의 위치를 나타냅니다.
저자의 패치 Re-ID pretext task은 InfoNCE 손실와 MoCo v2를 사용합니다. 저자는 m번째 피쳐 맵에 대한 패치 level 대조 손실을 다음과 같이 구성합니다
여기서 {r(m) t }t=1,…K는 메모리 뱅크에서 가져온 다른 이미지의 패치 features입니다. m은 피쳐 맵의 인덱스를 나타냅니다. 패치 level 대조 손실을 최소화함으로써 저자의 인코더는 두 가지 view 간의 패치별 identity를 학습할 수 있습니다. 이러한 matching 능력은 위치에 민감한 피쳐 맵을 만들며 object detection을 용이하게 합니다.
2.2.2 Image-Level Contrastive Loss
분류 능력을 향상시키기 위해 image-level의 대조 손실도 최적화합니다. 이때 v(m) 1 = h1(GAP (f (m) 1 (I1))) 및 v(m) 2,+ = h2(GAP (f (m) 2 (I2)))를 positive 쌍의 정규화된 이미지 특징으로 표시합니다. 간단함을 위해 정규화 표기를 무시합니다. 따라서 m번째 피쳐 맵의 image-level 대조 손실은 다음과 같이 작성될 수 있습니다
2.2.3 Implementation Details
저자는 실험을 위해 unlabelled ImageNet을 사전 훈련 데이터로 사용합니다. 저자는 ResNet 50을 백본으로 선택하고 conv2 x, conv3 x, conv4 x 및 conv5 x에서 멀티 레벨 피쳐를 추출합니다. 각 피쳐 맵의 스트라이드는 각각 {4×, 8×, 16×, 32×}입니다. 기본적으로 Eq. (2)에 대해 α0:3 = (0.1, 0.4, 0.7, 1.0) 및 β0:3 = (0, 0, 1, 1)을 설정합니다. conv5 x 및 conv4 x의 패치 피쳐의 RoI 크기 S는 각각 14 및 7입니다. τ는 ablation 실험의 경우 0.2이고 주요 실험의 경우 0.15입니다. 특별히 지정하지 않은 경우, 256 배치 크기로 200 epoch 동안 훈련합니다. cosine decay schedule과 함께 lr은 0.06입니다.
Eq. (2)의 각 image-level 과 patch-level의 대조 손실에 대해 각각의 메모리 뱅크를 유지하는데 L(m)-patch의 경우 메모리 뱅크는 다른 이미지의 m번째 피쳐 맵의 패치 피처를 저장합니다. L(m)-image의 경우 메모리 뱅크는 다른 이미지의 m번째 피쳐 맵의 이미지 피처을 저장합니다. 각 메모리 뱅크에 65536개의 키를 저장합니다. 패치 피처의 경우, 단일 이미지에서 단일 레벨의 S ×S 피쳐가 있으며, 여기서 S = 7은 conv5 x에서이고, S = 14는 conv4 x에서입니다. 256개의 이미지로 구성된 배치에서 단일 이미지의 대부분의 패치 피처가 유사하기 때문에, 패치 피처의 배치를 인큐 및 디큐할 때 32개의 패치 피처을 샘플링합니다.
3. EXPERIMENTAL ANALYSIS
3.1 Pascal VOC Object Detection
저자는 PASCAL VOC 데이터셋으로 실험을 진행할때 Faster R-CNN을 R-50-C4 백본으로 설정하여 Pascal VOC trainval07+12에서 파인 튜닝하고 test2007에서 결과를 평가합니다. 모든 설정은 MoCo와 동일하며 이 detector에서 RPN은 conv 4x 특징 맵에, R-CNN은 conv 5x 특징 맵에서 만들어집니다. 네트워크의 모든 매개변수는 엔드 투 엔드로 파인 튜닝됩니다. 파인 튜닝은 총 24k iterations으로 이루어집니다
3.1.1 Results Comparisons
표 1의 결과는 DUPR이 다른 비지도 학습 방법과 지도 학습 방식들을 능가함을 보여줍니다. 대부분의 비지도 학습 방법은 AP75에서 지도 학습 방식을 능가하는데, 이는 지도 classification으로 학습된 표현이 분류와는 관련이 없지만 위치 지정에는 유용한 많은 정보를 잃을 수 있음을 나타냅니다. 그러나 이전의 비지도 사전 학습 방법은 여전히 분류를 위해 설계되었습니다.
반면에, 저자의 DUPR은 spatial information을 인코딩하도록 설계되었기에 DUPR 사전 학습은 MoCo v2 베이스라인보다 AP75에서 2.4점, AP50에서 0.8점 더 우수하며, 위치 정밀도를 크게 향상시킵니다. DUPR은 또한 AP와 AP50에서 최고의 성능을 얻습니다. 지도 분류로 사전 학습한 것과 비교할 때, DUPR은 AP75에서 7.3점을 크게 향상시킵니다. 이는 DUPR이 MoCo v2와 ImageNet 지도 사전 학습보다 더 많은 공간 정보를 포함하고 있음을 검증합니다.
3.2 COCO Object Detection and Segmentation
3.2.1 Experimental Setup
저자는 Mask R-CNN R-50-FPN, Mask R-CNN R-50-C4 및 RetinaNet R-50-FPN의 파인 튜닝 결과를 다른 비지도 학습 및 ImageNet 지도 학습 방식과 비교합니다. COCO train2017에서 118k 이미지를 사용하여 detector들을 파인 튜닝하고 COCO val2017에서 테스트합니다. 모든 detector에 대해 학습 중 입력 이미지는 [640, 800] 범위 내에서 무작위로 크기 조정되며, inference 시에는 800으로 고정됩니다. 모든 layers는 엔드 투 엔드로 학습됩니다. Mask R-CNN R-50-FPN 및 Mask R-CNN R-50-C4의 경우 MoCo의 설정을 따릅니다. Mask R-CNN R-50-FPN의 경우, 12k, 18k, 36k iterations에서 베이스라인 MoCo v2와의 파인 튜닝 결과를 비교하여 수렴 속도를 비교합니다.
3.2.2 Mask R-CNN R-50-FPN
Mask R-CNN, R-50-FPN, 1× 스케줄의 결과는 표 2 (a)에 나와 있습니다. DUPR은 다른 비지도 학습 방법과 지도 학습 방식을 능가합니다. 2× schedule에서는 DUPR이 MoCo v2를 mAP에서 0.7점, 지도 학습 방식을 1.0점 초과합니다 (표 2 (c)).
3.2.3 Mask R-CNN R-50-C4
표 2 (b)에 나와 있듯이, 1× schedule에서는 DUPR이 다른 모든 비지도 학습 및 지도 학습 방식을 능가합니다. 2× 스케줄에서는 여전히 MoCo v2를 mAP에서 0.5점, ImageNet 지도 사전 학습을 mAP에서 1.5점 높은 모습을 보입니다.
3.2.4 RetinaNet R-50-FPN
저자는 RetinaNet을 R-50-FPN으로 설정하여 COCO에서 1× 및 2× 스케줄로 파인 튜닝합니다. 표 3에 나와 있듯이, 1× 스케줄에서는 MoCo v2가 지도 학습 방식과 동일한 AP를 가집니다. 저자의 방법은 MoCo v2 사전 학습과 지도 학습 방식을 AP에서 0.7점 높은 모습을 보이고 단일 단계 객체 탐지기에서 잘 일반화된다고 합니다.
3.2.5 Fine-tune with Fewer Iterations
사전 학습은 객체 탐지기의 수렴 속도를 높일 수 있습니다. 따라서 저자는 Mask R-CNN R-50-FPN을 12k, 18k, 36k, 90k, 180k iterations에서 파인 튜닝할 때 초기화로 사용하는 경우, 서로 다른 비지도 사전 학습 모델의 성능을 비교합니다. DUPR은 모든 iterations에서 MoCo v2 및 ImageNet 지도 사전 학습을 능가합니다. 12k iterations으로만 파인 튜닝할 때, DUPR은 mAP에서 MoCo v2를 2.9점 초과합니다. 이는 DUPR이 다른 방법보다 더 나은 초기화와 더 빠른 수렴 속도를 제공함을 나타냅니다. 90k iterations으로 파인 튜닝할 때도 DUPR은 여전히 지도 학습 방식을 mAP에서 1.1점 초과합니다.
3.3 Object Detection v.s. Classification
객체 탐지에는 classification 과 localization이 모두 포함됩니다. DUPR이 객체 탐지를 개선하는 이유를 더 잘 이해하기 위해 ImageNet에 대한 linear evaluation 결과도 리포팅합니다.
이러한 설정 하에서, 비교된 모델들과 함께 ImageNet 분류와 객체 탐지 성능 사이에 거의 상관관계가 없음을 알 수 있습니다. 예를 들어, MoCo v2는 ImageNet 정확도에서 BYOL보다 3.1점 낮지만 VOC AP에서 BYOL보다 1.7점 높습니다. DUPR과 DenseCL는 MoCo v2 베이스라인에 비해 ImageNet linear evaluation에서 3.7점 감소합니다. 이러한 감소는 패치 level 및 이미지 level 대조 손실의 공동 최적화가 더 어려워 이미지 level 대조 손실의 최적화에 영향을 미치기 때문일 수 있다고 말하고 있습니다. 분류를 위한 global representations과 위치 지정을 위한 local representation 사이의 더 나은 균형이 가능하지만, 이는 이 논문의 초점이 아니라고 합니다. 저자는 DUPR의 객체 탐지 향상이 더 나은 classification 능력에서 비롯된 것이 아니라 더 나은 localization 능력에서 비롯된 것임을 결론지을 수 있습니다.
3.4 Ablation Experiment
3.4.1 Influence of α0:3 for Image Contrastive Loss
이 실험에서는 β(0:3)을 (0, 0, 0, 0)으로 설정합니다. 표 6 (a)의 결과를 통해 알 수 있는 점은 다음과 같습니다. (1) 모든 αm 구성은 VOC 탐지의 AP를 개선할 수 있으며, 특히 높은 IoU 메트릭 AP75에서 중간 level의 대조 손실이 위치 지정 능력을 개선할 수 있음을 시사합니다; (2) (0.1, 0.4, 0.7, 1.0)의 구성만이 VOC 및 COCO 탐지 모두에서 개선을 보여줍니다. shallow layers에 큰 가중치를 두는 구성(즉, (1, 1, 1, 1))이 COCO 탐지 성능을 저하시키는 이유는 두 가지 측면이 있습니다: (1) shallow layer에 큰 가중치를 두면 분류에 더 중요한 깊은 계층의 최적화에 영향을 미칩니다; (2) COCO는 VOC보다 더 많은 클래스를 포함하고 COCO의 성능은 분류 능력에 더 의존합니다. 표 6 (b)에서 알 수 있듯이, α0:3의 세 가지 구성 모두 shallow layer의 분류 성능을 크게 향상시킵니다.
3.4.2 Influence of RoI Size
이 실험에서는 α0:3 = (0.1, 0.4, 0.7, 1.0) 및 β0:3 = (0, 0, 0, 1)로 설정합니다. 결과는 표 7 (a)에 제시되어 있습니다. β0:3 = (0, 0, 0, 1)의 RoI 크기를 1로 설정한 경우, RoI 크기를 0으로 설정한 경우와 비교하여 객체 탐지에서 큰 차이가 없음을 알 수 있습니다. 큰 RoI 크기는 성능을 향상시키며, 이는 큰 RoI 크기가 객체 탐지를 위한 더 많은 discriminative region-level 표현을 얻을 수 있음을 나타냅니다. 하지만 항상 더 큰 것이 더 나은 것은 아닙니다: RoI 크기가 특징 맵의 크기보다 크다면 더 유용한 정보를 얻지 못합니다. 예를 들어, RoI 크기가 7보다 클 때 성능 개선이 안되는 모습을 보입니다.
3.4.3 Influence of β(0:3) for Patch Contrastive Loss
이 실험에서는 α0:3 = (0.1, 0.4, 0.7, 1.0)으로 설정하고 단순히 conv5 x에 패치 손실을 추가하면 VOC에서 AP가 0.7점, COCO에서 0.3점 향상됩니다. conv4 x와 conv5 x (β0:3 = (0, 0, 1, 1)으로 설정하여) 특징 맵 모두에 패치 손실을 추가하면 COCO에서 AP가 0.5점, VOC에서 0.2점 추가로 향상됩니다 (표 7 (b) 참조). 이는 Intermediate supervision 과 patch contrastive loss이 상호 보완적임을 나타냅니다.
3.4.4 Image-level v.s. Patch-level Contrastive Loss
저자는 conv5 x에서 단일 이미지의 image-level 과 patch-level대조 손실을 비교합니다 (표 7 (c) 참조). patch-level 대조 손실은 classification 능력을 약간 감소시키지만 localization 능력을 향상시킵니다. 예를 들어, VOC 탐지에서 patch-level 대조 손실은 AP75를 1.0점 크게 향상시키지만 AP50을 0.2점 약간 감소시킵니다. 또한 COCO AP를 0.1점 약간 감소시키는데, 이는 COCO가 VOC보다 분류 능력에 더 중요하기 때문입니다 (COCO는 80개의 카테고리를 가지고 있는 반면 VOC는 20개의 카테고리를 가지고 있기에). 표 7 (b)의 하단 줄에서 보여주는 것처럼 image-level 과 patch-level 대조 손실을 결합하여 classification 과 localization 능력을 균형 있게 맞추었을 때 최고의 성능을 달성했습니다
안녕하세요 의철님. 리뷰 잘 읽었습니다.
본 논문의 핵심인 Patch Re-ID에 대해 궁금한 점으로, 두 View를 만드는 Augmentation 간에는 특정 영역이 겹치게끔하는 제약이 존재하는가? -> 그렇다면 모델 입장에선 Trivial solution일 것 같아서입니다. 그리고 두 View가 실제 이미지가 아닌 Augmentation을 통해 만들어지는 이미지는 실제 View의 차이가 아닌데, 이전 태스크들에 비해 Region 영역에 집중할 뿐 Global 영역에 대해선 오히려 안좋을 수도 있지 않나?싶어서 질문드립니다.
그래도 Object detection에 실제로 도움될 SSL은ㅁ 뭘까 궁금했었는데, 이 논문이 그나마 저의 궁금증을 조금 덜었네요. 리뷰 잘 읽었습니다.
안녕하세요 상인님 좋은 질문 감사합니다.
먼저 원본 이미지에서 Augmentation된 두 이미지 간에 중첩되는 영역이 없을 경우 patch-level contras- tive loss는 무시했다고 합니다. 논문에서 언급되기로 이러한 케이스는 1472 positive pairs 중에서 51개 밖에 안되기에 확률적으로는 낮고 결과에 큰 영향을 미치지는 않는다고 합니다.
그리고 두 번째 질문은 downstream task의 차이로 설명드릴 수 있을 것 같습니다. 먼저 classification task를 위한 representation을 학습한다고 할 때 이미지에서 객체의 위치에 관계없이 Global한 피처를 뽑아 낼 수 있어야합니다. 하지만 object detection task를 위해서는 Global한 피처뿐만 아니라 region-level의 피처도 사용을 해야합니다. 따라서 두 가지를 모두 고려해야하기에 Global 영역에 대해서는 특화되어 있지 않더라도 object detection task를 위해서는 좋은 학습 방법이지 않나 싶습니다.
또한 SwAV모델이나 BYOL모델이 classification 성능이 MoCo 보다는 높았지만 detection 성능에서는 않좋았던 것처럼 Global 피처를 잘 뽑았다 하더라도 이것이 detection의 성능 향상으로 꼭 이어지는 것은 아니라고 생각됩니다.
감사합니다.