[CVPR 2020]Self-Supervised Learning of Pretext-Invariant Representations

안녕하세요 정의철 연구원입니다. 이번에 제가 소개할 논문은 ‘Self-Supervised Learning of Pretext-Invariant Representations’이란 논문입니다. 그럼 바로 리뷰 시작하겠습니다.

1. Introduction

현대 이미지 인식 시스템은 대규모 이미지 컬렉션과 해당 semantic annotations으로 이미지 표현을 학습합니다. 이러한 annotations은 클래스 레이블, 해시태그, bounding boxes 등의 형태로 제공될 수 있습니다. 자가 지도 학습은 미리 정의된 의미론적 주석에 의존하지 않고 픽셀 자체에서 이미지 표현을 학습하여 이러한 제한을 해결하려고 합니다. 종종, 이는 Fig 1에 나와있는 것처럼 입력 이미지에 변환을 적용하고 변환된 이미지에서 변환의 속성을 예측하도록 학습자를 요구하는 사전 작업을 통해 이루어집니다. 사용된 이미지 변환의 예로는 회전, 아핀 변환, jigsaw transformations 등이 있습니다. 사전학습은 이미지 변환의 속성을 예측하는 것을 포함하기 때문에, 이는 변환에 따라 표현이 변동하는 것을 유도합니다. 이러한 변동성은 3D 대응 관계 예측과 같은 작업에는 유익할 수 있지만, 대부분의 semantic recognition tasks에는 바람직하지 않습니다. 표현이 변환에 불변해야 이미지 인식에 유용하기 때문입니다. 이러한 관찰에 동기를 얻어 저자는 변동적이기보다 불변 표현을 학습하는 방법을 제안합니다. 이미지 변환의 속성을 예측하는 대신, Pretext-Invariant Representation Learning (PIRL)은 동일 이미지의 변환된 버전의 표현과 다른 이미지의 표현을 유사하게 만들도록 구성합니다. 저자는 Jigsaw 사전학습을 PIRL에 적용하여 결과적으로 불변 표현(invariant representations)이 다양한 비전 작업에서 변동적 표현보다 더 잘 수행함을 발견했습니다. PIRL은 ImageNet 데이터로부터의 자가 지도 학습에서 모든 이전 연구를 크게 능가합니다. 또한, PIRL은 객체 탐지를 위한 이미지 표현 학습에서 지도 학습 사전 훈련도 능가합니다

2. Related Work

특징에서 불변성을 모델링하는 것은 수십 년간 컴퓨터 비전 분야에서 연구되어 온 개념이며, SIFT , HOG와 같은 수작업으로 설계된 특징 및 ConVNet에서 학습된 표현에서 중요한 역할을 합니다. 실제로 유용한 표현은 픽셀의 변환, 크기 변화, 색상, 조명 등 ‘잡음’ 요인에 대해 불변하도록 설계되며, 예를 들어 훈련 중 데이터 증강을 사용합니다. 저자의 연구에서는 자가 지도 ‘전이 학습 과제’에 대한 불변성을 활용하고자 합니다. 저자는 해당 이미지에 조건화된 레이블 분포를 고려하지 않고 특징 표현을 학습합니다. 이전 연구에서는 sparse coding, adversarial training, autoencoders, probabilistic versions thereof 을 사용하여 중간 표현에서 이미지를 재구성하는 것을 연구했습니다. 저자의 연구는 이미지 기반 전이 학습 과제에 중점을 둡니다. 이전 전이 학습 과제는 image colorization, orientation prediction, affine transform prediction , predicting contextual image patches , reordering image patches , counting visual primitives 또는 이들의 조합이 포함됩니다. 이러한 전이 학습 과제는 일반적으로 이미지 변환의 일부 low-level 속성을 예측하도록 하여 최종 표현이 이미지 변환에 따라 변하게 만듭니다. 이에 반해, 저자의 연구는 이미지 변환에 불변한 이미지 표현을 학습합니다. PIRL은 대조 학습, 클러스터링, maximizing mutual information를 통해 불변 이미지 표현을 학습하는 접근법과 관련이 있습니다. PIRL은 데이터 증강에 따라 불변한 표현을 학습하는 방법과 가장 유사합니다. PIRL은 데이터 증강과 전이 학습 이미지 변환 모두에 불변한 표현을 학습합니다. 저자의 연구와 유사하게, 최근의 방법들도 불변성 또는 전이 학습 과제의 분리를 중심으로 한 표현 학습에 중점을 둡니다. PIRL은 전이 학습 과제를 대조 학습과 결합하는 새로운 방법을 제공하며, 데이터 증강의 범위를 이전 전이 학습 과제까지 확장한 것으로 볼 수 있습니다. 마지막으로, PIRL은 예측 학습에서 대조 손실을 사용하는 접근법과도 관련이 있습니다. 이러한 이전 접근법들은 예를 들어 비디오의 미래 프레임을 예측하거나 여러 뷰를 기반으로 작업합니다. 이러한 접근 방식과 달리 PIRL은 누락된 데이터를 예측하는 대신 불변성을 학습합니다.

3. PIRL: Pretext-Invariant Representation Learning

저자의 연구는 자가 지도 학습을 위한 전이 학습 과제에 중점을 두고 있으며, 여기서 알려진 이미지 변환이 입력 이미지에 적용됩니다. 예를 들어, Jigsaw task는 이미지를 9개의 패치로 나누고 패치를 무작위로 배열하여 이미지를 변형합니다. 이전 연구에서는 변형된 입력 이미지에서 배열을 예측하는 방식으로 Jigsaw task를 전이 학습 과제로 사용했습니다. 이는 학습자가 변형에 대해 공변하는 표현을 구성하도록 요구합니다. 최근 연구된 다른 여러 전이 학습 과제들도 마찬가지입니다. 이 연구에서는 이미지 패치 변형에 대해 이미지 표현이 불변하도록 유도하는 방식으로 기존의 Jigsaw task 전이 학습 과제를 채택했습니다. 이 논문에서는 퍼즐 전이 학습 과제에 중점을 두지만, 저자의 접근법은 이미지 변환을 포함하는 모든 전이 학습 과제에 적용할 수 있습니다.

3.1 Overview of the Approach

이미지 데이터셋 D = {I_1, …, I_{|D|}\}와 I(n) ∈ R (H×W ×3), 이미지 변환 집합 T가 주어졌다고 가정합니다. T는 이미지 패치의 재배열, 이미지 회전 등의 변환을 포함할 수 있습니다. 저자는 이미지 변환 t ∈ T에 대해 불변한 이미지 표현 v_I = φθ(I)를 구성하는 컨볼루션 네트워크 φθ (·)를 훈련하고자 합니다. 저자는 ’empirical risk minimization’ 접근법을 채택하여 네트워크 매개변수 θ를 학습합니다.

여기서 p(T)는 T의 변환 분포를 나타내며, I^t는 변환 t가 적용된 이미지 I를 나타냅니다. 함수 L(·, ·)는 두 이미지 표현 간의 유사성을 측정하는 손실 함수입니다. 이 손실을 최소화하면 네트워크 φθ (·)가 이미지 I와 그 변형된 버전 I^t에 대해 동일한 표현을 생성하도록 유도하여, 표현을 변환 t에 대해 불변하게 만듭니다. 저자는 이미지 변환 t 에 대해 공변하는 이미지 표현 v_I = φθ(I)를 학습하는 손실과 저자의 손실 함수를 대조합니다:

여기서 z는 변환 t의 일부 속성을 측정하는 함수입니다. 이러한 손실은 네트워크 φθ (·)가 변환 t에 대한 정보를 포함하는 이미지 표현을 학습하도록 유도하여, 의미적으로 관련 없는 정보를 유지하도록 합니다.

손실 함수

저자는 대조 손실 함수 L(·, ·)를 사용하여 ℓinv (·)를 구현합니다. 구체적으로, 저자는 두 이미지 표현의 유사성을 측정하는 매칭 점수 s(·, ·)를 정의하고, 이를 노이즈 대조 추정기(noise contrastive estimator)에 사용합니다. 노이즈 대조 추정기(NCE)에서는 각 “긍정적” 샘플 (I, I^t)에 대해 N개의 “부정적” 샘플이 있습니다. 부정적 샘플은 다른 이미지 의 특징을 계산하여 얻습니다. 노이즈 대조 추정기는 (I, I^t)가 데이터 분포에서 발생한 이진 사건의 확률을 모델링합니다:

여기서 D_N ⊆ D는 데이터셋 D에서 무작위로 선택한 N개의 부정적 샘플 집합이며 s(·, ·)는 표현 간의 코사인 유사성입니다. 실제로는 점수 s(·, ·)를 계산하기 전에 특징에 다른 “헤드”를 적용합니다. 구체적으로, I의 특징(vI)에는 헤드 f(·)를 적용하고, 변환된 이미지 I^t의 특징(vIt)에는 헤드 g(·)를 적용합니다

NCE는 다음 손실을 최소화하는 것을 의미합니다:

이 손실은 이미지 I의 표현이 변형된 대응물 I^t의 표현과 유사하도록 유도하며, I^t의 표현이 다른 이미지 I’의 표현과 다르도록 유도합니다.

3.2. Using a Memory Bank of Negative Samples

이전 연구에 따르면 방정식의 NCE 손실에서 많은 수의 음성 샘플을 사용하는 것이 중요합니다. 미니 배치 SGD 옵티마이저에서는 배치 크기를 너무 크게 늘리지 않고 많은 수의 음성 샘플을 얻기 어렵습니다. 이 문제를 해결하기 위해 저자는 “캐시된” 특징의 메모리 뱅크를 사용합니다. 메모리 뱅크 M는 데이터셋 D의 각 이미지 I에 대한 특징 표현 m_I를 포함합니다. 이 표현 m_I는 이전 에포크에서 계산된 특징 표현 f(v_I)의 지수 이동 평균입니다. 이를 통해 훈련 배치 크기를 늘리지 않고도 음성 샘플 f(v’_I)을 방정식 4에서 메모리 뱅크 표현 m_I’으로 대체할 수 있습니다. 메모리 뱅크에 저장된 표현은 모두 변환 t 없이 원본 이미지 I에서 계산되었습니다.

최종 손실 함수

방정식 4의 손실에는 변형되지 않은 이미지 I와 I’의 표현을 비교하지 않는다는 문제가 있습니다. 저자는 ℓinv (·)에서 두 NCE 손실 함수의 convex combination을 사용하여 이 문제를 해결합니다:

여기서 첫 번째 항은 방정식 4의 손실을 단순히 메모리 표현 m_I와 m_I’를 각각 f(v_I)와 f(v’_I) 대신 사용하는 것입니다.

두 번째 항은 두 가지를 수행합니다: (1) 표현 f(v_I)가 메모리 표현 m_I와 유사하도록 유도하여 매개변수 업데이트를 완화하고; (2) 표현 f(v_I)와 f(v’_I)가 서로 다르도록 유도합니다. 두 항 모두 방정식 4에서 f(v’_I) 대신 m_I’을 사용합니다.

3.3 Implementation Details

PIRL은 이미지 변환을 포함하는 모든 전이 학습 과제와 함께 사용할 수 있지만, 이 논문에서는 Jigsaw pretext task 에 중점을 둡니다. PIRL이 더 일반적으로 적용될 수 있음을 보여주기 위해, 저자는 Rotation pretext task 와 두 과제의 조합에서도 실험합니다.

4. Experiments

일반적인 자가 지도 학습 관행을 따라, PIRL의 성능을 전이 학습 실험에서 평가합니다. 다양한 데이터셋에서 객체 감지와 이미지 분류 작업에 중점을 두고 실험을 수행합니다. 저자의 실증적 평가에서는 두 가지 학습 설정을 다룹니다: (1) 자가 지도 학습을 사용하여 얻은 네트워크 “initialization”를 평가하기 위해 전이 학습 중에 컨볼루션 네트워크의 매개변수를 finetuned하는 학습 설정과 (2) 전이 학습 중에 네트워크의 매개변수를 고정하여 네트워크를 특징 추출기로 사용하는 학습 설정입니다.

Baselines

베이스라인은 Jigsaw ResNet-50 모델입니다. 또한 PIRL을 다양한 다른 자가 지도 학습 방법과 비교합니다. 중요한 비교 대상은 NPID입니다. NPID는 PIRL의 특수 사례로, 방정식 5에서 \lambda = 0로 설정하면 NPID의 손실 함수로 이어집니다. 저자는 더 많은 음성 샘플을 사용하고 더 많은 에포크 동안 훈련하여 NPID의 원래 구현을 개선할 수 있음을 발견했습니다. 저자는 저자의 개선된 NPID 버전을 NPID++라고 부릅니다. PIRL과 NPID++ 간의 비교는 방정식 5에서 \lambda > 0을 사용한 효과, 즉 PIRL이 달성하려는 pretext-invariance의 효과를 연구할 수 있게 합니다.

Pre-training data

이전 작업과의 비교를 용이하게 하기 위해, 저자는 레이블 없이 ImageNet의 1.28M 이미지(train split)를 사용하여 모델을 사전 훈련합니다.

Training details

저자 모델은 cosine learning rate decay을 사용한 미니 배치 SGD를 사용하여 훈련합니다. 초기 학습률은 1.2 \times 10^{-1}이고 최종 학습률은 1.2 \times 10^{-4}입니다. 모델은 800 에포크 동안 배치 크기 1,024 이미지와 방정식 3에서 N = 32,000 음성 샘플을 사용하여 훈련합니다.

4.1 Object Detection

이전 연구를 따라, Pascal VOC 데이터셋에서 VOC07+12 trainval split을 사용하여 객체 감지 실험을 수행합니다. 저자는 ResNet-50 (R-50) 백본을 가진 Detectron2에서 구현된 Faster R-CNN C4 객체 감지 모델을 사용합니다. PIRL을 사용하여 ResNet-50을 사전 훈련하여 감지 모델을 초기화한 후 VOC 훈련 데이터에 대해 fine tuning합니다. 저자는 APall, AP50, 및 AP75 측정 기준으로 객체 감지 성능을 평가합니다. 감지 실험의 결과는 아래 그림과 같습니다.

결과는 모든 세 가지 AP 측정 기준에서 모든 lternative self-supervised learnings을 능가합니다. Jigsaw pretext task를 사전 훈련하는 것과 비교할 때, PIRL은 AP가 5포인트 향상되었습니다. 이 결과는 이미지 표현을 공변이 아닌 불변으로 학습하는 것의 중요성을 강조합니다. PIRL은 또한 NPID++를 능가하여 전이 불변성을 학습하는 것의 이점을 입증합니다. 또한 결과를 통해 자가 지도 학습자가 객체 감지에 대해 지도된 사전 훈련을 능가할 수 있음을 발견합니다. PIRL은 동일한 백본 모델, 동일한 finetuned 에포크 수, 그리고 정확히 동일한 사전 훈련 데이터를(레이블 없이) 사용하여 이 결과를 달성합니다. 이는 훨씬 더 많은 큐레이션된 훈련 데이터를 사용하거나 훨씬 더 큰 백본 모델을 사용한 이전 자가 지도 접근법보다도 뛰어난 성능을 보이는 상당한 개선입니다. 부록 자료에서는 PIRL이 훨씬 작은 VOC07 trainval 세트에서 finetuned할 때도 지도 사전 훈련을 능가함을 보여줍니다. 이는 PIRL이 샘플 효율적인 지도 학습에 적합한 이미지 표현을 학습함을 시사합니다.

4.2. Image Classification with Linear Models

다음으로, fixed된 이미지 표현에서 선형 분류기를 훈련시켜 이미지 표현의 품질을 평가합니다. 결과는 다음과 같습니다.

ImageNet 결과: ImageNet 결과는 불변 특징 학습의 이점을 강조합니다. PIRL은 공변 대응 방식인 Jigsaw에 비해 인식 정확도가 15% 이상 향상됩니다. PIRL은 단일 ResNet-50 모델을 사용하는 모든 자가 지도 학습기 중에서 가장 높은 단일 크롭 top-1 정확도를 달성합니다. NPID++는 59%의 단일 크롭 top-1 정확도를 달성합니다. 이는 단일 ResNet-50을 사용하는 기존 작업과 비교했을 때 높은 수준입니다. 그러나 PIRL은 NPID++를 크게 능가합니다. 네트워크 크기가 커질수록 PIRL의 성능이 향상됩니다. 예를 들어, CMC라는 모델은 두 개의 ResNet-50 모델을 결합하고, 선형 분류기를 더 오래 훈련시켜 64.1%의 정확도를 얻습니다. 동일한 방법을 PIRL에 적용하면, 65.7%의 top-1 정확도를 얻습니다. 더 큰 모델과 비교하기 위해, ResNet-50의 채널 수를 두 배로 늘리는 실험도 수행했습니다(“PIRL-c2x” in Figure 2 ). PIRL-c2x는 67.4%의 top-1 정확도를 달성하여, 파라미터 수가 6배 많은 AMDIM의 정확도에 근접합니다. Figure 2의 결과는 PIRL이 모델 정확도와 크기의 균형 측면에서 모든 기존 자가 지도 학습기를 능가함을 보여줍니다.

4.3. Semi-Supervised Image Classification

기존 ImageNet에서의 실험 설정을 따라 Semi-Supervised Image Classification을 수행합니다. 구체적으로, ImageNet 훈련 데이터의 1% 및 10%를 무작위로 선택합니다(레이블 포함). 저자는 이 훈련 데이터 하위 집합에서 모델을 미세 조정합니다. Table 3에서 ImageNet 검증 세트에서의 top-5 정확도를 보여주고 있습니다. 결과는 PIRL이 학습한 이미지 표현의 품질을 강조합니다. 레이블이 있는 이미지 약 13,000장(1%)에서 모델을 미세 조정하면 top-5 정확도가 57%에 이릅니다. PIRL은 준지도 학습을 위해 특별히 설계된 S4L 및 VAT와 같은 방법보다 성능이 우수합니다. 앞서 언급한 결과와 일치하게, PIRL은 Jigsaw와 NPID++를 능가합니다.

4.4. Pre-Training on Uncurated Image Data

대부분의 표현 학습 방법은 사전 학습 중 사용되는 데이터 분포에 민감합니다. PIRL이 데이터 분포 변화에 얼마나 영향을 받는지 연구하기 위해, 레이블이 없는 YFCC 데이터셋에서 비정제 이미지를 사전 학습합니다. 선행 연구를 따라 YFCC의 1억 개 이미지 중 무작위로 100만 개 이미지를 선택(YFCC-1M)합니다. YFCC-1M에서 PIRL ResNet-50 네트워크를 사전 학습하며, ImageNet 사전 학습에 사용된 동일한 절차를 사용합니다. Section 4.2의 설정을 사용하여 평가하고, 고정된 이미지 표현에서 선형 분류기를 훈련합니다.

Table 4는 결과 분류기의 top-1 정확도를 보여줍니다. 이전 결과와 일치하게, PIRL은 다른 자가 지도 학습기를 능가합니다. 또한 PIRL은 동일한 분포에서 100배 더 많은 데이터로 학습된 Jigsaw 및 DeeperCluster 모델을 능가합니다. ImageNet에서의 사전 학습(Table 2)과 YFCC-1M에서의 사전 학습(Table 4)을 비교하면 혼합된 결과가 나타납니다. ImageNet 분류에서는 ImageNet에서의 사전 학습(레이블 없이)이 YFCC-1M에서의 사전 학습보다 훨씬 더 효과적입니다.

5. Analysis

PIRL의 속성을 더 잘 이해하기 위해 일련의 실험을 수행했습니다. 이 실험을 위해 더 많은 모델을 훈련해야 하므로, 이 섹션에서 연구한 모델들은 Section 4보다 적은 에포크(400)와 적은 네거티브(N = 4,096)로 훈련했습니다. 결과적으로 성능이 낮아졌습니다. 그 외에는 실험 설정이나 다른 하이퍼파라미터를 변경하지 않았습니다. 이 섹션에서는 Section 4.2의 평가 설정을 사용하여 고정된 이미지 표현에서 선형 분류기를 훈련하여 이미지 표현의 품질을 측정합니다.

5.1. Analyzing PIRL Representation

Does PIRL learn invariant representations?

PIRL은 이미지 변환  t 에 대해 불변인 표현을 배우도록 설계되었습니다. 저자는 학습된 표현이 실제로 원하는 불변성 속성을 가지고 있는지 분석했습니다. 구체적으로, 표현을 단위 벡터로 정규화하고, 이미지  v_I 의 (정규화된) 표현  f(v_I) 과 해당 이미지의 변형 버전  v_{It} 의 (정규화된) 표현  g(v_{It})  사이의  l2  거리를 계산했습니다. 모든 변환  t \in T  및 대규모 이미지 집합에 대해 이를 반복하고, 이러한 거리의 히스토그램을 Figure 4에 그렸습니다.

그림에서 PIRL은 이미지 표현과 해당 이미지의 변형 버전 표현이 일반적으로 유사함을 보여줍니다. 이는 PIRL이 변환에 대해 불변인 표현을 배운 것을 보여줍니다. 반면, Jigsaw 표현의 경우 평균과 분산이 크게 다르며, 이는 Jigsaw 표현이 적용된 이미지 변환과 공변성을 가진다는 것을 보여줍니다.

Which layer produces the best representations?

이전 실험들은 PIRL 표현을 res5 계층에서 추출하였고, Jigsaw 표현은 res4 계층에서 추출했습니다(Jigsaw에 더 잘 작동함). Figure 5에서는 합성곱 네트워크의 초기 계층에서부터 표현의 품질을 연구합니다.

그림은 Jigsaw 표현의 품질이 conv1에서 res4 계층으로 개선되지만, res5 계층에서 급격히 저하되는 것을 보여줍니다. 이는 네트워크의 마지막 계층인 res5 계층에서 res5 표현이 이미지 변환  t 과 공변하며 의미적 정보를 포함하지 않도록 조정된다는 것입니다. 반면, PIRL 표현은 이미지 변환에 불변적이어서 의미적 정보 모델링에 집중할 수 있습니다. 결과적으로, 최상의 이미지 표현은 PIRL로 훈련된 네트워크의 res5 계층에서 추출됩니다.

5.2.Analyzing the PIRL Loss Function

What is the effect of λ in the PIRL loss function?

식 (5)의 PIRL 손실 함수에는 두 개의 NCE 손실 사이의 교환 비율을 조절하는 하이퍼파라미터 λ가 포함되어 있습니다. 이전 실험들은 모두 λ = 0.5로 수행되었습니다. NPID(++)은 손실에서 사전 텍스트 불변성 항을 제거한 λ = 0의 특별한 경우입니다. λ = 1에서 네트워크는 훈련 시 미변환 이미지를 비교하지 않고, 메모리 뱅크 m_I의 업데이트가 억제되지 않습니다. 저자는 λ가 PIRL 표현의 품질에 미치는 영향을 연구했습니다. Figure 6에서 이미지넷 표현을 고정된 선형 분류기의 top-1 정확도로 측정하여 PIRL의 성능이 λ = 0.5로 설정할 때 최고의 성능을 보입니다.

Effect of the number of image transforms

PIRL과 Jigsaw 모두 이미지 패치의 순열 수를 변화시켜 작업의 복잡성을 변화시킬 수 있습니다. Jigsaw에 대한 이전 연구는 가능한 패치 순열 수를 증가시키면 성능이 개선된다고 합니다. 그러나 출력 계층의 학습 가능한 매개변수 수가 패치 순열 수와 선형적으로 증가하기 때문에, 최대 |T| 값은 제한됩니다. PIRL에는 이러한 문제가 없습니다. 왜냐하면 PIRL은 패치 순열을 출력하지 않기 때문에 모델 매개변수 수가 고정되어 있기 때문입니다. 따라서 PIRL은 훈련 중에 9! ≈ 3.6 × 10^5 개의 순열을 모두 사용할 수 있습니다. T에 포함된 패치 순열 수의 함수로 PIRL과 Jigsaw의 품질을 연구했습니다. 결과는 Figure 7에 제시되었고, PIRL이 모든 T의 기수에 대해 Jigsaw를 능가함을 보여줍니다.

Effect of the number of negative samples

저자는 사전 학습에 사용된 N의 수에 따른 학습된 이미지 표현의 품질에 대한 영향을 연구했습니다. Figure 8에서 PIRL에 의해 생성된 고정된 표현에 대한 ImageNet 선형 분류기의 정확도를 N의 값의 함수로 측정했습니다. 결과는 N의 증가가 PIRL에 의해 구성된 이미지 표현의 품질에 긍정적인 영향을 미친다는 것을 시사합니다.

5.3. Generalizing PIRL to Other Pretext Tasks

이 논문에서는 Jigsaw의 맥락에서 PIRL을 연구했지만, PIRL은 T에 포함된 어떤 이미지 변환도 사용할 수 있습니다. 저자는 Rotation pretask을 사용하여 PIRL의 성능을 평가하는 실험을 수행했습니다. T에는 이미지 회전 (0◦, 90◦, 180◦, 270◦)이 포함되도록 정의하고, 선형 모델의 이미지 분류 정확도를 통해 표현 품질을 측정했습니다. 이 실험의 결과는 Table 5 (상단)에 제시되어있습니다. ImageNet에서 +11%의 top-1 정확도를 얻습니다. 추가 실험에서는 Jigsaw 및 Rotation task의 이미지 변환을 결합하여 T에 포함시켰습니다. 구체적으로 회전을 먼저 적용한 후 Jigsaw 변환을 수행합니다. 이 실험의 결과는 Table 5 (하단)에 나와 있습니다. 결과는 여러 사전 텍스트 작업에서 이미지 변환을 결합할 수 있음을 보여줍니다.

Author: 정 의철

2 thoughts on “[CVPR 2020]Self-Supervised Learning of Pretext-Invariant Representations

  1. 안녕하세요, loss 부분에서 질문이 있습니다.

    최종 loss인 수식 (5)는 수식 (3)과 (4)를 통해 얻을 수 있는 것으로 이해하였는데, 그럼 수식 (1), (2)는 이와 어떤 관계인건가요? 수식 (1)에 대한 설명 부분에서 ’empirical risk minimization’ 이라는 명칭이 수식의 어떠한 부분에서부터 오는 것인지, 같은 맥락으로 수식 (1)의 p(T)가 변환 분포라고 해주셨는데, 이게 무엇인지도 궁금합니다.

    1. 안녕하세요 현우님 좋은 질문 감사합니다.
      Empirical Risk Minimization는 네트워크가 예측한 결과가 실제 결과와 얼마나 다른지를 측정하는 척도입니다. 이를 손실 함수 통해 정의하고 주어진 데이터 샘플에서의 평균 손실을 Empirical Risk라고 합니다. 최종적으로 모델은 Empirical Risk를 최소화하는 방향으로 모델의 파라미터를 조정한다고 이해하시면 될 것 같습니다.
      T는 이미지를 변환 하는 방법들의 집합이라 가정 했을 때 확률 분포 P(T)의 요소들 중에는 회전 변환: 50% 자르기 변환: 30% 색상 변화: 20% 의 확률로 어떤 변환을 선택할 확률 분포라고 이해하시면 될 것 같습니다.
      감사합니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다