[CVPR 2022] Learning What and Where to Learn: A New Perspective on Self-supervised Learning

안녕하세요 정의철 연구원입니다. 이번에 제가 리뷰할 논문은 2022년 CVPR에 발표된 ‘Learning What and Where to Learn: A New Perspective on Self-supervised Learning’이란 논문입니다. 이 논문은 ‘W2SSL’이라는 새로운 자기 지도 학습 프레임워크를 제안합니다. 기존의 방법들이 의미적 특징에만 집중한 반면, W2SSL은 의미적 특징과 위치적 특징을 동시에 학습하여 데이터 활용도를 높이고 다양한 특징을 학습할 수 있는 방법론을 제안하였습니다.

I. INTRODUCTION

자기 지도 학습(Self-supervised learning, SSL)은 라벨이 없는 데이터셋에서 의미적 및 위치적 관계를 탐구하여 일반적인 특징을 포착하는 것을 목표로하고 있습니다. 대조 학습(Contrastive learning)은 SSL에서 라벨이 없는 데이터셋의 의미적 유사성을 활용하여 지도 학습과의 격차를 줄이는 중요한 역할을 합니다. 그러나 이는 객체와 무관한 정보, 대조적 뷰 간의 위치 무시, 이미지 간 대응 탐색 부족 등의 문제를 야기할 수 있습니다. 따라서 이미지 간 대응을 효과적으로 추출하고 객체 간의 위치 관계를 탐구하기 위해 공간적으로 결합된 샘플링 방식을 도입해야 합니다. 또한, 새로운 모델 구조 및 최적화 전략을 설계하여 SSL의 일반화를 증가시키는 것도 중요합니다.

SSL은 의미적 속성과 위치적 속성이라는 두 가지 핵심 문제를 포함하고 있습니다. 즉, 각 이미지의 의미적 속성을 포착하는 것 외에도, 다양한 이미지 간의 위치적 속성과 상호작용이 포괄적인 특징을 포착하는 데 중요한 역할을 합니다. 최적화 목표에 따라 기존 SSL 프레임워크는 무엇(What)을 학습하는 방법과 어디서(Where) 학습하는 방법으로 나눌 수 있습니다. SSL task는 무엇을 학습하는 방법에서 좋은 결과를 보여주었고, 다양한 최적화 전략을 통해 성능이 계속해서 새로운 기록을 갱신하고 있습니다.

그러나 단일 프레임워크에서 해결해야 할 하나의 난제는 의미 정보(What)와 위치 관계(Where)로부터 특징의 상호 보완성을 효과적이고 충분히 추출하여 더 견고한 모델을 얻고 더 적은 계산 소모와 제한된 샘플로 좋은 성능을 달성하는 방법입니다. 저자는 learning what and where to learn 방법의 결합을 제안하였. 각각의 최적화 패러다임을 별도로 수행하는 대신, 저자는 의미적 학습과 위치 학습을 모두 이용하는 통합 프레임워크를 설계했습니다. 이 탐구는 자기 지도 학습의 두 가지 성공적인 패러다임에서 비롯되었습니다.

Paradigm I: 무엇을 학습할지 배우는 것은 더 큰 배치 크기와 더 긴 훈련 에포크를 도입하여 라벨이 없는 데이터셋의 깊은 정보 특징을 포착할 수 있습니다.

Paradigm II: 어디서 학습할지 배우는 것은 추가적인 forward 계산 또는 독립적인 모듈을 통해 위치 정보를 탐색할 수 있습니다.

이 두 가지 패러다임은 discriminative semantic 정보와 명확한 위치 정보가 모델 최적화에 중요하다는 것을 시사하며, 이러한 특징의 장점을 통합된 프레임워크에 통합하면 모델 훈련에 이득이 된다는 것을 나타냅니다.

이를 염두에 두고, 저자는 의미적 학습과 위치적 학습을 연결하는 프레임워크인 W2SSL(What and Where to learn)을 설계했습니다. 저자의 방법은 Fig 1에서 볼 수 있듯이, W2SSL은 데이터셋의 샘플 수가 크게 달라지더라도 일반화된 모델을 효율적으로 얻을 수 있습니다.

contributions

저자는 라벨이 없는 이미지가 전달하는discriminative semantic and explicit positional information를 분석하고, SSL의 패러다임을 설명하며, 두 특징이 모델 최적화에 중요하다는 것을 관찰합니다.
저자는 discriminative semantic and explicit positional features을 자기 지도 훈련에 포괄적으로 통합하는 공간적으로 결합된 샘플링 방식을 제안합니다. 기존 SSL 방법과 비교하여, W2SSL은 일반적인 라벨이 없는 데이터셋의 특성을 고려하여 더 긴 시간과 더 큰 배치 크기를 필요로 하는 기존의 주류 훈련 메커니즘에 대한 의존성을 완화합니다.
저자는 위치 작업과 대조 작업을 분리한 collaborative optimization 전략을 제안합니다. 기존 방법과 달리, W2SSL은 절반의 computational consumption으로도 좋은 성능을 달성합니다.

2. Method

A. Problem Definition

자기 지도 학습의 일반적인 공식은 다음과 같습니다. semantic features(S), positional features(P), inherent relations(R)를 가진 라벨이 없는 데이터셋 T에 대해 학습 과정은 다음과 같이 공식화할 수 있습니다.

여기서 M’은 최종 획득된 모델을 나타내며, F는 학습 가능한 매개변수 θ를 가진 특징 추출기를 나타냅니다. 자기 지도 학습의 목적은 다양한 컴퓨터 비전 작업에서 일반화된 오류를 최소화하는 최적의 네트워크 매개변수 θ’를 찾는 것입니다.

B. Motivation

여러 실험들을 통해 semantic features(S) 및 explicit positional(P) 특징이 이미지 정보를 전달하는 것을 확인했고 샘플 간의 관계(R)도 데이터셋의 내재적 특징입니다. 그러나 기존 프레임워크는 라벨이 없는 데이터셋이 제공하는 특징을 포괄적으로 고려하지 못합니다. 예를 들어, MoCo,SimCLR , SimSiam은 추출된 잠재 벡터 간의 유사성과 차이를 대조하여 의미적 특징을 활용합니다. Rotation , Location , 및 SSL++는 low-level positional 및 texture 특징을 포착하여 일반 모델을 얻으려고 합니다.

최근 ’Jigsaw clustering for unsupervised visual representation learning,”연구에서 invariant semantic characteristics and spatial positional information 통합하여 모델을 최적화하려고 했지만, suboptimal sampling and optimization strategies으로 인해 성능이 저조합니다. 이러한 비최적 설계로 인한 성능 저하를 보완하기 위해, GLNet 은 라벨이 없는 데이터셋이 제공하는 의미적 및 텍스처 특징을 간접적으로 학습하는 잘 설계된 샘플링 방법을 도입했습니다. 또한, LEWEL 및 ContrastiveCrop은 모델이 어디에서 학습해야 하는지를 결정하기 위해 독립적인 모듈을 직접 사용합니다.

저자는 더 적은 계산 오버헤드로 통합된 프레임워크 내에서 상호 보완적인 특징을 포착하는 관점에서 SSL의 훈련을 고려했고 이는 무엇을 학습할지와 어디서 학습할지를 배우는 것으로 요약될 수 있습니다. 이러한 목표를 달성하기 위해 의미적 및 위치적 제약을 동시에 고려하고 특징 추출기에 대조 쌍을 제공하는 샘플링 방식을 설계합니다. 또한, 특징 활용을 보완하기 위해 collaborative optimization도 설계합니다.

Fig2

C. Overview

제안된 W2SSL의 전체 파이프라인은 Fig 2에 나와 있습니다. 구체적으로, sampling module은 사전 정의된 규칙을 통해 이미지를 처리하여 모델 최적화에서 의미 정보와 공간적 위치 관계를 연결시켜 줍니다. 제안된 샘플링 모듈과 함께 무엇을 학습할지와 어디서 학습할지를 맞추기 위해 ResNet 모델의 첫 번째부터 네 번째 레이어만 유지합니다. T가 라벨이 없는 데이터셋을 나타낸다고 가정하면, 먼저 미니배치를 형성하기 위해 n개의 이미지를 무작위로 선택합니다. 이러한 이미지는 먼저 샘플링 모듈에 의해 처리됩니다. {T11, T12, . . . , Tns} = M{T1, T2, . . . , Tn}, 여기서 Tn(1,…,s) 및 Tn은 생성된 패치와 원본 이미지를 나타내며, M은 spatially-coupled sampling module을 의미합니다. 모델의 목적은 일반화된 매핑 함수 M’ : X → Y를 학습하는 것이며, M’의 헤드는 의미적 및 위치적 관계를 모두 포착하는 두 가지 작업을 포함합니다. 최종적으로, 네트워크는 이러한 discriminative하고 contrastive complementar 특징을 사용하여 최적화됩니다.

D. spatially-Coupled Sampling Manner

High-level semantic및 low-level visual features은 이미지에서 중요한 역할을 합니다. 제안된 spatially-coupled sampling manner으로 결합된 샘플링 방식은 의미적 및 위치적 constrained crop을 수행하여 상호 보완적 특징을 통합합니다. 이러한 방식은 또한 샘플링된 패치 간의 관계를 모델이 학습하도록 장려합니다. 단일 뷰를 샘플링한 다음 이를 다른 뷰와 대조하는 기존 방식은 위치 정보의 관계를 무시하는 반면, spatially-coupled sampling manner은 교차 뷰 상호 보완성을 통합하고 라벨이 없는 데이터셋에 존재하는 의미적 일관성과 시각적 불일치를 고려할 수 있습니다. 또한, 이는 기존 방법들로 인한 불충분한 데이터 활용을 완화할 가능성도 있습니다.

Fig 3를 통해 spatially-coupled sampling을 구체적으로 확인할 수 있는데 먼저 처리할 이미지의 공간 해상도가 H × W라고 가정하면, 샘플링 방식은 사전 정의된 규칙을 사용하여 샘플링합니다. 이러한 규칙은 의미 정보를 중점적으로 다루면서도 이미지 내 객체의 위치적 특징도 고려합니다. 더 포괄적인 대조 뷰를 구성하기 위해, 각 이미지의 공간적으로 결합된 샘플링에서 spatial constraint(두 샘플 간의 중복된 영역의 비율)은 [0, 0.3]로 설정됩니다. . 추출된 특징은 stitched position에 따라 특징 벡터로 분할되며, 기본 인코더는 공간적 위치 관계를 분리하는 데 사용되고, 기본 인코더와 모멘텀 인코더는 대조 학습을 최적화하는 데 사용됩니다.

E. Learning What to Learn

W2SSL에서는 모든 이미지를 먼저 spatially-Coupled Sampling Manner으로 처리하며, 샘플링된 패치들은 셔플되고 stitched 되어 새로운 합성 데이터셋을 만듭니다. 처리된 데이터는 시암 네트워크(Siamese network)로 전송되어 특징 벡터 ˜x`를 생성하며, latent vectors z는 시암 네트워크와 다층 퍼셉트론(MLPs)으로 얻을 수 있습니다.

대조 작업을 공간적으로 결합된 샘플링과 맞추기 위해,many-to-many infoNCE를 도입합니다. 단일 이미지에서 얻은 4개의 latent vectors는 양성으로 취급될 수 있으며, 이는 하나의 이미지에서 추출되었기 때문입니다. 반면, 다른 latent vectors는 음성으로 간주됩니다. 따라서 대조 작업의 최적화 손실 함수는 다음과 같이 공식화될 수 있습니다:

여기서 I = {1, . . . , n(m + 1)}는 미니 배치 내의 n(m + 1) 벡터 인덱스의 집합을 나타내며

P (i) ≡ {p ∈ A(i) : ˜yp = ˜yi}는 패치가 단일 이미지에서 샘플링된 것을 나타내며, 이는 positives으로 표시됩니다.

F. Learning Where to Learn

W2SSL은 데이터셋을 최대한 활용하고 feature-specificity issues를 피하기 위해 의미적 특징과 시각적 특징 간의 보완적 특징 관계를 확립하는 것을 목표로 합니다. 이를 위해 단일 대조 학습 작업으로 인한 feature-specificity issues를 보완하기 위해 low-level structure relationships를 포착하는 decouple positional task를 도입합니다. SSL++ 은 프레임워크에 다양한 low-level task을 도입하려고 했지만, 결과는 local optima나 feature-specificity issue가 없는 사전 학습 모델을 얻기가 어렵다는 것을 보여주었습니다. SSL++이 시각적 특징만을 고려한 것과 달리, 저자의 decouple positional task은 추가적인 시각적 supervisory signals를 제공할 수 있습니다.

“Learning Where to Learn”의 학습 목표는 샘플링된 샘플이 라벨이 없는 이미지에서 어디에서 왔는지를 판단하고 이를 구별하는 것입니다. 이 작업의 pseudo-label은 이미지를 stitch하데 사용된 패치의 샘플링 위치입니다. 예를 들어, 라벨이 없는 이미지의 상단을 샘플링하면 0으로 표시되고, 하단을 샘플링하면 1로 표시됩니다. 기존의 global pooling method 와 달리 추출된 특징을 처리하기 위해 dense partition pooling method을 사용하여 더 많은 공간 위치 정보를 유지할 수 있습니다. 동일한 샘플에서 샘플링된 뷰는 동일한 의미적 특징을 포함하므로 모델은 이러한 차이를 구별하기 위해 시각적으로 일관되지 않은 특징을 포착해야 합니다. 위의 이론적 분석을 바탕으로 샘플링 위치를 pseudo 라벨 Y(원본 이미지 내의 상대적 위치)와 함께 디커플링하기 위해 이진 분류 손실 함수를 도입합니다.

여기서 yc는 이 작업의 pseudo 라벨이며 pc는 예측 확률입니다.

G. cascaded Collaborative Optimization

설계된 task를 협력적으로 최적화함으로써, 대조 작업은 특징 추출기가 고수준의 의미적 특징을 학습하도록 보장하는 반면, decouple positional task은 더 저수준의 시각적 특징에 중점을 둡니다. 의미 정보와 위치 구조 관계의 보완성을 통합하기 위해 SSL 프레임워크에 이러한 작업을 포함시키는 cascaded mode를 설계했습니다. 재정의된 최적화 식은 다음과 같습니다.

여기서 λ는 두 최적화 목표 간의 trade-off을 나타냅니다. 직관적으로 LC는 모델이 무엇을 학습하는지(고수준 의미적 특징)를 가능하게 하고, LD는 모델이 어디에서 학습하는지(저수준 위치 구조 관계)를 보장합니다.

3. EXPERIMENTS

A. Benchmark Datasets

저자는 포괄적인 비교를 위해 다음과 같이 속성이 다른 네 가지 유형의 데이터셋을 이 실험에 사용합니다

large- scale image classification dataset: ImageNet;

limited image classification datasets: ImageNet-100, CIFAR-10, CIFAR-100, STL-10, Tiny-ImageNet;

unevenly distributed image classification datasets: ImageNet-LT, few-labeled ImageNet;

object detection dataset: COCO

B. Training and Implementation Details

모든 실험은 PyTorch를 사용하여 AMD EPYC 7302 CPU와 128GB RAM을 갖춘 4~8의 NVIDIA GeForce RTX 3090 GPU에서 구현합니다. 일반적인 프레임워크를 따라, 특징 추출기로 시암 ResNet-50을 사용하고 LARS 옵티마이저와 cosine learning rate schedule를 사용합니다. 별도로 명시하지 않는 한, ImageNet 데이터셋에서 모델을 200 에포크 동안 최적화하고 다른 데이터셋에서는 100 에포크 동안 최적화하며, 선형 분류 모델은 100 에포크 동안 훈련합니다.

C. Comparison With State-of-the-Art Methods

네 가지 유형의 데이터셋에서 제안된 W2SSL과 최신 방법들을 비교하는 비교 방법에는 traditional pretext task(PT) 기반 방법들(Colorization , Jigpuz , Rotation), 대조 학습(CL) 기반 방법들(MoCo , SimCLR , MoCo-v2 , PCL , BYOL , SwAV , InstLoc , DenseCL , MaskCo , SCRL , MoCo-v3, SimSiam , InfoMin , RegionCL , XMoCo , BatchFormer , HCSC , ContrastiveCrop , DUPR , SAT ), 및 Multi optimization(MO) 기반 방법들(Sela , DeepCluster , JigClu , GLNet , LEWEL )이 포함됩니다.

Linear Classification Performance on Large-scale Dataset

기존 SSL 방법들이 사용하는 평가 체계를 따라, 모든 방법에 대해 배치 크기를 256으로 설정하고 실험 결과는 Table I에 나와 있습니다. 또한, 배치 크기 1024로 실험을 수행하여 다른 배치 크기의 효과를 비교했습니다. Table I에서 저자의W2SSL이 비교된 방법들 중 최고의 성능을 달성했음을 알 수 있으며, 이는 저자의 방법으로 학습한 특징이 더 일반적임을 나타냅니다. .

Linear Classification on Limited Datasets

대규모 데이터셋에서는 충분한 라벨이 없는 샘플이 모델을 최적화하기에 충분한 특징을 제공할 수 있습니다. SSL의 궁극적 목표(제한된 데이터셋에서도 SSL이 일반적이고 강력한 시각적 특징을 추출할 수 있음)를 추구하고 달성하기 위해, 제한된 데이터셋에서 실험을 수행합니다. W2SSL과 최신 방법들의 분류 정확도는 Table II에 나와 있으며, 제안된 방법의 우수한 성능을 입증합니다. 중요한 것은, 개선된 데이터 샘플링 및 최적화 전략 덕분에 W2SSL의 모든 데이터셋에서의 성능이 최고의 정확도를 달성했습니다.

D. Ablation Studies

1) Ablation on Constraint Constant

constraint constant on spatially-coupled sampling의 효과는 샘플 간의 중첩률을 제한하는 것으로도 볼 수 있습니다. 실험 결과는 Table III에 요약되어 있으며, 0.2 및 0.3 제약 상수를 사용할 때 모델 성능이 유사한 결과를 나타냅니다. 제약 상수를 계속 증가시키면 성능 저하가 발생합니다. W2SSL은 제약 상수 0.3에서 최고의 결과를 얻었습니다.

2) Ablation on Batch Sizes

MoCo 는 메모리 뱅크를 도입하여 음성 샘플 수를 증가시키지만, 이는 메모리 제약을 충족하지 않으며 성능 향상도 크게 제공하지 않습니다. 반면, 저자의 방법은 잘 설계된 샘플링 방식과 재정의된 최적화 목표를 사용하여 이러한 추가 작업을 피합니다. 더 중요하게는, W2SSL은 배치 크기가 변해도 높은 성능을 유지합니다.

3) Ablation on the Backbone

이 실험에서는 특징 추출기 용량을 증대시키기 위해 다양한 백본 네트워크를 비교합니다. 구체적으로, 일반적으로 사용되는 ResNet-50, ResNet-101, ResNet-152, ResNext-50 32×4d, Wide ResNet-50 2를 백본으로 사용합니다. Table V에 요약된 통계 결과는 단일 ResNet-50 대신 백본 네트워크의 복잡성을 조사합니다. 이를 백본 네트워크가 깊어지고 넓어질수록 성능도 증가하는 것을 확인할 수 있습니다.

E. Transfer Learning

자기 지도 학습 단계에서 학습된 특징의 견고성과 일반화 가능성을 다른 데이터셋으로 전이할 수 있음을 입증하기 위해, 저자는 FGVC-Aircraft (FGVC) , Caltech-UCSD Birds (CUB) , Stanford Cars (Cars) , CIFAR-10 , CIFAR-100 , STL-10 , Tiny-ImageNet, 1% 라벨이 있는 ImageNet , 10% 라벨이 있는 ImageNet, 그리고 ImageNet-LT 데이터셋을 포함한 다양한 데이터셋에서의 분류 성능을 비교합니다. 결과는 Table XI에 요약되어 있으며, W2SSL이 일반화된 모델을 얻을 수 있음을 나타냅니다.

저자는 학습된 특징의 일반화를 추가로 입증하기 위해 self-supervised model)을 초기 가중치로 사용하여 object detection, instance segmentation, panoptic segmentation, and keypoint calculation experiments을 수행합니다. . keypoint calculation은 입력 이미지의 주요 지점을 검출하는 작업이며, 이러한 실험은 Keypoint-RCNN을 사용하여 수행했습니다. 표 XII에서 보이듯이, 저자의 방법은 이러한 컴퓨터 비전 작업에서 MoCo-v1, MoCo-v2, MoCo-v3보다 다소 성능이 떨어지는 것으로 나타났습니다. 이는 샘플링 중 전역 특징(global features)을 간과했기 때문일 수 있다고 설명하고 있습니다. 이 부분에 대해서 저자는 W2SSL의 성능을 향상시키기 위해 전역 특징을 통합하여 저자의 방법을 개선할 것이다라고 설명하고 있습니다.

4 thoughts on “[CVPR 2022] Learning What and Where to Learn: A New Perspective on Self-supervised Learning”

김 주연 says:

07/15/2024 at 23:33

안녕하세요. 좋은 리뷰 감사합니다.

제목에 이끌려 리뷰를 읽게 되었는데, 이 분야에 대해서 잘 모르다보니 본 논문의 개념적인 부분이 잘 이해가 가지 않아 읽기 어려웠던 것 같습니다. 궁금한 부분이, 무엇을 학습할지 배우는 것, 어디에서 학습할지 배우는 것이 잘 이해가 가지 않았는데요. 그래서 저 나름대로 이해한 것이 what과 관련하여 learning한 것을 통해 semantic feature를 얻고, Where과 관련하여 learning한 것을 통해 positional feature를 얻을 수 있다고 이해하였습니다. 그리고 이를 잘 융합하여 좋은 성능을 얻었다는 것으로 이해하였습니다.

그래서 SSL에서 semantc feature를 학습하는 목표는 라벨이 없는 데이터에서 객체나 장면을 나타내는 고유한 특징을 포착하는 것이고, positional feature를 학습하는 목표는 이미지 내 객체 간의 공간적 관계를 파악하여 더 나은 특징을 추출하는 것이라 이해하였는데, [“Learning Where to Learn”의 학습 목표는 샘플링된 샘플이 라벨이 없는 이미지에서 어디에서 왔는지를 판단하고 이를 구별하는 것입니다.]라는 문구를 보고 제 이해가 틀렸나? 라는 생각이 들었습니다.
이 문구를 보면 내가 학습하고 있는 sample이 어디에서 왔는지를 보는 것으로 이미지 내 객체 간의 공간적인 관계를 보는 것은 아닌것 같다는 생각을 하였는데요. 혹시 제 이해가 맞는지, 틀리다면 왜 틀린지에 대해서 설명해주시면 감사하겠습니다.

감사합니다.

1. 정 의철 says:
  
  07/22/2024 at 13:17
  
  안녕하세요 주연님 좋은 질문 감사합니다.
  이해하신 것처럼 Learning Where to Learn의 학습 목표는 이미지 내 객체 간의 공간적인 관계를 보는 것이고 이는 원본 이미지에서 영역을 크롭하고 그 영역이 어디에서 왔는지를 판단하고 구별한다고 이해하시면 될 것 같습니다.
  
허 재연 says:

07/21/2024 at 23:46

안녕하세요. 정의철 연구원님. 좋은 리뷰 감사합니다.

결국 이미지를 패치 단위로 잘라 재배열하는 방식을 도입하여 contrastive learning을 한 듯 하네요.
리뷰를 읽다가 이해하기 힘든 부분이 있어 질문 남깁니다.
1. discriminative semantic and explicit positional feature가 구체적으로 무엇을 의미하는 것인가요?
2. feature-specificity issues를 보완하기 위해 low-level structure relationships를 포착하는 decouple positional task를 도입했다고 하였는데, 그래서 결국 decouple positional task는 구체적으로 어떻게 수행되는 것인가요?
3. 위치정보를 언급하기 때문에 당연히 위치 정보를 활용하는 detection 및 segmentation benchmark가 있어야한다고 생각하는데, Experiment에는 리포팅되어있지 않네요. 2020년도부터 SSL 논문들은 classification뿐만 아니고 다른 task에 대한 성능을 리포팅하게 때문에 2022 CVPR이면 classification 성능만 가지고는 accept되기 쉽지 않았을 것 같은데, 관련 실험이나 언급은 없었나요?

감사합니다.

1. 정 의철 says:
  
  07/22/2024 at 13:36
  
  안녕하세요 재연님 질문 감사합니다.
  1. 모델 최적화에서 의미 정보와 공간적 위치 관계르 뜻합니다.
  2. 모델이 특정한 특징에 너무 집중하면 일반적인 패턴을 학습하지 못하는 문제를 가지고 있기 때문에 decouple positional task를 도입하여 low-level structure relationships를 학습하여 low-level의 특징까지 학습 가능하게 한 것입니다.
  3. detection 및 segmentation benchmark는 table XII에 나와있습니다.