[Neurips 2020] What Makes for Good Views for Contrastive Learning

1. Introduction

대조 학습(contrastive multiview learning)은 동일한 장면의 두 view을 representation space에서 가깝게 하고, 다른 장면의 두 view을 멀어지게 합니다.

이는 자연스럽고 강력한 아이디어이지만 중요한 질문을 남깁니다: “which viewing conditions should we be invariant to” 만약 주어진 task가 시간대를 분류하는 것이라면, 시간에 불변한 representation을 사용하는 것은 절대적으로 해서는 안 됩니다. 아니면 각 특정 view을 독립적으로 representation하는 것은 장면에서 움직이는 개를 추적하는 능력을 손상시킬 것입니다.

따라서 저자는 중요하지 않은 변이에 대해 강건하면서도, 이후 task에 필요한 정보를 버리지 않을 정도의 불변성을 가진 representation을 추구합니다. 대조 학습에서 “views”의 선택은 representation이 포착하는 정보를 제어하는 요소로, 이 프레임워크는 view 간에 공유되는 정보에 집중하는 representation을 결과로 만들어냅니다. view은 일반적으로 사진과 소리 , 다른 이미지 채널 또는 시간의 단면 같은 다른 감각 신호일 수 있지만, 동일한 데이터 텐서의 다른 “증강” 버전일 수도 있습니다. 공유되는 정보가 적다면, 학습된 representation은 입력에 대한 더 많은 정보를 버리고, nuisance 변수에 대한 더 높은 불변성을 달성할 수 있습니다. 필요한 정보는 넘치지도 모자라지도 않게 공유되는 view의 균형을 어떻게 찾을 수 있을까요?

저자는 이 질문을 두 가지 방법으로 조사합니다: 1) view의 최적 선택이 downstream task에 결정적으로 의존함을 입증합니다. 과제를 알면, 효과적인 view을 설계하는 것이 종종 가능합니다. 2) 일반적으로 view을 생성하는 많은 방법에 대해, 상호 정보(MI) 추정치와 후속 성능 사이에 U자형 관계가 있음을 실험적으로 입증합니다.

저자의 분석은 “InfoMin 원칙”을 제안합니다. 좋은 view 세트는 downstream task에서 잘 수행하기 위해 필요한 최소 정보를 공유하는 것입니다. 이 아이디어는 representation 학습 문헌에서 이전에 언급된 minimal sufficient statistics와 Information Bottleneck theory의 아이디어와 관련이 있습니다. 이 원칙은 또한 representation 학습의 목표가 자극에 대한 가능한 한 많은 정보를 포착하는 것이라는 이미 인기 있는 “InfoMax 원칙” 을 보완합니다. 저자는 정보 최대화가 유용한 경우는 그 정보가 task와 관련이 있을 때뿐이라고 주장합니다. 그 지점을 넘어서면, nuisance 변수에 대한 정보를 버리는 representation을 학습하는 것이 일반화와 downstream task에서의 샘플 복잡성을 줄이는 데 더 좋습니다.

이러한 발견을 바탕으로, downstream task가 알려진 경우 좋은 representation을 학습하는 데 효과적인 view을 학습하는 semi-supervised method을 도입합니다. 또한, InfoMin 원칙을 실질적으로 적용하여 상호 정보를 좋은 지점으로 더 줄이기 위해 더 강력한 데이터 증강을 추구하는 방법을 입증합니다. 이는 표준 벤치마크에서 정확도 73.0%를 달성합니다.

Contribution은 다음과 같습니다:

대조적 representation 학습을 위한 최적의 view이 task에 따라 다름을 입증합니다.
다양한 설정에서 상호 정보 추정치와 representation 품질 간에 U자형 관계를 실험적으로 발견합니다.
주어진 task에 대해 효과적인 view을 학습하는 새로운 반지도학습 방법.
저자의 방법을 적용하여 ResNet-50을 사용한 ImageNet linear readout benchmark에서 73.0%의 정확도를 달성합니다.

2. What Are the Optimal Views for Contrastive Learning?

2.1 Multiview Contrastive Learning

두 개의 확률 변수 v1과 v2가 주어졌을 때, 대조 학습의 목표는 empirical joint distribution p(v1)p(v2|v1))에서 샘플과 주변 분포의 곱 p(v1)p(v2))에서 샘플을 구별하는 매개변수 함수를 학습하는 것입니다. 결과 함수는 v1 과 v2 간의 상호 정보의 추정치이며, InfoNCE 손실은 I(v1; v2))의 하한을 최대화하는 것으로 알려져 있습니다. 실제로, 앵커 포인트 v_{1,i})가 주어지면, InfoNCE 손실은 K개의 distractors v_{2,j} ∼ p(v2))에 비해 positive v_{2,i} ∼ p(v2|v_{1,i}))의 score를 더 높이도록 최적화됩니다:

이 손실을 최소화하는 것은 I(v1; v2))의 하한(즉, I_{NCE}(v1; v2)))을 최대화하는 것과 동등합니다. 실제로, v1과 v2는 데이터 x의 두 가지 view로, 동일한 이미지의 다른 증강, 다른 이미지 채널, 또는 비디오와 텍스트 쌍 등이 있습니다. score function h(·, ·)는 일반적으로 두 개의 인코더를 포함하며, 이는 v1과 v2가 동일한 도메인에서 왔는지 여부에 따라 매개변수를 공유할 수도 있고 공유하지 않을 수도 있습니다. 결과적으로 representation은 z1 = f1(v1) 및 z2 = f2(v2)로 표현됩니다.(Fig 1 참조)

Definition 1. (Sufficient Encoder) v의 인코더 f은 (I(v1; v2) = I(f1(v1); v2))일 때 대조 학습 프레임워크에서 충분합니다. 직관적으로, 인코더 f1은 인코딩 절차 중 v1에서 v2에 대한 정보가 손실되지 않으면 충분합니다. 즉, (z_1)은 대조 학습 목표가 요구하는 모든 정보를 유지합니다. 대칭적으로, (f2)는 (I(v1; v2) = I(v1; f2(v2)))일 때 충분합니다.

Definition 2. (Minimal Sufficient Encoder) (v1)의 충분 인코더 (f1)은 오직 (I(f1(v1); v1) leq I(f(v1); v1)), (forall f)가 충분할 때 최소입니다. 충분한 인코더 중에서 최소한의 인코더는 대조 작업에 관련된 정보만 추출하고, 관련 없는 정보를 버립니다. 이는 사용자가 관심 있는 모든 정보가 시점 간에 공유되는 방식으로 시점이 구성된 경우에 효과적입니다.

대조 프레임워크에서 학습된 representation은 일반적으로 별도의 downstream task에서 사용됩니다. downstream task에 좋은 representation이 무엇인지 특징짓기 위해 representation의 최적성을 정의합니다. 표기법을 간단히 하기 위해, (z)는 (z_1) 또는 (z_2)를 의미할 수 있습니다.

Definition 3. (Optimal Representation of a Task) 입력 데이터 (x)에서 semantic 레이블 (y)를 예측하는 것이 목표인 task (T)에 대해, (x)에서 인코딩된 최적 representation (z^)는 (y)에 대해 minimal sufficient statistic입니다. 이는 (z^) 위에 구축된 모델이 (y)를 (x)에 접근하는 것처럼 정확하게 예측하는 데 필요한 모든 정보를 가지고 있음을 의미합니다. 또한, (z^*)는 (y)에 대한 정보 외에는 다른 정보를 포함하지 않아서 더 작은 복잡성을 유지하고, 이는 더 일반화 가능하게 만듭니다.

2.2 Three Regimes of Information Captured

representation z_1, z_2는 minimal sufficient encoder가정 하에 대조 목표에 의해 학습되므로, v_1과 v_2 사이에 공유되는 정보I(v_1; v_2)의 양과 유형이 downstream task에서 얼마나 잘 수행되는지를 결정합니다. Information bottleneck에서처럼, view가 입력에 대해 공유하는 정보의 양과 학습된 representation이 task y를 예측하는 성능 간의 상충 관계를 추적할 수 있습니다. view가 구성되는 방식에 따라 관련 변수를 버리면서 너무 많은 관련 없는 변수를 유지하여 정보 평면에서 최적 성능을 달성하지 못할 수 있습니다. 또는 I(v_1; y) 및 I(v_2; y)task 레이블에 대한 정보의 양를 최대화하면서 I(v_1; v_2)입력에 대해 공유되는 정보의 양, 여기에는 task 관련 정보와 관련 없는 정보 모두 포함을 최소화하는 view을 찾을 수 있습니다. 이러한 최적 경로의 경우에도 고려할 수 있는 성능 체제가 세 가지 있으며, 이는 Fig 1b에 나와 있습니다.

Missing information: I(v_1; v_2) < I(x; y)일 때, view에 의해 task 관련 변수가 버려져 성능이 저하됩니다.
Sweet spot: I(v_1; y) = I(v_2; y) = I(v_1; v_2) = I(x; y)일 때, v_1과 v_2 사이에 공유되는 유일한 정보가 task 관련 정보이며, 관련 없는 노이즈가 없습니다.
Excess noise: view에서 공유되는 정보의 양을 I(x; y) 이상으로 증가시키면, downstream task와 관련 없는 추가 정보가 포함되기 시작합니다. 이는 downstream task에서의 일반화 성능을 저하시킬 수 있습니다.

저자는 최적의 성능을 발휘하는 view가 가능한 한 많은 task 관련 정보를 포함하면서 입력에서 가능한 한 많은 관련 없는 정보를 버리는 스위트 스팟에 가까울 것이라고 가정합니다. 보다 공식적으로, 다음 InfoMin 명제는 특정 downstream task T를 미리 알고 있다고 가정할 때 최적의 view가 무엇인지를 명확히 설명합니다.

Proposition 3.1 f1과 f2가 minimal sufficient encoders라고 가정했을때 레이블 y를 가진 downstream task T가 주어졌을 때, 데이터 x에서 생성된 최적의 view v_1^, v_2^는 I(v_1; v_2)를 최소화하는 것이며, I(v_1; y) = I(v_2; y) = I(x; y)를 만족합니다. 주어진 v_1^, v_2^에서 대조 학습에 의해 학습된 representation z_1^또는 z_2^은 T에 대해 최적입니다.

Information bottleneck,과는 달리, 대조 학습에서는 종종 downstream task를 미리 지정하는 완전히 레이블된 훈련 세트에 접근할 수 없으며, 따라서 학습 시간에 시점과 representation에 포함된 task 관련 정보의 양을 평가하는 것이 어렵습니다. 대신, View의 구성은 입력을 변경하면서 task 관련 변수를 유지하는 도메인 지식에 의해 일반적으로 가이드됩니다.

2.3 View Selection Influences Mutual Information and Accuracy

위의 분석에 따르면 transfer performance은 역 U자형 곡선(Fig 1b, 오른쪽)에 의해 상한선이 정해지며, 곡선의 꼭짓점에서 최적의 지점이 나타날 것으로 예상됩니다. 이론적으로 시점 간의 상호 정보(mutual information)가 변할 때, downstream task와 nuisance 변수에 대한 정보를 선택적으로 포함하거나 제외할 수 있어 학습된 표현에 편향을 줄 수 있습니다(그림 2 참조).

view가 신호보다는 노이즈를 공유한다면, 역 U자형 상한선에 도달하지 못할 수 있습니다. 그러나 실질적으로 최근 연구에서는 역 U자형 곡선이 일반적이라고 제안합니다.

2.4 Data Augmentation to Reduce Mutual Information between Views

다양한 방식으로 입력을 증강하여 Multiple views을 생성할 수 있습니다. views 생성의 관점에서 여러 대조 학습 방법을 통합할 수 있습니다. 모든 대조 학습 방법은 암묵적으로 InfoMin 원칙을 따르는 두 시점 v1과 v2를 생성합니다. 저자가 고려한 대조 학습 방법론들은 다음과 같습니다: InstDis ,MoCo, CMC, PIRL, SimCLR, CPC

3. Learning views for contrastive learning

3.1 Optimal Views Depend on the Downstream Task

뷰 선택이 대조 학습에 의해 학습된 표현에 어떻게 영향을 미치는지 이해하기 위해, 저자는 세 가지 태스크를 혼합한 toy데이터셋을 구성했습니다. 저자는 STL-10 데이터셋에서 샘플링된 고정된 배경 이미지를 사용하여 Moving-MNIST (숫자가 일정한 속도로 검은 캔버스 안에서 이동하고 이미지 경계에서 튕겨 나오는 비디오로 구성됨)을 결합하여 toy 데이터셋을 구성했습니다. 저자는 이 데이터셋을 Colorful Moving-MNIST라고 부르며, 각 프레임에는 세 가지 변형 요소가 포함됩니다: 숫자의 클래스, 숫자의 위치, 배경 이미지의 클래스. 여기서 뷰 선택이 대조 학습에 의해 추출된 요소에 어떻게 영향을 미치는지 분석합니다.

Setup 저자는 과거 프레임 x1:k의 시퀀스를 뷰 v1로 고정합니다. 단순화를 위해, v2를 단일 이미지로 고려하고 프레임 xt를 참조하여 구성합니다. 시각화의 예는 Fig 6에 나타나 있습니다.

저자는 이미지에 대해 3가지 다운스트림 태스크를 고려합니다: (1) 숫자 클래스 예측; (2) 숫자 위치 로컬라이즈; (3) 배경 이미지 분류 (STL-10의 10개 클래스).

이는 백본을 고정하고 태스크별 linear 헤드를 학습하여 수행됩니다.

Single Factor Shared v1과 v2가 세 가지 요소 중 하나만 공유하는 경우를 고려합니다: 숫자, 위치, 또는 배경. 저자는 v2를 합성하여 xt와 동일한 요소 중 하나를 설정하고 나머지 두 개는 무작위로 선택합니다. 이러한 경우, 상호 정보 I(v1;v2)는 숫자, 위치, 또는 배경과 관련이 있습니다. 결과는 표 2에 요약되어 있으며, v1과 v2 사이에 무엇이 공유되는지에 따라 성능이 크게 영향을 받는 것을 보여줍니다.

특히, 다운스트림 태스크가 한 요소와 관련이 있는 경우, I(v1;v2)는 다른 요소가 아닌 해당 요소를 포함해야 합니다. 예를 들어, v2가 v1과 배경 이미지만 공유하는 경우, 대조 학습은 숫자 클래스와 위치를 포착하는 표현을 학습하기 어렵습니다.

Multiple Factors Shared 저자는 v1과 v2가 여러 요소를 공유할 때 표현의 품질이 어떻게 변하는지 추가로 탐구합니다. 저자는 위와 유사한 절차를 따라 v1과 v2가 공유하는 요소를 제어합니다. 결과는 표 2에 나와있습니다. 저자는 한 요소가 다른 요소를 압도할 수 있음을 발견했습니다. 예를 들어, 배경이 공유될 때마다,latent 표현은 숫자를 구별하거나 로컬라이즈하는 정보를 생략합니다. 이는 배경의 정보 비트가 우세하기 때문일 수 있으며, 인코더는 대조 사전 학습 태스크를 해결하기 위한 “shortcut”로 배경을 선택합니다. v1과 v2가 숫자와 위치를 공유할 때, 전자가 후자보다 선호됩니다

3.2 Synthesizing Views with Invertible Generators

이 섹션에서는 InfoMin 원칙을 따르는 새로운 view를 합성하는 비지도 및 반지도 학습 방법을 설계합니다. 구체적으로, 저자는 color space experiment을 확장하여 자연 색 공간을 새로운 색 공간으로 전환하는 flow-based model을 학습하고, 채널을 분할하여 view를 얻습니다. 저자는 flow-based model의 출력을 색 공간이라고 부르는데, 이는 flow가 픽셀 단위이고 전단사(bijective)[두 집합 사이를 중복 없이 모두 일대일로 대응시키는 함수]이기 때문입니다. view가 학습된 후 표준 대조 학습을 수행하고 선형 분류기 평가를 진행합니다.

flow-based model g는 픽셀 단위의 1×1 컨볼루션과 ReLU 활성화를 제한하며, 각 픽셀에서 독립적으로 작동합니다. volume preserving(VP) 및 non-volume preserving(NVP) flows를 모두 시도합니다. 입력 이미지 X에 대해, 채널 분할은 {X1, X2:3}. X^로 표현됩니다. X^는 변환된 이미지로, 즉 X^ = g(X)입니다. 실험은 100k 비지도 이미지와 5k 지도 이미지가 포함된 STL-10에서 수행됩니다.

Unsupervised View Learning: Minimize: I(v1; v2) 최소화

아이디어는 적대적 훈련 전략을 활용하는 것입니다. 주어진 X^= g(X)는 GAN의 판별자와 유사하게, 식 (1)과 같이 INCE( X1ˆ; X2:3ˆ)를 최대화하기 위해 두 인코더 f1,f2를 훈련합니다. 동시에, g는 INCE( X1ˆ; X2:3ˆ)를 최소화하도록 적대적으로 훈련됩니다. 공식적으로, 목표는 다음과 같습니다:

대안적으로, 다른 MI bounds를 사용할 수도 있지만 저자는 INCE가 잘 작동한다는 것을 발견했고 계속 사용합니다.

Results. 저자는 RGB와 YDbDr을 실험했습니다. 그림 7(a)에서 볼 수 있듯이, INCE와 다운스트림 정확도의 역 U자형이 나타납니다. YDbDr은 이미 스위트 스팟에 가깝습니다. 이는 “휘도-색도” 분해가 색을 비상관화하면서도 객체의 인식 가능성을 유지하는 좋은 방법이라는 human prior과 일치합니다.

또한, 유사한 휘도-색도 분해인 Lab이 YDbDr과 유사하게 잘 수행됨을 주목합니다 (Fig 4), 이는 인간이 색을 인식하는 방식을 모방하도록 설계되었습니다. 따라서 저자의 분석은 인간이 색을 인식하는 방식에 대한 또 다른 합리적 설명을 제시합니다 – 인간의 색 인식은 자가 지도 표현 학습에 최적에 가까울 수 있습니다.

이 비지도 목표를 통해, 대부분의 경우 view 간의 INCE가 과도하게 감소합니다. 또한, 이 GAN 스타일의 훈련은 불안정하며, 동일한 하이퍼 파라미터로도 실행마다 크게 다릅니다. 이는 view 생성기가 다운스트림 태스크에 대한 지식이 없기 때문이며, 따라서 명제의 제약 조건 I(v1, y) = I(v2, y) = I(x, y)가 심각하게 깨진다고 추측합니다.

4. Conclusion

저자는 대조 표현 학습 프레임워크에서 주어진 태스크에 대해 좋은 뷰는 태스크 관련 정보를 유지하면서 관련 없는 잡음을 최소화해야 한다는 InfoMin 원칙을 특징지었습니다. 이를 바탕으로, 최적의 뷰는 이론과 실제 모두에서 태스크에 따라 다름을 보여주었습니다. 추가로, 대조 학습에서 사용된 데이터 증강을 InfoMin 관점에서 분석하고, ResNet-50을 사용한 ImageNet 선형 판독 벤치마크에서 새로운 최고 성능을 달성한 새로운 데이터 증강 세트를 제안합니다.

4 thoughts on “[Neurips 2020] What Makes for Good Views for Contrastive Learning”

김 주연 says:

07/28/2024 at 23:39

안녕하세요. 좋은 리뷰 감사합니다.

본 리뷰에서 introduction 파트에서 “좋은 view 세트는 downstream task에서 잘 수행하기 위해 필요한 최소 정보를 공유하는 것입니다.”라는 부분이 나오는데요. 저는 대체로 본 task에서 사전에 좋은 feature를 얻기 위해서 contrastive learing을 통해서 이를 수행한다고 이해했는데, 만약에 저 말에 따르면 downstream task에 따라서 좋은 view가 그때마다 다르니 그러면 그때마다 사전학습을 해야하는가?라는 생각이 들게 되었습니다. 그렇다면 조금 성능 올리자고 cost가 너무 올라가는 것이 아닌지 생각이 들었는데, 본 논문의 의도가 제 생각과 다르다면 이에 대해서 설명해주시면 감사하겠습니다..!

감사합니다.

1. 정 의철 says:
  
  08/01/2024 at 21:25
  
  안녕하세요 주연님 좋은 질문 감사합니다.
  
  contrastive learing에서는 한 이미지에서 나온 서로 다른 뷰사이의 공통된 정보를 학습하는 것입니다. 하지만 이러한 공통된 정보가 너무 많으면 모델이 모든 뷰의 차이점을 무시하고 불필요한 변형 정보를 포함 할 수 있습니다. 예를 들어서 고양이 사진을 90도, 180도 회전시킨 이미지를 사용한다고하면 원래 학습 목표는 고양이를 인식을 하는 것이고 회전된 이미지도 고양이로 인식하길 원합니다. 하지만 회전 자체는 고양이 인식에 필요하지 않은 정보이기 때문에 이러한 불필요한 정보(회전 정보)를 학습하게 되면 나중에 회전되지 않은 이미지에서 고양이를 잘 인식하지 못할 수 있습니다.
  따라서 이러한 의미에서 다운스트림 작업에 필요한 최소한의 정보를 공유해야 한다는 것입니다.
  감사합니다.
  
정 윤서 says:

07/29/2024 at 00:15

안녕하세요. 좋은 리뷰 감사합니다.

저자의 분석을 통해 InfoMin 원칙을 제안하였다고 하셨고, 이 InfoMin은의 아이디어는 representation학습 문헌에서 이전에 언급된 minimal sufficient statistics와 information bottleneck theory의 아이디어와 관련이 있다고 하였는데, 이 둘이 뭔지 설명해줄 수 잇을까요 ? ?!

감사합니다.

1. 정 의철 says:
  
  08/01/2024 at 21:28
  
  안녕하세요 윤서님 좋은 질문 감사합니다.
  Minimal Sufficient Statistics는 통계학에서 나온 개념으로 데이터를 압축하여 필요한 정보를 최대한 보존하면서도 불필요한 정보를 제거하는 방법을 말합니다
  Information Bottleneck Theory는 정보 이론에 기반을 둔 개념으로 입력 데이터에서 중요한 정보를 압축하여 출력 데이터와 관련성이 높은 정보만을 남기는 방법입니다.
  감사합니다.