[2022 CVPR] UniVIP: A Unified Framework for Self-Supervised Visual Pre-training

안녕하세요 정의철 연구원입니다. 이번에 소개할 논문은 기존의 SSL 방법들이 ImageNet과 같은 단일 중심 객체 이미지에서 성공을 거두었지만 scene과 instance 간의 상관 관계 및 scene 내의 instance의 의미적 차이는 무시해왔다는 것을 문제 삼아 단일 중심 객체 또는 non-iconic dataset에서 시각적 표현을 학습하기 위해 Unified Self supervised Visual Pre-training (UniVIP)이란 프레임워크를 제안한 논문입니다. 그럼 바로 리뷰 시작하겠습니다.

1. Introduction

자기 지도 학습(Self-Supervised Learning, SSL) 시각 표현 학습은 annotation에 의존하지 않고 중요한 특징 표현을 포착하는 것을 목표로 합니다. 최근에는 대조 학습(Contrastive Learning) 기반의 SSL이 여러 다운스트림 작업에서 좋은 결과를 보였으며, 비지도 학습과 지도 학습의 간격을 크게 좁히고 심지어 지도 학습을 능가하기도 했습니다. 이러한 최신 방법들은 인스턴스 구별(instance discrimination)이라는 사전 학습에 기반을 두고 있으며, 이는 단일 이미지의 서로 다른 뷰를 동일한 인스턴스로 간주하고 이미지 간의 차이를 학습하는 특징 표현을 학습하는 것을 목표로 합니다. 따라서 이러한 방법의 기본 가정은 사전 학습 데이터가 의미적 일관성을 가져야 한다는 것입니다. 즉, 이 가정은 ImageNet과 같은 단일 중심 객체 데이터에 크게 의존합니다. 그러나 자연 이미지에는 여러 인스턴스가 포함되는 경우가 많기 때문에 이는 현실적으로 불가능합니다. 일부 연구는 기존의 SSL 방법을 ImageNet에서 다른 데이터셋으로 확장하려 했으나, MS COCO, Places365 ,YFCC100M과 같은 데이터셋에서는 만족스러운 결과를 얻지 못했습니다.

단일 자연 이미지 내의 여러 인스턴스는 공동 출현(co-occurrence) 관계를 가지며, 보통 서로 다른 semantic 의미를 가집니다. 따라서 모델은 서로 다른 인스턴스의 의미를 구별할 수 있어야 합니다. 그러나 인스턴스 주석이 없을 때 단일 자연 이미지 내의 서로 다른 인스턴스를 구별하는 것은 여전히 어려운 문제입니다. 몇몇 지역 수준(region-level) 기반 방법은 여러 로컬 영역을 활용하여 non-iconic 데이터셋을 사용하여 모델을 사전 학습시키고 특정 다운스트림 작업에서 성공을 거두었습니다. 그러나 이러한 지역 수준 기반 방법은 장면(scene) 내의 서로 다른 인스턴스를 명시적으로 구별하지 않으며, 선형 평가 결과는 baselin보다 열등합니다. 즉, 이러한 방법들은 다목적 시각 표현을 얻을 수 없습니다. 게다가, 자연 이미지에는 장면과 장면 내의 인스턴스가 의미적 유사성을 가진다는 선행 지식이 있습니다. 현재의 SSL 방법은 이 선행 지식을 인식하지 못하고 의미적 유사성을 인코딩하지 못합니다. 이러한 문제들 때문에 이러한 방법들의 적용 범위는 제한적입니다. 효과적인 학습 패러다임을 설계하여 다목적 시각 표현을 얻는 것이 중요합니다.

이 논문에서는 단일 중심 객체 또는 non-iconic데이터셋에서 사전 학습할 수 있는 통합 자기 지도 사전 학습 프레임워크인 UniVIP를 소개합니다. 구체적으로, 저자는 먼저 Selective Search라는 비지도 인스턴스 제안 방법을 활용하여 후보 인스턴스를 생성합니다. 그런 다음 각 이미지에 대해 인스턴스를 포함한 중복 영역이 있는 두 개의 장면 뷰를 생성하여 장면 간 유사성을 최대한 보장하여 서로 다른 장면 뷰의 의미적 불일치를 효과적으로 완화합니다.

또한, 장면-인스턴스의 상관 관계를 다루기 위해 생성된 인스턴스를 그룹화하여 해당 장면 뷰의 의미를 근사하게 하고, 네트워크가 이미지 내의 다양한 인스턴스를 학습하도록 유도합니다. UniVIP에서는 중복 영역 내의 모든 후보 인스턴스 간의 최적 매칭 문제로 인스턴스 간 구별을 공식화하고, optimal transport algorithm을 사용하여 장면 내의 서로 다른 인스턴스를 구별합니다. 저자의 목표는 세 가지 항목으로 구성되며, 저자의 UniVIP에 의해 얻어진 장면과 인스턴스의 서로 다른 뷰는 그림 1(b)에 표시되어 있습니다.

저자의 프레임워크는 자연 이미지에서 다목적 표현을 학습하도록 설계되었으며, 자연 장면과 장면 내의 인스턴스 간의 의미적 유사성의 선행 지식을 충분히 활용하고, co-occurrence 인스턴스를 명시적으로 구별할 수 있습니다. 단일 중심 객체 및 non-iconic데이터셋에서의 대규모 실험은 UniVIP가 다목적 표현을 학습할 수 있음을 증명합니다. 특히, 저자의 방법은 COCO 데이터셋에서 사전 학습한 경우 ImageNet 선형 평가 프로토콜에서 최첨단 방법보다 2.3% 높은 top-1 분류 정확도를 달성했습니다. 저자의 300 에포크 UniVIP는 ImageNet에서 사전 학습한 경우 COCO 탐지 및 세그멘테이션에서 Mask R-CNN을 사용하여 1× 스케줄로 42.2 bbox mAP 및 38.2 mask mAP를 달성했으며, 인기 있는 자기 지도 객체 탐지 방법을 능가했습니다. 저자는 contribution은 다음과 같습니다.

  • 저자는 non-iconic 이미지의 랜덤 뷰에서 의미적 불일치를 효과적으로 극복하고, 어떤 이미지로도 사전 학습할 수 있는 통합 자기 지도 표현 학습 프레임워크를 제안했습니다.
  • 저자는 장면-장면 유사성, 장면-인스턴스 상관성, 인스턴스-인스턴스 구별을 동시에 활용하여 모델의 성능을 효과적으로 향상시키는 방법을 제안했습니다.
  • 광범위한 실험을 통해 저자의 방법이 효과적이고 강력한 일반화 능력을 가지고 있음을 입증했습니다. 특히, 단일 중심 객체 및 non-iconic 데이터셋에서 UniVIP로 사전 학습한 모델은 이미지 분류, 반지도 학습, 객체 탐지 및 세그멘테이션과 같은 여러 다운스트림 작업에서 이전의 최첨단 방법들을 능가했습니다

2.Method

  1. Approach

제안하는 UniVIP의 파이프라인은 그림 2에 나와 있습니다. 저자는 다목적 시각 표현을 학습하기 위해 장면 유사성, 장면-인스턴스 의미적 관계, 그리고 다른 인스턴스의 의미적 구별을 통합한 unified visual self-supervised approach를 제안합니다.

2. Preliminary

저자는 기본 자기 지도 학습 방법으로 BYOL을 선택합니다. 각 이미지 x에 대해, BYOL은 먼저 random augmentation을 통해 두 개의 뷰 x1 ∼ T1(x) and x2 ∼ T1(x)를 생성하고, 이를 각각 온라인 네트워크 fθ(x)와 타겟 네트워크 gξ(x)에 입력합니다. 두 네트워크는 각각 θ 와 ξ로 매개변수화됩니다. 온라인 네트워크와 타겟 네트워크는 동일한 아키텍처를 가진 신경망 백본과 projection 헤드를 가지고 있으며, 서로 다른 매개변수를 공유합니다. 온라인 네트워크에는 타겟 predictor가 있습니다 . fixed network fξ (x)의 매개변수 ξ는 식 (1)에 따라 온라인 네트워크의 매개변수의 지수 이동 평균에 의해 업데이트됩니다.

마지막으로, BYOL은 온라인 네트워크의 예측과 타겟 네트워크의 projected 특징 간의 코사인 유사도를 최대화하여 scene-level의 일관성을 유지합니다. 손실 함수는 식 (2)로 정의됩니다.

3. Similarity of scene-scene

의미적 일관성 가정은 선별된 사전 학습 데이터셋인 단일 중심 객체 ImageNet에서 거의 항상 만족됩니다. 그러나 이 암묵적인 가정은 non-iconic 이미지가 포함된 자연 데이터셋에 확장될 수 없습니다. non-iconic 이미지에서 불일치가 발생하는 주된 이유는 두 무작위 뷰가 서로 멀리 떨어져 있을 수 있기 때문입니다. 한편, 자연 이미지의 인스턴스 annotation은 사용할 수 없습니다. 따라서 후보 인스턴스를 확보하기 위해 저자는 비지도 인스턴스 알고리즘인 selective search을 활용하여 각 이미지에 대한 proposals을 생성합니다. 생성된 proposals의 중복성을 필터링하기 위해, 최소 크기, 종횡비 범위, 그리고 이러한 인스턴스 기반 영역 간 최대 교차-비율(IoU)을 포함한 일부 미리 정의된 임계값을 설정합니다.

자연 장면에 존재하는 인스턴스를 고려하여, 동일한 인스턴스를 포함하는 중첩된 영역으로 두 개의 장면 뷰 s1, s2를 생성합니다. 각 이미지가 K 영역을 가지도록 보장하기 위해, 중첩된 영역에서 후보 인스턴스의 수가 K보다 적으면 naive strategy로 상자를 생성합니다. naive strategy에는 최소 크기를 64 픽셀로 설정하고, 종횡비 범위를 1/3에서 3/1 사이로 설정하며, 최대 IoU 임계값을 0.5로 설정하는 것이 포함됩니다. 중첩된 영역으로 두 장면 뷰를 구성함으로써, 저자는 무작위 뷰의 의미적 불일치를 자연 이미지의 장면-장면 유사성으로 전환합니다. 특히, 두 장면 뷰를 온라인 네트워크와 타겟 네트워크에 각각 입력하고, 표현 fo1, fo2, ft1, ft2를 획득하여 BYOL을 따르는 대칭 손실을 식 (3)으로 계산합니다.

4. Correlation of scene-instance

자연 이미지는 장면과 그 안에 존재하는 인스턴스가 의미적 친화성(semantic affinity)을 가진다는 사전 지식을 가지고 있습니다. 이는 이러한 인스턴스가 장면과 관련이 있기 때문입니다. 따라서 장면과 인스턴스 간의 사전 지식을 탐구하는 것은 더 일반적인 특징 표현을 학습하는 데 유리하다고 주장할 수 있습니다. 그러나 현재의 비지도/자기 지도 학습 방법은 장면-인스턴스 간의 상관관계의 존재를 고려하지 않습니다. 비지도/자기 지도 학습 분야에서 이 상관관계를 연구하기 위해 기본적인 문제는 장면과 인스턴스 간의 의미적 친화성을 측정하는 방법입니다. 코사인 유사도의 단순함과 효과성을 고려하여, UniVIP는 코사인 유사도를 통해 장면과 여러 인스턴스 간의 의미적 친화성을 설정하려고 합니다. 구체적으로, 저자는 중첩된 영역의 각 인스턴스 ik를 96 × 96으로 크롭하고 리사이즈합니다. 여기서 k = {1, …, K}입니다. 그런 다음 저자는 K개의 인스턴스를 온라인 네트워크에 입력하여 K개의 표현 벡터 ([o1, o2, …, oK])를 얻습니다. 더 나아가 저자는 이러한 표현을 연결하고, 연결된 표현을 장면의 표현 차원으로 선형 매핑하여 최종 표현 I를 식 (4)로 얻습니다.

마지막으로, 저자는 특징 공간에서 장면 뷰 s와 인스턴스 조합의 코사인 거리를 최소화하여 의미적 친화성의 사전 지식을 학습할 수 있다고 주장합니다. 이는 식 (5)로 나타냅니다.

또한, 두 뷰의 중첩 영역이 동일한 인스턴스를 포함하고 있으므로 대칭 뷰(symmetric views)도 계산합니다. 따라서, 의미적 친화성은 식 (6)에 따라 표현될 수 있습니다.

5. Discrimination of instance-instance

앞절에서 저자는 장면과 인스턴스 간의 친화성을 증가시켰지만, 각 인스턴스에서 추출된 특징이 다른 인스턴스와 구별될 수 있는지는 보장할 수 없습니다. 또한, 대조 손실은 많은 음성 샘플을 요구하는데, non-iconic 이미지의 인스턴스 수는 제한되어 있어 이 요구를 충족시킬 수 없습니다. 따라서, 이 절에서는 인스턴스-인스턴스 간의 구별을 optimal transport problem로 공식화합니다. 여기서 먼저 optimal transport의 개념을 설명한 후, optimal transport 을 시각적 특징 표현 학습을 위한 모델 학습에 어떻게 적용하는지 소개합니다. 마지막으로, UniVIP의 학습 기능을 설정합니다.

Optimal transport

Optimal Transport(OT)의 형태는 다음과 같은 문제로 설명될 수 있습니다: M개의 공급자가 N개의 수요자에게 상품을 운송해야 한다고 가정합니다. m번째 공급자는 bm 단위의 상품을 보유하고 있으며, n번째 수요자는 an 단위의 상품이 필요합니다. 공급자 m에서 수요자 n으로 단위 상품을 운송하는 비용은 cmn으로 표시됩니다. Optimal Transport 알고리즘의 목표는 모든 공급자의 상품을 최소 운송 비용으로 수요자에게 운송하는 운송 계획 \( \tilde{Y} = \{ y_{mn} | m = 1, 2, …, M, n = 1, 2, …, N \} \)을 찾는 것입니다. 이는 식 (7)로 나타낼 수 있습니다:

OT for semantic discrimination

중첩된 영역에 있는 후보 인스턴스를 온라인 네트워크에 입력하면 특징 벡터 ([o1, o2, …, oK])가 생성되고, 각 벡터는 집합의 노드로 볼 수 있습니다. 또한, 이 인스턴스를 타겟 네트워크에 입력하여 특징 벡터 ([t1, t2, …, tK])를 획득할 수 있습니다. 식 (7)의 원래 Optimal Transport 공식에 따라, 공급자 특징 노드 (o_m)에서 수요자 노드 (t_n)으로 운송되는 단위 비용은 식 (8)로 정의됩니다. 따라서 유사한 표현을 가진 노드 쌍은 운송 비용이 적게 발생하고, 관련 없는 표현을 가진 노드 쌍은 운송 비용이 많이 발생합니다. 각 인스턴스 쌍의 유사성은 두 벡터 집합 간의 최적 매칭 비용으로 나타낼 수 있습니다.

‘[CVPR 2021]Optimal transport assignment for object detection.'[15]를 따라, Sinkhorn-Knopp이라 불리는 fast iterative solution 을 사용하여 식 (7)을 해결하고, optimal matching flows Y를 얻습니다. 그런 다음 식 (11)로 인스턴스 간의 구별을 계산할 수 있습니다. 여기서 손실은 각 인스턴스의 표현이 자신과 유사하고 다른 인스턴스와 다를 때만 최소화됩니다. 즉, 인스턴스가 다른 인스턴스와 구별될 수 있습니다.

3. Experiments

데이터셋 모델을 먼저 COCO train2017 세트에서 사전 학습합니다. 이 세트는 약 118,000개의 이미지를 포함하며, 자연스럽고 다양한 야외 장면을 포함합니다. 그 후, 더 많은 레이블이 없는 자연 데이터를 이용할 수 있는지 확인하기 위해 COCO train2017 세트와 COCO unlabeled2017 세트를 합친 “COCO+” 데이터셋에서 자가 지도 학습을 수행합니다. 마지막으로, 단일 중심 객체 데이터셋인 ImageNet에서 모델을 사전 학습하여 방법의 통합성을 검증합니다. ImageNet 학습 세트는 약 128만 개의 학습 이미지를 포함합니다.

Linear evaluation on ImageNet

COCO, COCO+, ImageNet 데이터셋에서 사전 학습한 다른 주요 알고리즘들과 성능을 비교하고 결과는 아래에 나와있습니다.

COCO 데이터셋의 경우, 저자의 모델은 60.2%의 top-1 정확도를 달성합니다. 이는 동일한 학습 에포크에서 이전 최고의 알고리즘인 ORL을 1.2% 초과하며, 더 큰 데이터셋(COCO+에서 사전 학습한 경우)에서 ORL의 성능(60.7%)에 접근합니다. 저자의 알고리즘은 더 큰 학습 데이터셋에 대한 필요성을 줄이며, 약 118,000개의 이미지로만 60.2%의 준수한 결과를 얻을 수 있습니다. 저자의 방법은 더 큰 데이터셋을 사용할 때 더욱 향상되어 COCO+에서는 63.0%의 top-1 정확도를 달성하고, ORL을 2.3% 초과합니다. 이 결과는 UniVIP가 단일 중심 객체 데이터셋에도 적용될 수 있는 통합된 프레임워크임을 강조합니다. ImageNet에서는 동일한 사전 학습 에포크에서 UniVIP는 BYOL을 2.5% 초과하며 이 결과는 UniVIP가 시각적 자가 지도 표현 학습을 위한 이미지로 사전 학습될 수 있는 통합된 방법임을 나타냅니다.

Object detection and segmentation

COCO with 1× and 2× schedule Mask R-CNN detector와 R50-FPN 을 사용하여 객체 탐지 및 세분화 실험을 수행합니다. 모든 레이어를 COCO train2017 세트에서 종단 간 fine-tuning하고 val2017(약 5,000개 이미지)에서 평가합니다. 스케줄은 1× 또는 2× 기본 설정을 따릅니다. 표 2에서 다양한 자가 지도 방법들이 다른 데이터셋에서 사전 학습한 결과를 보여줍니다.

저자의 방법이 COCO에서 사전 학습했을 때 40.8% bbox mAP(APbb)와 36.8% mask mAP(APmk)를 달성하여, ImageNet 지도 학습 모델을 각각 1.9%와 1.4% 초과하고, BYOL 결과를 각각 1.3%와 1.2% 초과하는 것을 볼 수 있습니다. 마찬가지로, COCO+ 사전 학습 UniVIP는 41.1% APbb와 37.1% APmk를 기록하며, 지도 학습 모델을 각각 2.2%와 1.7% 초과하고, BYOL 결과를 각각 1.1%와 0.9% 초과합니다. 주목할 만하게, 단일 중심 객체 ImageNet에서 사전 학습했을 때도 높은 성능을 보입니다. 저자의 방법은 지도 학습 모델보다 각각 3.3% APbb와 2.8% APmk 개선을 가져옵니다.

Comparison with current self-supervised object detection methods 저자의 방법은 또한 object detection을 위해 설계된 자기 지도 학습 모델의 성능을 초과합니다(표 4). 한편, UniVIP는 더 긴 사전 학습 에포크로 더 많은 이점을 얻습니다. 이러한 현상은 다재다능한 시각적 표현을 학습하는 것이 모델의 전이 능력을 효과적으로 향상시킬 수 있음을 나타냅니다. 비록 저자의 방법이 BYOL보다 약 35% 더 많은 계산을 요구하지만, 300 에포크의 UniVIP는 1000 에포크의 SCRL보다 더 나은 성능을 발휘합니다.

Ablation Studies

Effect of different levels

표 7에서 제안된 장면, 장면-인스턴스 및 인스턴스 수준의 효과를 보여줍니다. 표 7(a)의 결과는 MS COCO에서 BYOL 사전 학습의 성능을 재현한 것입니다. 이를 기준으로 장면 수준 사전 학습(표 7(b))은 성능을 향상시킬 수 있습니다. 또한, 장면 수준 기반으로 장면-인스턴스 수준(표 7(c)) 또는 인스턴스 수준 사전 학습(표 7(d))을 추가하면 성능이 향상되며, 세 가지 항목을 모두 추가했을 때(표 7(e)) 가장 좋은 결과를 얻을 수 있습니다.

Effect of the scene similarity 표 8(a)는 장면 유사성의 효과를 소거합니다. “no”는 UniVIP와 동일한 방법을 사용하되 두 개의 무작위 장면 뷰를 채택하여 장면 불일치를 초래합니다. 장면 유사성은 자연 이미지의 자가 지도 학습에 필요하다는 것을 알 수 있습니다.

Effect of region candidates 영역 후보의 효과를 검증하기 위해, 표 8(b)는 “none”의 기본 결과를 보여줍니다. 그 후, COCO의 “ground truth”가 사전 학습된 모델의 성능을 개발할 수 있음을 관찰합니다. 이는 인스턴스 수준 표현 학습으로 인한 이득임을 검증합니다. 더 나아가, “naive” 전략의 성능이 gt보다 약간 더 좋습니다. 실제로 COCO는 80개 클래스에 대한 주석만 포함하지만 장면 이미지는 알려지지 않은 클래스를 가지고 있습니다. naive 방법은 더 많은 카테고리가 위치한 영역을 얻을 수 있습니다. 이 경우 다양성이 부정확성을 보완할 수 있습니다. “selective search” 결과는 인스턴스 기반 영역이 성능을 효과적으로 향상시킨다는 것을 나타냅니다. 더 다양한 영역 제안 방법은 모델의 실행 가능성을 크게 높일 수 있으며, 이는 인스턴스 수준 표현 사전 학습으로 인한 이득임을 평가합니다.

Effect of the number of instance-based views 표 8(c)에 표시된 바와 같이, K가 2로 설정되었을 때 UniVIP가 이미 최신 방법 [44]을 능가함을 관찰합니다. K를 4로 증가시키면 최상의 결과를 얻을 수 있습니다. 반면, K가 증가함에 따라 성능이 약간 감소합니다. 저자는 중첩된 영역에서 4개의 후보 제안을 사용하는 것이 대부분의 장면을 만족시킬 수 있으며, 더 많은 후보가 노이즈를 유발하여 성능을 저하시킬 수 있다고 주장합니다.

Author: 정 의철

1 thought on “[2022 CVPR] UniVIP: A Unified Framework for Self-Supervised Visual Pre-training

  1. 안녕하세요 의철님 좋은 리뷰 감사합니다

    UniVIP 모델이 selective search를 사용해서 인스턴스들 간의 관계를 학습하고 서로 구별할 수 있고, Optimal Transport로 특징벡터간의 매칭 비용을 계산 함으로써 가장 매칭이 잘 되는 인스턴스를 찾는다고 이해해도 되는걸까요? 또 K가 4보다 클 때 노이즈가 왜 많이 생겨벼리는지 궁금합니다!!

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다