Self-supervised Pretraining of Visual Features in the Wild

논문소개

“Self-supervised” 를 간단하게, 이상적으로 설명하자면 무엇이 떠오르시나요?
바로 어느 이미지에든,어느 unbounded dataset에서든 배울 수 있어야 한다는 것 입니다.
해당 논문은 512 개의 GPU를 사용해 이상적인 상황처럼 random하고 uncurated 한 이미지들을 감독없이 학습하여 self-supervised의 가능성을 보였습니다. 논문의 final SEER(SElf-supERvised) 모델은 RegNetY로 B개의 데이터를 학습할 때 1.3B의 파라미터를 사용한다고 합니다. 매우 큰 모델을 매우 많은 랜덤한 데이터셋으로 감독없이 학습하는 것에 대해 실험을 한 해당 논문은 결과가 성공적이라면 앞으로 pretraining 분야에서 매우 큰 영향을 미칠것이며 많은 과정이 효율적이게 될것입니다. 해당 논문은 이러한 실험을 통해 제안하는 방법이 pretraining 기법으로써 효용성을 보였고 다양한 downstream tasks에서 Supervised ImageNet pretraing 보다 좋은 성능을 보였습니다.

방법론

우선 해당 논문에서는 모델 아키텍쳐를 1. 효율성과 작동 수준의 trade off 간 조화가 좋고 2. 모델 파라미터를 유동적으로 조절하기 쉬운 ResNet 기반의 모델을 사용하였으며, 큰 데이터를 빠르게 학습하기 위핸 SwAV를 self-supervised method로 사용하였다고 한다.

SwAV:

SwAV는 주석 없이 CNNs 모델을 학습시키는 online clustering 학습 방식이다. 이는 동일한 이미지의 다양한 변형을 같은 cluster로 학습시키면서 학습을 진행한다.

RegNetY:

data와 model 용량을 모두 증가시키는 것은 memory와 runtime 관점에서 효율적인 모델을 이용해야한다. RegNet은 이러한 목적에 부합하게 설계되어 해당 아키텍쳐를 기반으로 RegNetY를 디자인 하였다고 한다. RegNetY 는 기존 ResNet에 구조에 squeeze-and-extraction 구조를 덧붙여 ResNet의 performance를 개선했다. 모델의 디테일은 다음과 같다.

4 stage convnets의 deep (2, 7, 17, 1)
4 stage convnets의 widths (528, 1056, 2904, 7392)
총 parameter: 695.5M
8704개의 이미지를 6125ms로 작동하였으며 512개의 V100 GPU를 사용했다고 한다.

Main Results

ImageNet 에 대한 finetunning 실험. Large scale(non-EU instagram images)로 pretrain한 모델을 ImageNet에 대해 finetunning 시킨 결과를 통해, 제안하는 pretrain 방식의 효용성을 보인다.

imagenet dataset에 대한 top-1 accuracy 상능을 리포팅. 서로 다른 모델에 대해 실험하였으며 모든 파라미터 수에서 SwAV+RegNetY(SEER)가 좋은 성능을 보였다

ImageNet을 학습 시킬때의 학습 perfomance 차이이다. 모델용량이 커질 수록 ImageNet data를 단순 암기할 수 있는 가능성이 증가한다. 제안하는 Pretrained 방식이 이를 예방할 수 있음을 보여준다.

2. Low-shot learning. 논문은 제안하는 self-supervised 학습방식을 pretraining에 사용할 수 있을 뿐만 아니라 Low-shot learning 방식에서도 사용할 수 있음을 보인다.

Results on ImageNets.

low shot learning의 pretrain시 제안하는 방식과 다양한 semi-supervised, self-supervised 방식과 비교하였다. 비교군은 ImageNet데이터로 pretraining을, 제안하는 모델은 imageNet에 접근하지 않고 random data를 이용해 pretrain 하였다.

Results on Places205.

ImageNet으로 감독학습한 pretrained model을 이용하였을 때 보다, 제안하는 방식의 pretrained model을 이용하였을 때 performance가 더 높다.

3. 다양한 Downstream Task에 적용. 다양한 Downstream Task에 적용하여 그 효용을 보였다.

결론

해당 논문은 annotation이 없는 random image에 대해서 pretraining 하는것이 모델 성능에 긍정적인 영향을 끼침을 보였고, 이를 통해 데이터 측면에서 효율적인 pretraining 방식을 소개하였다.

Leave a Reply Cancel reply

질문 감사합니다. φ_db와 φ_llm을 곱하는 게 아니 더하는 등의 다양한 조합에 대해서는 논문에 따로 언급하고있지 않습니다. (Supplementary Material에도 따로 없네요)…

안녕하세요 우진님 댓글 감사합니다. 리뷰에서 말씀드렸다 싶이 예를들어 어떤 샘플이 현재 이미지 + 언어 프롬프트만 있고 2D 포즈/goal image가 없다면,…

좋은 질문 감사합니다. q–v를 각각 평가하거나 q와 여러 비디오를 한 번에 비교하는 방식은 계산적으로는 효율적이겠지만, LLM이 각 비디오를 절대적인 기준으로…

좋은 질문 감사합니다. X-CoT를 단순히 백본 모델의 오답을 고치는 '교정기' 라기보다는, 임베딩 유사도만으로는 잘 드러나지 않는 차이를 비교해 주는 보완…

안녕하세요 승현님, 좋은 리뷰 감사합니다! compatibility를 구할때 db 기반 점수와 llm 기반 점수의 곱을 사용한 이유가 llm이 가진 편향의 영향을…

Self-supervised Pretraining of Visual Features in the Wild

논문소개

방법론

Main Results

Author: 황 유진

Leave a Reply Cancel reply

Conference Deadline

NEW POST

New Comment