안녕하세요. 이번 리뷰에서는 CLIP 모델에 Mixture of Expert(MoE)를 결합한 확장 연구를 소개하고자 합니다. 비록 2025 ICLR에서는 Reject된 논문이지만 모델 구조와 리뷰어들의 코멘트를 참고하여, 어떤 방식으로 개선할 수 있을지, 또 이를 Video Task에 어떻게 확장해 적용할 수 있을지 고민을 하고 있어 이 논문을 리뷰하게 되었습니다. 그럼 바로 리뷰 시작하겠습니다.
1. Introduction
CLIP 모델은 다양한 멀티모달 태스크에서 널리 활용되고 있습니다. 그러나 최근 연구들에서는 CLIP이 종종 ‘blind pair’ 문제를 야기한다고 합니다. blind pair은 겉모습은 비슷하지만 실제로는 의미가 완전히 다른 이미지 두 개를 같은 식으로 인코딩해버리는 것을 의미합니다. 이렇게 되면 사전학습된 모델의 표현력이 떨어지니 CLIP을 다른 다운스트림 태스크에 적용했을때도 정확성에 부정적인 영향을 끼칠 수 있습니다. 따라서 이러한 문제를 완화하고자 하습 데이터의 품질을 향상시키거나 모델의 크기를 늘리는 시도들이 이어졌습니다. 하지만 이 방식은 CLIP 모델을 다시 처음부터 학습시켜야 하기에 컴퓨팅 자원이나 비용이 많이 드는 문제가 있습니다. 이외에도 vision encoder 모델들을 앙상블하려는 시도도 있었지만 이는 모델을 이질적으로 만들고 파라미터의 수가 기하급수적으로 증가한다는 한계가 있습니다. 이러한 한계를 극복하기 위해, 저자는 CLIP에 Diversified Multiplet Upcycling (DMU)이라는 전략을 적용합니다. 이는 사전 학습된 dense 체크포인트를 그대로 활용하면서도, Sparse Mixture of Experts(MoE) 구조를 도입하여 모델의 용량을 효과적으로 확장하는 방식입니다.
이 방식을 통해서 저자는 적은 양의 이미지-캡션 데이터셋으로도 모델이 좋은 표현력을 가질 수 있다는 것을 실험으로 증명합니다. 특히 retrieval 태스크에서 기존 CLIP 모델의 성능을 20% 향상시켰으며 이는 기존 CLIP 모델이 처음부터 학습한 total computational cost의 2% 수준만 증가시킨 비용에 해당된다고 합니다.
저자의 Contribution을 요약하면 다음과 같습니다.
- Diversified Multiplet Upcycling(DMU)이라는 새로운 방법을 제안하여, 다단계 파인튜닝을 거쳐 얻은 FFN Experts를 활용해 CLIP 기반의 MoE 구조를 설계하고, 이를 통해 CLIP 모델을 확장할 수 있는 방법론을 제안
- 이 방식은 model-agnostic하며 새로운 데이터와 사전 학습된 CLIP 체크포인트를 활용하여 성능을 향상시키는 동시에, scratch 학습할 때 발생하는 높은 연산 비용을 줄임
- 다양한 다운스트림 태스크에서 CLIP 및 기존 방법들보다 낮은 연산 비용으로 더 높은 성능을 달성했음을 실험을 통해 입증함
2. PRELIMINARIES
MULTISTAGE CONTRASTIVE LEARNING (MCL)
MULTISTAGE CONTRASTIVE LEARNING은 입력 데이터로부터 상호 보완적인 다양한 정보를 학습하는 것을 목표로 하는 방법론입니다. 이를 위해 여러 단계의 contrastive model 을 활용합니다. 각 단계에서는 이전 단계에서 학습된 특징을 바탕으로 데이터를 군집화하고, 다음 단계에서는 동일 군집 내에서 새로운 negative sample을 선별하여 학습을 진행합니다. 이러한 방식을 통해 모델은 이전 단계에서 미처 고려하지 못했던 새로운 특징을 점진적으로 학습하게 됩니다.
예를 들어, 첫 번째 단계에서 모델이 주로 색상 정보를 기준으로 군집화를 수행했다면, 두 번째 단계에서는 동일한 색상의 이미지 그룹 내에서 질감(texture)과 같은 다른 특징을 학습합니다. 이어지는 세 번째 단계에서는 색상과 질감이 유사한 그룹 내에서 형태(shape)와 같은 또 다른 속성을 학습하는 방식입니다. 이처럼 n번의 단계를 거침으로써, 최종적으로 모델은 n개의 서로 다른 관점을 가진 contrastive model을 얻게 됩니다.
이를 수식으로 표현하면 데이터셋 X가 주어졌을 때, 첫 번째 단계에서는 인코더 f0를 학습하여 각 데이터 포인트 xi에 대한 임베딩 Z0={f0(xi)}을 얻습니다. 이 임베딩 Z0를 바탕으로 클러스터링을 수행하면 각 데이터 포인트가 속한 클러스터 정보를 담은 할당 값 Y0={y(i,0)}을 얻게 됩니다.
j번째 단계에서는 이전 단계와 유사하게 클러스터링과 contrastive learning이 이루어집니다. 이때 각 샘플 xi는 이전 0부터 j−1 단계까지의 클러스터 할당 결과들을 누적한 표현인 y^(i,j)=[y(i,0),⋯,y(i,j−1)]에 따라 그룹화됩니다. 이어지는 j번째 단계의 손실 함수는 다음과 같습니다.

여기서 y^j는 j번째 단계에서 anchor sample x의 누적 클러스터 할당을 나타내며, y^(i,j)−는 j번째 단계에서 negative sample xi−의 누적 클러스터 할당을 의미합니다. 그리고 s(⋅,⋅)는 코사인 유사도를 나타냅니다.
저자가 제안하는 Diversified Multiplet Upcycling 방법은 MCL 프레임워크를 활용하여 CLIP 모델을 파인튜닝하고, 이를 통해 MoE (Mixture of Experts) 구조를 위한 다양한 Expert 모델들을 생성합니다.
3. DIVERSIFIED MULTIPLET UPCYCLING FOR CLIP

EXPERT EXTRACTION
사전 학습된 CLIP 모델을 다단계로 파인튜닝하기 위해, 먼저 Multistage Contrastive Learning (MCL)을 활용하여 여러 개의 Feed-Forward Network (FFN) 레이어를 학습합니다. 예를 들어, 이미지 인코더가 A개의 트랜스포머 블록을, 텍스트 인코더가 B개의 트랜스포머 블록을 가진 CLIP 모델을 학습시킨다고 가정하면, 초기 CLIP 모델의 FFN 레이어들은 {E0(i)}i=1A+B로 표현할 수 있습니다. 이후, 앞서 설명드린 것처럼 초기 0단계에서는 주로 색상 정보를 학습하고, 다음 1단계에서는 색상 외에 텍스처와 같은 새로운 정보를 학습하여 {E1(i)}i=1A+B를 얻습니다. 마찬가지로 2단계에서는 FFN 레이어를 추가하고 파인튜닝하여 {E2(i)}를 얻으며, 이는 형태(shape)와 같은 추가적인 특징을 인코딩합니다. 이러한 과정을 거치면 각 FFN 레이어는 {E0(i)}, {E1(i)}, {E2(i)} 순서대로 색상, 텍스처, 형태 등의 정보를 학습하게 됩니다.
INITIALIZATION OF MIXTURE OF EXPERTS
N단계의 MCL을 통해 FFN 레이어들을 파인튜닝했다면, 이제 이 FFN들을 Mixture of Experts (MoE)의 Expert로 활용합니다. 이는 아래 수식으로 표현할 수 있습니다

여기서 R(i)(x)j는 i번째 층에서 입력 x를 받았을 때, j번째 Expert의 가중치를 의미합니다. 이러한 구조를 통해 CLIP-MoE 모델이 구축되며, 각 트랜스포머 블록 내의 서로 다른 Expert들이 입력의 다양한 측면을 특화하여 처리할 수 있게 됩니다.
CONTINUOUS FINE-TUNING OF CLIP-MOE
MCL을 통해 FFN 레이어를 학습한 후에는 나머지 파라미터는 고정하고 라우터(router)만을 추가로 파인튜닝합니다. 이때 손실 함수는 기본적인 contrastive learning loss에 더해, Expert 간의 부하를 균등하게 분산시키기 위한 auxiliary load balancing loss를 함께 사용합니다. Expert의 수가 총 N + 1개이고, T개의 토큰으로 이루어진 배치 B가 주어졌을 때, i번째 트랜스포머 블록의 load balancing loss은 다음과 같이 정의됩니다

- fj : Expert j에 할당된 토큰의 비율
- p(x) : 라우터 네트워크의 출력
- Pj : 배치 내 각 토큰이 Expert j로 라우팅될 확률의 평균
이 auxiliary load balancing loss는 Expert들이 균등하게 활용되도록 유도할 뿐만 아니라, 라우터가 특정 토큰에 지나치게 높은 확신을 갖거나, 다른 토큰에 대해서는 낮은 확신을 보이는 현상을 방지하는 역할을 합니다. 따라서 최종 Loss는 contrastive learning loss와 auxiliary load balancing loss의 합으로 계산됩니다.

4. EXPERIMENTS
실험에서 학습 데이터는 Recap-DataComp-1M과 ShareGPT4V라는 이미지-텍스트 데이터셋 두 개를 사용했고, 제안하는 모델의 성능을 기존 파인튜닝, Sparse Upcycling, Long-CLIP, LLaVA-1.5와 비교했습니다.
Zero-Shot Image-Text Retrieval

먼저, CLIP-MoE의 Zero-Shot 이미지-텍스트 검색(Image-Text Retrieval) 성능 결과를 살펴보겠습니다. Recap-DataComp-1M과 ShareGPT4V는 일반 웹 기반 데이터셋보다 품질이 높고, 평균 캡션 길이도 더 길기 때문에, Direct Fine-Tuning, Sparse Upcycling, 그리고 CLIP-MoE는 COCO I2T, COCO T2I, Flickr T2I 등 대부분의 태스크에서 기존 OpenAI CLIP 모델보다 우수한 성능을 보였습니다. 다만, Flickr I2T 태스크에서는 Sparse Upcycling과 Direct Fine-Tuning이 Recap-DC 데이터셋에서 성능 저하를 나타냈으며, 결과적으로 Sparse Upcycling은 Direct Fine-Tuning보다 딱히 큰 차별점을 보여주진 못했습니다
한편, Long-CLIP은 명확히 Direct Fine-Tuning 및 Sparse Upcycling보다 더 뛰어난 성능을 보였지만, 이미지당 캡션이 두 개 필요하다는 구조적인 조건 때문에 Recap-DataComp엔 적용하기가 힘듭니다. 반면, 제안된 CLIP-MoE는 Recap-DataComp와 ShareGPT4V 양쪽 데이터셋 모두에서 모든 베이스라인 기법보다 더 나은 성능을 보여주었습니다.
Performance in LLaVA-1.5

CLIP-MoE를 LLaVA-1.5의 비전 인코더로 적용했을 때의 성능도 함께 평가했습니다. 결과는 표 2에 제시되어 있으며, 저자는 여러 다운스트림 태스크에서 성능이 향상되었다고 언급하고 있습니다. 실제로 일부 태스크에서는 기존 대비 성능 개선이 관찰되긴 했지만, 전반적으로는 눈에 띌 만큼의 뚜렷한 향상이라고 보긴 어려운 것 같습니다. 다만, CLIP-MoE로 비전 인코더를 대체한 이후에도 기존 LLaVA-1.5와 유사한 성능을 유지했다는 점에서, 구조적인 확장성과 표현력 측면에서 참고할 만한 결과인 것 같습니다.
Zero-Shot Image Classification
추가로, ImageNet, ImageNet-O, ImageNet-V2, CIFAR-10, CIFAR-100 등 분류 데이터셋에서도 성능을 평가하였으며 결과는 아래 표 3에 나와 있습니다.

이 실험 결과에서는 저자가 제안한 CLIP-MoE 모델의 성능이 저자가 의도한 효과를 실질적으로 구현하지 못한 것으로 보입니다. 저자는 CLIP-MoE가 다양한 표현을 추출할 수 있도록 MCL 기반으로 학습된 전문가(FFN)들을 조합해, 기존 CLIP 구조보다 더 풍부하고 정교한 정보를 학습한다고 강조합니다. 그러나 정작 ImageNet 계열 데이터셋과 같은 분류 작업에서의 Zero-Shot 성능은 기존 OpenAI CLIP 보다 낮은 결과를 보여주고 있습니다. CIFAR 데이터셋에서는 약간의 성능 향상이 나타났지만, 전반적으로 봤을 때 범용적인 모델로 사용하기에는 설득력이 부족한 실험 결과라고 생각됩니다.
전체적으로 봤을 때, CLIP-MoE는 이론적으로 흥미로운 구조를 제안하고 있음에도 불구하고, 실험 결과에서는 다소 아쉬운 면을 보였습니다. 실험 설정이나 다양한 태스크 및 데이터셋을 활용한 검증이 함께 이루어졌다면, 더욱 설득력 있는 연구가 되었을 텐데, 그 점에서 다소 아쉬움이 남는 논문인 것 같습니다.
정의철 연구원님. 좋은 리뷰 감사합니다. experiment 부분의 LLaVA-1.5에 궁금한 점이 있는데, 성능 평가 기준에서 MME, POPE, MMBench가 어떻게 성능이 측정되는것인지 궁금합니다. 간단한게 알려주시면 감사하겠습니다.
안녕하세요 재연님 질문 감사합니다.
MME는 멀티모달 모델의 성능을 평가하는 방식으로, 모델이 얼마나 잘 결합된 정보를 처리할 수 있는지 평가하는 기준이고, POPE는 사전 학습된 인코더를 평가하는 방식으로, 사전 학습된 모델이 얼마나 잘 일반화되고 성능을 나타내는지 평가합니다. MMBench는 멀티모달 벤치마크로, 여러 데이터 유형을 동시에 평가하여 멀티모달 모델의 종합적인 성능을 측정합니다.
감사합니다.