오늘 리뷰할 논문은 Vision-Language Models(VLM)의 Compositional Reasoning 능력을 향상시키면서 멀티모달 성능을 유지하는 방법에 대한 것입니다.
Compositional Reasoning이란 개별 요소(예: 단어, 이미지 특징 등)를 조합해 새로운 개념이나 관계를 유추하는 능력을 뜻합니다. 예를 들어, 사람은 “빨간 사과”를 학습하지 않아도 “빨간”과 “사과”라는 개념을 알고 있다면, 이 둘을 조합해 빨간 사과가 무엇을 의미하는지 자연스럽게 이해할 수 있습니다. 이렇게 조합(Composition)을 통해 새로운 개념을 추론(Reasoning)하는 능력은, 모델이 학습 데이터에 없는 새로운 조합이나 표현도 이해할 수 있게 하기 때문에 매우 중요합니다.
그러나 최근 많은 VLM이 zero-shot에서는 높은 성능을 보였으나, 복잡한 관계를 이해하는 데에는 많은 부족함이 있다고 합니다. 예를 들어, “나무 위에 고양이가 있다”와 “고양이 위에 나무가 있다”는 문장은 구성된 단어가 비슷하지만 완전히 다른 의미를 가지는데, 기존 모델은 이런 구성적 차이를 명확히 구분하지 못하는 경우가 많다고 합니다. 저자는 이러한 문제를 해결하기 위한 방법론을 제안하였습니다. 지금부터 해당 논문에 대한 리뷰 시작하겠습니다.
- Conference: EMNLP 2024
- Authors: Youngtaek Oh, Jae Won Cho, Dong-Jin Kim, In So Kweon, Junmo Kim
- Affiliation: KAIST, Sejong University, Hanyang University
- Title: Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality
- Project Page: https://ytaek-oh.github.io/fsc-clip
- Code: Github
1. Introduction
본 논문은 앞서 설명한 Vision-Language Models(VLM)이 인간처럼 멀티모달 데이터를 이해하고 조합하는 능력인 Compositional Reasoning의 한계를 개선하기 위한 방법론에 대해 소개하였습니다.
인간은 자연스럽게 이미지를 텍스트와 결합해 새로운 개념을 유추할 수 있습니다. 하지만 기존 VLM 모델들은 이미지 및 텍스트로부터 추출한 global representation에 의존하기 때문에, 텍스트와 이미지 간의 미묘한 관계나 새로운 조합을 이해하는 능력이 부족합니다. 예를 들어, “나무 위에 고양이가 있다”와 “고양이 위에 나무가 있다”는 구성 단어는 비슷하지만 완전히 다른 의미를 가지는 두 문장을 구분하지 못하기도 하죠.
VLM의 Compositional Reasoning 능력을 개선하기 위해 기존 연구에서는 학습 데이터에 Hard Negative(HN) Text를 포함하여 Fine-tuning을 수행하는 Hard Negative Loss를 제안하였습니다. 여기서 HN Tedxt란, 원본 텍스트와 매우 유사하지만 그 의미는 다른 텍스트를 의미합니다. 위에서 설명한 “고양이가 나무 위에 있다”와 “나무가 고양이 위에 있다”가 바로 HN의 대표적인 예시이죠. 이러한 HN를 학습에 사용한다면, 모델은 텍스트와 이미지 간의 미묘한 차이를 이해하고 정확한 관계를 이해할 수 있을 것이라는 것이 기존 연구의 가정이었습니다.
그러나 이런 기존의 Fine-tuning 기반 방법론은 Compositional Reasoning 능력은 올릴 수 있을지 몰라도, VLM의 Zero-shot (ZS) 그리고 Image-to-Text Retrieval (I2T Ret) 성능을 저하시키는 Trade-off 문제를 가지는 한계가 있었다고 합니다. 상단 그림 1을 보면, 보라색으로 표시된 11 Comp Avg.가 Compositional Reasoning 성능인데, 기존 방법론인 CLIP, TSVLC, DAC-LLM는 I2T Ret, Zs 과 상반되는 결과를 확인할 수 있습니다. 저자가 언급하길 이런 Trade-off 관계의 원인은 Hard Negative Loss를 활용한 Fine-tuning 기법이 원본 텍스트와 유사한 HN 텍스트를 강제로 떨어뜨려 VLM의 모델의 표현력을 오히려 손상시키기 때문이라고 합니다.
저자들은 이러한 한계를 극복하기 위해, 정밀한 representation을 사용하는 Fine-tuning 기법인 FSC-CLIP(Fine-grained Selective Calibrated CLIP)을 제안하였습니다. 이는 Hard Negative Loss의 한계를 대응하면서, Composionality와 멀티모달 성능 사이의 균형을 유지하는 데에 집중할 수 있었습니다.
2. Method
저자는 Compositionality를 개선하면서 Multi-modal 성능을 보존하기 위해, CLIP을 Fine-tuning 하는 방법인 FSC-CLIP를 제안하였습니다. FSC-CLIP은 크게 두 가지 요소로 구성됩니다: Local Hard Negative (LHN) Loss와 Selective Calibrated Regularization (SCR). 전체적인 프레임워크는 상단 그림 2에서 확인할 수 있습니다.
2.1 CLIP with Global Contrastive Loss CLIP objective
FSC-CLIP은 CLIP을 Fine-tuning하는 방법을 제안하는 방식인만큼, 우선 CLIP의 Loss를 설명드리겠습니다. (CLIP 학습 방식은 다들 아실 것 같으니, Notation 위주로 보시거나 다음 챕터로 넘어가셔도 해당 방법론을 이해하는 데에는 어려움이 없을 것 같네요)
CLIP Loss. CLIP은 이미지를 visual token V_i으로, 텍스트를 text token T_i으로 인코딩하여 멀티모달 임베딩 스페이스에서의 공통 벡터로 변환합니다. 이후, 이 global 벡터인 V_i, T_i를 Pooling 연산(ArgMax)을 통해 v_i, t_i로 변환하고 이를 기반으로 이미지와 텍스트 간의 유사도를 측정합니다. 이를 global 벡터를 사용한 유사도 S_g 연산 수식은 아래 (1)과 같고, 수식 (2)와 같은 방식으로 CLIP Loss를 계산합니다.
Hard Negative Loss. 기존 방법론은 모델의 Compositionality를 향상시키기 위해, 학습 데이터에 HN Text를 추가하였습니다. 즉, HN 텍스트와 관련된 Loss를 CLIP loss \mathcal{L}_{\text{clip}}에 추가하여, 원본 텍스트와 이미지 사이의 유사도를 극대화하는 동시에, HN 텍스트와의 유사도를 최소화하는 방식이 HN Loss입니다. 빨간색 박스로 표시한 \tilde{T}_i^k부분이 HN을 의미하며, 이를 고려한 유사도는 아래 수식 (3)과 같습니다. 또한 이 HN을 반영한 HN Loss는 아래 수식 (4) 에서 확인하실 수 있습니다.
그러나, 저자들은 기존의 global 벡터를 사용하는 HN Loss는 멀티모달 표현을 손상시켜 성능 저하를 야기한다는 점을 문제삼았습니다. 이는 HN 텍스트와 원본 텍스트의 벡터 사이를 강제로 멀어지게 만드는 과정에서 모델의 멀티모달 표현력이 저하될 가능성이 있기 때문이라고 합니다 (맨 처음 그림 1에서 HN Loss를 사용했을 때 Compositionality는 올라가지만 ZS, I2T Ret 성능이 떨어지는 이유)
2.2 Local Hard Negative (LHN) Loss
저자는 기존의 global 유사도 기반 HN Loss 한계를 해결하기 위해, 새로운 Local Hard Negative (LHN) Loss를 제안합니다. LHN Loss는 local similarity S_l(I, T)를 사용해서, 이미지의 patch와 텍스트 token 간의 보다 디테일한 관계를 학습할 수 있습니다.
LHN Loss의 핵심은 원본 텍스트와 HN 텍스트 사이의 미세한 차이를 구분하는 것입니다. 이를 위해, 원본 텍스트에 대한 Local Similarity 예측 확률 p_l을 계산하여, HN 텍스트와 원본 텍스트의 차이를 세밀하게 구분할 수 있도록 하였습니다. 즉, LHN Loss는 Local Similarity를 계산할 때, 이미지 패치와 텍스트 토큰 단위로 유사도를 계산하기 때문에, global 벡터로 유사도를 구하는 기존과 다르게 더 디테일하고 정교한 학습이 가능한 것이죠. 글로벌 HN Loss인 수식 (4)를 저자가 제안하는 Local Similarity를 반영한 LHN Loss의 수식은 아래 (5)와 같습니다,입니다.
이 때, Local Similarity를 계산할 때, 단순히 이미지 패치와 텍스트 토큰 단위로 유사도를 계산하는 것이 아닙니다. 저자는 텍스트의 각 토큰t_w에 대해 해당 토큰과 가장 관련 있는 이미지 패치 v_p들을 결합하여 텍스트 정렬 패치인 \hat{V}를 생성합니다. 이를 위해, 저자는 attention weight를 사용하였습니다.
우선 토큰-패치에 대한 Similarity map인 s_{w, p}를 계산합니다. 이제 이를 가지고 attention weight 를 계산하는데, Similarity map에 대해 Min-Max normalize를 수행하여 가중치 a_{x, p}를 계산합니다. 이에 대한 수식은 아래 (6)에서 확인할 수 있습니다.
(w, p는 각각 토큰과 패치의 개수)
이제 앞서 구한 attention weight를 이미지 패치에 적용하여 텍스트 토큰과 정렬된 이미지 패치 \hat{v}_w를 생성합니다. 수식은 아래 (7)에서 확인할 수 있습니다.
이렇게 텍스트 토큰과의 어텐션 웨이트를 적용한 이미지 패치와의 최종적은 Local Similarity는 아래 (8)과 같이 적용됩니다.
이 유사도를 사용하여 Loss를 계산한 것이 수식 (5)인 LHN Loss인 것이죠. 저자가 제안하는 LHNdms 기존의 전역 벡터로만 유사도를 구하던 방식보다 더 세밀한 표현을 제공할 수 있다는 특징을 가집니다.
2.3 Selective Calibrated Regularization (SCR)
앞서 HN텍스트가 원본 텍스트와 유사해지는 것을 HN Loss가 방해하여 멀티모달 표현력이 저하된다는 점을 문제삼았았었는데요. 저자는 이 문제를 보다 완화하기 위해, Selective Calibrated Regularization (SCR)라는 글로벌 HN Loss와 Local HN Loss 모두에 적용 가능한 보정 기법을 제안하였습니다. SCR은 2가지 요소로 구성되는데, 하나는 Focal Loss 사용이고, 나머지 하나는 Label Smoothing 입니다.
(1) Focal Loss to Target Challenging HN Texts
HN Loss가 멀티모달 표현력을 저하시키는 문제를 해결하기 위해, Focal Loss를 활용하여 학습 신호를 조정하는 방법을 제안했습니다.
Focal Loss는 원본 텍스트와 유사도가 높은 HN 텍스트(즉, 모델로 하여금 혼란을 유발할 가능성이 높은 텍스트)에 초점을 맞추도록 설계되었습니다. 유사도 예측 확률 p_i가 높은 경우 학습 신호를 줄이고, 유사도가 낮거나 학습하기 어려운 HN 텍스트에는 더 큰 가중치를 부여하는 방식이죠. 이는 Focal Loss가 가지는 특징인 confidence가 낮은 샘플에 가중치 부여하는 것과 일치하기 때문에, 학습 에너지를 효과적으로 분배하여 모델 성능 저하를 방지할 수 있었다고 합니다. 이에 대한 수식은 하단 (9)에서 확인할 수 있습니다.
(2) Label Smoothing to Calibrate the Positiveness of HN Texts.
기존 방법은 HN 텍스트를 완전히 negative샘플로 간주하여, 모든 HN 텍스트의 레이블을 0으로 설정하였습니다. 그러나 이는 HN 텍스트가 원본 텍스트와의 유사함을 고려하지 않았기에, 학습 중 모델의 표현력을 손상시킬 수 있습니다. 따라서 저자는 HN의 레이블에 0이 아닌 아주 작은 양수값을 가지는 label smoothing 기법을 적용하였습니다.
결국 soft label을 사용했다는 것인데, 이를 통해 HN Loss를 비-이진 문제로 만들어 더 안정적인 학습이 가능하다고 합니다.
2.4 Overall Training Objective
저자가 제안하는 최종 FSC-CLIP Loss는 아래와 같습니다. 바로 앞 챕터에서 설명한 SCR (focal loss, label smoothing)은 \mathcal{L}^g_{neg}, \mathcal{L}^l_{neg}에 모두 포함됩니다.
3. Experiments
Dataset
- COCO Captions
- CC-3M
- LAION-COCO
HN 생성 방식
HN 데이터셋은 아래 파이프라인을 가지는 CVPR 논문에서 생성한 데이터셋을 사용
[2023 CVPR] Teaching Structured Vision & Language Concepts to Vision & Language Models
Evaluation Setup
- Compositional Reasoning (
Comp
)- 총 11개 벤치마크를 사용하여 Compositionality의 다양한 측면을 평가: ARO, CREPE-Productivity, EqBen, ImageCoDe, SPEC, SugarCrepe, SVO Probes, VALSE, VL-Checklist, WhatsUp, Winoground.
- 멀티모달 성능 평가
- Zero-Shot Classification (
ZS
) - 이미지-텍스트 검색 (Image-Text Retrieval):
- COCO, Flickr30k, COCO-Counterfactuals 데이터셋을 사용하여 Recall@1 성능 평가
- Image-to-Text Retrieval (
I2T Ret
) - Text-to-Image Retrieval (
T2I Ret
)
- Zero-Shot Classification (
3.1 Main Results
Compositionality while Sacrificing Multi-Modal Tasks.
COCO 데이터셋에서 Fine-Tuning한 결과, CE-CLIP2는 ZS 성능이 49.9로 크게 하락했고, GNM-CLIP3는 ZS 성능은 유지했으나 Comp 점수는 아주 조금 오르는 정도였습니다. 반면 FSC-CLIP은 Comp에서 최고 성능을 기록하면서도 ZS와 I2T Ret 성능을 유지했습니다.
CC-3M과 LAION-COCO 데이터셋에서는 모든 모델이 Comp 점수는 상승했지만, ZS와 I2T Ret 점수는 Pre-trained CLIP 대비 하락했습니다. 예를 들어, NegCLIP‡은 Comp 점수는 높았으나 ZS와 I2T Ret 점수가 하락했고, DAC-LLM6는 Comp 성능은 높았지만 ZS에서 6.0, I2T Ret에서 23.1 감소. 기존 모델들이 global 표현 기반 HN Loss로 인해 성능 저하를 겪는 반면, FSC-CLIP은 global 및 local 수준의 정교한 HN Loss 설계를 통해 Comp 성능을 향상시키면서도 ZS와 I2T Ret 성능을 유지한 것을 확인하였습니다.
LoRA를 활용한 Fine-Tuning은 Comp를 54.2로 더욱 향상시키면서도 ZS 성능을 유지했으며, CC-3M 데이터셋에서도 유사한 성능을 보였습니다. 이러한 결과는 Local HN Loss와 SCR 덕분이라고 하는데, SCR의 영향은 뒤에 나올 Ablation 테이블에서 자세히 확인할 수 있습니다.
Robust Fine-tuning on Compositionality and Zero-shot Tasks
저자는 WiSE-FT를 활용해 다양한 Fine-Tuning 방법의 Comp와 ZS 성능 변화를 비교하였습니다. WiSE-FT는 Pre-trained 모델과 Fine-Tuned 모델의 가중치를 선형 보간하여 중간 모델을 생성하는 기법으로, Fine-Tuning 중 성능의 트레이드오프 관계를 평가하고 최적의 균형점을 찾을 수 있는 방식입니다. 구체적으로, Fine-Tuning 시, 모델과 Pre-trained 모델의 가중치를 0.0(Pre-trained)에서 1.0(Fine-Tuned)까지 0.1씩 보간한 결과를 보였다고 합니다. 그 결과는 아래 그림에서 확인할 수있습니다.
FSC-CLIP은 LoRA를 활용한 Fine-Tuning으로 중간 단계에서 ZS score 58과 Comp score 50을 달성하며, 다른 모델을 뛰어넘는 결과를 보였습니다. 완전 Fine-Tuning 상태에서는 Comp score에서 높은 성능을 보이면서, ZS 성능의 저하를 최소화하여 CLoVe와 CE-CLIP 대비 더 나은 균형을 유지하였다고 합니다. 반면, DAC-LLM은 ZS 성능이 크게 하락하고 Comp 점수는 단 0.5포인트 상승하는 데 그쳤습니다. FSC-CLIP은 완전 Fine-Tuning 상태에서도 ZS 점수에서 DAC-LLM을 4.9포인트 넘기며 안정적인 성능을 보였습니다. 저자가 주장하는 FT 과정에도 Compositionality와 Multi-modal 성능의 균형을 확인할 수 있는 결과인 것 같네요
3.2 Analysis
Ablation Study
이제 테이블 2 ablation study를 통해 각 요소의 영향을 확인해보겠습니다.
- row 2: LHN Loss는 단독으로 적용했을 때 멀티모달 성능(ZS, I2T Ret)를 유지했으나,
- row 3: global HN loss와과 함께 적용하면 Comp 점수는 향상되지만 ZS와 I2T Ret 점수는 감소하는 트레이드오프가 발생
이를 해결하기 위해 도입된 SCR은 Focal Loss(row 4)와 Label Smoothing(row 5)를 결합(row 6)하여 ZS, I2T Ret, T2I Ret 성능을 크게 개선할 수 있었습니다. 특히, I2T Ret score는 row 3 대비 11.3포인트 증가했고, Comp 점수의 감소는 최소화할 수 있었습니다. 또한, 글로벌 및 로컬 HN Loss 결합하면서 SCR을 적용하면(row 6), Comp와 멀티모달 성능 간의 균형을 최적화할 수 있었습니다.
Sensitivity Analysis
상단 테이블 3을 통해 각 구성요소의 가중치 변화에 따른 민감도 결과도 확인할 수 있습니다.
- Table 3a: LHN Loss 계수 λ를 증가시킬수록 Comp 점수가 개선되며 멀티모달 성능도 유지되었습니다.
- Table 3b: focal loss 계수 γ를 늘리면 멀티모달 성능 향상되지만, 너무 크게 증가할 경우, HN 텍스트의 학습 신호가 약화되어 Comp 성능 하락
- Table 3c: Label Smoothing이 멀티모달, 특히 I2T Ret에 긍정적인 영향을 미쳤지만, β 값을 지나치게 높게 설정하면 Comp 성능이 저하
Scaling Pre-training Data for Fine-tuning
상단 테이블 5에 대규모 Pre-training 데이터가 Fine-Tuning에 미치는 영향을 분석한 결과를 나타냅니다. 12.8B 샘플로 Pre-training한 CLIP 모델은 ZS 에서 63.0을 기록하며 기존 OpenAI CLIP(400M 샘플) 대비 멀티모달 성능이 향상되었습니다. Comp에서는 OpenAI CLIP와 차이가 없었습니다. Fine-Tuning에서는 NegCLIP이 멀티모달 작업 성능을 크게 저하시킨 반면, FSC-CLIP은 LoRA를 활용해 이러한 성능 저하를 방지했고, NegCLIP보다 높은 Comp 점수를 달성할 수 있었습니다.
Qualitative Counterfactual Image to Text Retrieval Results
마지막으로 상단 그림 5 정성적 결과를 보고 실험 파트 마무리 하겠습니다. 아래 그림은 COCO-Counterfactuals 데이터셋에서 세 모델(CLIP, DAC-LLM, FSC-CLIP)의 이미지-텍스트 검색 결과를 비교한 결과입니다.
각 이미지에 대해 모델이 찾은 상위 3개의 캡션이 나타난 것으로, 정답은 녹색 체크, 오답은 빨간색 X로 표시됩니다. CLIP과 DAC-LLM은 종종 오답인 캡션을 Top-1로 예측하여, Hard Negative 텍스트에 취약한 모습을 보였습니다. 반면 FSC-CLIP은 일관적으로 올바른 캡션을 1위로 검색하며, Hard Negative 텍스트가 포함된 상황에서도 뛰어난 검색 성능과 Compositionality 능력을 확인할 수 있어씁니다.
4. Limitations
논문에서는 기존 많은 연구에서 수행하는 환경인, 짧은 캡션을 중심으로 모델을 학습하고 평가하는 점이 한계라고 언급하였습니다. 짧은 캡션은 단순한 정보를 담고 있어 모델이 학습하기에는 적합하지만, 실제로는 긴 캡션에서 나타나는 복잡한 맥락과 세부적인 관계를 처리하는 데 한계가 있습니다. 예를 들어, “고양이가 의자에 앉아 있다”라는 짧은 문장은 단순하지만, “의자에 앉아 있는 고양이 옆에 작은 새가 있다” 같은 문장은 더 복잡한 관계와 세부 정보를 요구하죠.
이러한 긴 캡션은 모델이 더욱 깊이 있는 구성적 이해를 갖추기 위해 필수적이라고 합니다. 논문은 긴 캡션이 포함된 학습 및 평가 프로토콜이 필요하다는 점을 강조하며, 이는 Vision-Language 모델이 인간처럼 풍부한 맥락을 이해하는 데 도움을 줄 수 있을 것이라고 언급하며 논문을 마쳤습니다.
Local Similarity와 Focal Loss, Soft label을 사용하여 Hard Negative에 대응한 방법을 살펴보았습니다.
안녕하세요 주영님 좋은 리뷰 감사합니다.
본문의 2.3 Selective Calibrated Regularization (SCR)에서 질문이 있습니다.
(1) Focal Loss to Target Challenging HN Texts에서 유사도 예측 확률 pi를 사용해서 가중치를 부여한다고 하셨는데, 이는 신경망을 사용하는 모듈인가요? 아니면 그냥 원본 텍스트와 HN 텍스트의 코사인 유사도를 계산해 구하는 건가요?
그리고 제가 Label Smoothing을 잘 몰라서 그러는데, 이 label smoothing을 적용시키면 학습이 진행되면서 라벨 값이 변하는 건가요 아니면 고정된 상태로 학습이 되나요. 그리고 수식을 보면 HN 개수로 나누어 레이블 값을 분배하는 것 같은데, 모든 HN의 레이블은 0이 아닌 동일한 값을 가지는 건가요?
감사합니다!