1. Introduction

CLIP을 비롯한 이후의 다양한 VLM 모델들은 이미지와 텍스트를 공유된 임베딩 공간에 정렬하여 시각 정보와 언어 정보 간의 상관관계를 향상시켜 오고 있습니다. VLM은 이미지를 이미지 인코더에 통과시키고, 텍스트 인코더에는 “a photo of a [classname]”과 같은 hand-crafted input을 프롬프트 하는 방식으로 zero-shot image classification에 적용될 수 있습니다. 여기서 더 나아가, 각 클래스에 대해 LLM이 생성한 추가 description을 통합하여 텍스트를 확장하는 연구들도 진행되어 오고 있습니다. 광범위한 텍스트로 학습된 LLM이 생성한 풍부한 의미를 가진 description이, VLM의 classification 성능 향상에 도움이 될 수 있기 때문입니다.
그러나 저자들은 LLM이 생성한 description이 VLM classification에 진정으로 이점을 주는 건지 의문을 제기합니다. 예를 들어, 유사한 클래스의 경우 중복되는 description이 사용될 수 있습니다.(e.g., 참새와 앵무새는 모두 깃털이 있음) 다음으로, 보통 LLM의 description을 활용하는 기존 방법론들은 각 클래스 별로 LLM에게 가능한 많은 description을 얻은 뒤 앙상블하는 방식을 사용하는데, 이는 비용이 많이 들 뿐만 아니라 최종 결정에 어떤 description이 결정적이었는지 이해하는 것을 어렵게 만듭니다.
또 다른 문제는 구조화된 노이즈 앙상블 현상(structured noise ensembling phenomenon)입니다. 이는 LLM이 생성한 유의미한 설명 대신 “Baklava”, “a food that is 34mfqr5” 등과 같은 무작위적인 문자를 넣어도 모델의 성능이 향상되는 현상을 말합니다. 즉, 여러 개의 변형된 텍스트 프롬프트들이 마치 원본 프롬프트에 대한 test-time augmentation 역할을 하여, 노이즈가 평균화되면서 견고한 결과가 나올 수 있다는 점입니다. 이렇게 되면 성능 향상의 원인이 텍스트가 정말 유의미한 semantic 정보를 가지고 있기 때문인 건지, 아니면 단순한 노이즈 앙상블 효과 때문인지 파악하기 어렵습니다.
따라서 본 논문의 주요 contribution은 다음과 같습니다.
- VLM classification task에서의 성능 향상이 실제 의미론적 이해에서 비롯되었는지, 노이즈 앙상블 효과에서 비롯되었는지를 평가함
- VLM classification 성능을 향상시키기 위해 정확하고 의미 있으며 구별되는 클래스 description을 얻는 training-free 접근 방식 도입
- 기존 방식에 비해 향상된 성능을 보이고, VLM을 사용한 fine-grained image classification의 설명 가능성에 대한 통찰 제시
2. Related Work
Vision-language models for classification
VLM은 image classification에 활용될 수 있으며, LLM이 생성하는 description을 활용하는 대표적인 방법으로는 DCLIP, CuPL과 같은 training-free 방법론들이 있습니다. 이러한 방법들에 대해, WaffleCLIP이라는 연구에서는 클래스 이름에 text noise와 high-level concept을 증강하는 것만으로도 유사한 효과를 얻을 수 있다는 것을 보임으로써, 기존 방법론들의 많은 성능 향상이 단지 노이즈 앙상블 효과 때문이라고 주장했습니다.
Test time (noise) augmentation
Test-time augmentation은 이름 그대로 학습이 아닌 test 시에 augmentation을 적용하는 것입니다. 주어진 test input의 여러 변형된 버전들을 앙상블하여 “평활화된” 예측을 얻습니다. 즉 기존에 주어진 test input이 올바른 예측을 하는 데에 불리할지라도, 앙상블을 통해 보다 견고한 성능에 도달할 수 있습니다. 또한 입력 문자열에 다양한 노이즈를 단순히 추가하는 것만으로도 다양한 작업과 도메인에서 성능 및 견고성에 유의미한 효과를 얻을 수 있다고 합니다. 또한 클래스 당 수십만 개의 description을 앙상블하여 VLM의 classification 정확도를 개선한 연구도 있습니다. 그러나 앞서 말했듯 저자는 이러한 성능 향상이 방대한 앙상블에서 비롯된 것인지 실제 semantic 정보에서 비롯된 것인지 판단하기 어렵다는 점을 지적합니다.
3. Method
3.1. Background
VLM for Visual Classification
VLM을 이용한 visual classification은 이미지 x와 클래스 label 집합 C가 주어졌을 때 가장 높은 vision-language score를 가지는 label c를 retrieval 하여 이미지를 분류합니다. 수식으로 나타내면 아래와 같습니다.

이 vision-language score는 이미지 임베딩과 텍스트 임베딩 간의 similarity score로 일반적으로 cosine similarity입니다.

여기서 e()는 이미지 또는 텍스트 임베딩이고, t_c는 class c에 대한 텍스트입니다.
vision-language score를 정의하는 또다른 방법으로는 앙상블을 통한 방식입니다. 이는 “apple”이라는 객체가 있을 때, “green stuff”, “a round object”, “fruit of the same size as an orange”와 같이 다양한 서술에 대한 score를 평균 내는 방식입니다.

여기서 D(c)는 class c에 대한 description 집합으로, 저자들은 이를 description assignment라고 이름 붙였습니다. D(c)의 요소들은 “an image of [cls]”와 같이 순수한 텍스트 증강일 수도 있고, “a type of [LLM-generated category]”와 같이 high-level의 개념을 포함할 수도 있으며, “~ with [LLM-generated descriptions]”와 같이 상세한 설명을 포함할 수도 있습니다. 기존 방법론은 D(c)에 포함된 모든 description d가 클래스 이름 토큰 [cls]를 항상 포함한다고 합니다.
3.2. Our Approach

Classname-free descriptions
저자들은 기존 방법론들의 개선된 성능이 의미론적인 풍부함에서 비롯된 것인지 아니면 앙상블 효과에서 비롯된 것인지 파악하기 위해, D(c)의 모든 요소 중 하나의 요소만 class 이름 c를 포함하도록 하는 접근 방식을 제안합니다. 예를 들어, {“An image of apple pie.”, “crispy brown crust”, “graham cracker crust”}와 같이 집합에서 클래스 이름을 포함한 문장은 하나만 존재해야 합니다. (반면 기존 방식들에서는 {“An image of apple pie.”, “An image of apple pie with crispy brown crust”, “An image of apple pie with graham cracker crust”}와 같은 집합을 사용했습니다.)
Different weight for cls
기존 앙상블 방식은 D(c)에 포함된 모든 description d에 대한 similarity score를 평균 내어 최종 score를 계산합니다. 그러나 저자는 classname이 있는 description과 없는 description을 단순히 평균내는 것이 부적절하다고 판단하여, 이를 해결하기 위해 가중치 계수를 도입하였습니다.

위에서 d_cls는 classnaem이 포함된 description을 의미합니다. 즉 포함된 description에는 가중치 w를 적용하고, 포함되지 않은 description은 기존과 같이 평균을 적용합니다.
Selection of descriptions

- 입력 이미지 x_i가 주어지면, CLIP 모델을 사용하여 클래스 이름만으로 구성된 description을 사용하여 가장 확률이 높은 상의 k개의 예측 클래스를 선정합니다. 이 k개의 클래스 집합을 A_i라고 합니다.
- 학습 데이터셋에서 각 클래스별로 소수의 n개 이미지를 뽑고(I), 사전에 준비한 global description pool(P)와 일일이 cosine similarity를 계산하여 평균을 냅니다. 이를 통해 계산된 S는 어떤 description이 어떤 class 이미지와 유사한지를 담고 있는 look-up matrix가 됩니다.
- 예비 후보군 A_i 내에서 실제 정답 클래스 a를 나머지 헷갈리는 클래스들과 구별해야 합니다. 단순히 a와 유사도가 높은 description을 찾는 것이 아닌, a와는 유사도가 높으면서 동시에 나머지 클래스와 유사도가 낮은 설명을 찾아야 합니다. (위 Algorithm 1의 Ensure 4번째 줄에 해당)
- 이렇게 계산된 점수를 바탕으로, 가장 변별력 있는 상위 m개의 description만을 최종적으로 선별합니다.
4. Experiment
ImageNet, CUB200 등 총 7개의 벤치마크 데이터셋에서 평가되었습니다.

각 벤치마크에 걸친 성능을 위 figure 3에서 보여주고 있습니다. 특히 양상블 가중치 w_cls의 변화가 top-1 accuracy에 미치는 영향도 함께 보여주고 있습니다. LLM assignment는 LLM이 직접 할당한 description을 사용한 경우, our assignment는 저자들의 방법론으로 선택된 description을 사용한 경우, baseline clip은 클래스명만 사용한 baseline을 의미합니다. 저자들의 방법론이 일관되게 나머지 경우의 성능을 상회하며, w_cls는 대체로 0~10 부근에서 가장 좋은 성능을 보였습니다.

table 1는 다양한 description 할당 방식과 설명 pool(P) 출처에 따른 classification 성능을 비교한 결과입니다. 여기서는 w_cls와 무관하게 각 데이터셋에 대한 최고 accuracy를 보고하고 있습니다. 저자들의 방법론을 적용하여 Max #desc.를 5개로 줄인 것만으로도 성능이 향상되고 있음을 보여주고 있습니다.
5. Conclusion
VLM의 분류 성능이 단순한 노이즈 앙상블 효과가 아닌 LLM description의 의미론적인 정보 덕분에 향상될 수 있음을 보여주었습니다. VLM 임베딩 공간의 피드백을 활용하여 학습 없이 의미적으로 식별력이 높은 description만을 선별하는 방법론을 제안하여, VLM의 image classification 성능과 설명 가능성에 모두 기여한 방법론입니다.
예은님 좋은 리뷰 감사합니다.
리뷰와 관련하여 질문이 있습니다.
하나의 문장에만 class name이 포함되도록 하는 저자들의 description 할당 방식은, “의미론적 풍부함”을 보장하기 위해서인가요? 설명해 주신 내용에 따르면 description의 의미론적 풍부함과, 앙상블 중 어떤게 효과가 있는지 확인하기 위한 실험이 있을 것 같았는데, 어떤 실험이 이에 해당하는지, 저자들은 어떤 결론을 내렸는 지 설명 부탁드립니다.
안녕하세요 예은님 좋은 리뷰 감사합니다.
읽으면서 몇가지 질문이 생각나서 질문 남깁니다.
Q1. 무작위 문자를 넣어도 성능이 향상된다는 점이 정말 신기했는데요! 이러한 노이즈가 평균화 되면서 견고한 결과가 나온다고 설명해주셨는데 이 부분에 대해서 조금 더 풀어서 설명해주실 수 있나요?
Q2. 제가 의미론적 풍부함과 앙상블을 잘 이해를 못한 걸 수도 있지만 저자들이 제안한 집합 Classname-free descriptions 이 어떻게 의미론적 풍부함과 앙상블을 구별할 수 있는지 조금 더 풀어서 설명해주시면 감사하겠습니다!
감사합니다!
안녕하세요 예은님, 좋은 리뷰 감사합니다.
description selection 과정에서, 단순히 타겟 클래스의 이미지와 가장 유사도가 높은 텍스트를 고르는 것에 그치지 않고 ‘오답 후보군과의 유사도가 낮은 설명’을 찾는 로직이 새롭게(?) 추가된 것으로 보입니다. 유사도가 높은 description만 찾는 일반적인 방식과 비교했을 때 해당 로직을 추가했을 때 얼만큼 성능에 영향을 미치는지 분석한 실험이 논문에 있는지 궁금합니다.