[2023 ICLR] WHEN AND WHY VISION-LANGUAGE MODELS BE- HAVE LIKE BAGS-OF-WORDS, AND WHAT TO DO ABOUT IT?

안녕하세요 정의철 연구원입니다. 이번에 소개할 논문은 VLMs들이 단어의 순서나 관계에 대해 민감하지 않음을 문제 삼아 분석한 논문입니다. 최근 많은 비전-언어 모델(VLMs)이 다양한 테스크에 활용되고 있지만, 이들이 객체와 속성 간의 구성적 관계를 얼마나 잘 이해하는지는 명확하지 않습니다. 이에 따라, 논문에서는 ARO(Attribution, Relation, and Order)라는 벤치마크를 새롭게 제안하여,
VLMs가 속성, 관계, 순서를 얼마나 잘 파악하는지를 평가한 논문이라고 할 수 있겠습니다. 그럼 바로 리뷰 시작하겠습니다.

1. Introduction

비전-언어 모델(VLMs)은 많은 다운스트림 태스크와 벤치마크에서 사용이 되고 있습니다. 하지만 이러한 벤치마크에서의 성능이 텍스트나 이미지에 대한 구성적 이해를 나타내는지는 불분명합니다. 예를 들어, CLIP은 “the horse is eating the grass”와 “the grass is eating the horse”를 구분할 수 있을까요?

natural scenes은 복잡하며, 많은 객체와 속성이 서로 관계를 이루며 구성됩니다. 객체, 속성, 관계의 구성적 표현을 테스트하려는 연구도 있었지만 이러한 연구들은 작은 수의 hand-crafted examples에 기반하고 있으며, 다른 종류의 지식 유형을 함께 테스트합니다. 이는 관계 및 속성 지식의 역할을 분리해서 평가하기 어렵게 하고, 구성의 세부 유형에 대해 모델이 얼마나 잘 처리하는지를 정량화하는 데 부족함이 있습니다.

이에 따라 저자는 VLMs의 attribution, relation, order understanding(속성, 관계, 순서 이해)를 평가하기 위한 벤치마크를 제안합니다 이 벤치마크를 사용하여 저자는 많은 모델이 단순한 compositional understanding(구성적 이해)를 요구하는 작업에서조차 무작위 수준 이상의 성능을 내지 못하는 모습을 보입니다.

많은 VLM은 복잡한 장면과 문장의 다양한 구성 구조를 가진 캡션이 포함된 대규모 데이터셋에서 사전 학습 및 평가됩니다. 그러나 이러한 데이터셋에서의 학습만으로는 구성적 이해의 부족 문제를 해결하지 못했으며, 기존 데이터셋에서의 평가도 이러한 결함을 드러내지 못했습니다. 최근 VLM 연구에서는 주로 이미지-텍스트의 contrastive learning을 통해 사전학습시킵니다. 저자는 contrastive pretraining 기법을 분석하고 이에 대한 한계점을 지적합니다. 또한 저자는 이러한 모델이 어떻게 평가되고 학습되는지 분석하는 실험을 제안해 근본적인 문제를 이해하려 합니다.

저자의 Contribution은 다음과 같이 정리할 수 있습니다.

1. Introducing the Attribution, Relation, and Order benchmark (ARO) for fine-grained evalu- ation of VLMs’ relation, attribution, and order understanding

복잡한 natural scenes에서 객체의 속성 및 관계 이해를 테스트하기 위한 Visual Genome Attributions 및 Visual Genome Relations와, 캡션의 올바른 순서를 식별하는 모델의 능력을 테스트하기 위한 COCO Order 및 Flickr30k Order를 제안. 이를 통해 최신 VLM이 “Right” 및 “Behind”와 같은 간단한 관계를 표현하지 못하고, ” the black jacket and the blue sky”과 “the blue jacket and the black sky ” 간의 속성 차이를 표현하지 못하며, 올바른 캡션과 순서가 뒤바뀐 캡션의 차이를 표현하지 못한다는 것을 보여줍니다. 저자는 모델이 가장 자주 이해하지 못하는 속성 및 관계의 유형에 대한 분석 결과를 제공합니다.

2. A critique of retrieval and contrastive pretraining

VLMs가 구성적 이해가 부족한데도 왜 많은 이전 평가에서 문제가 드러나지 않았는지에 대한 설명을 제공합니다. 기존 retrieval 데이터셋은 복잡한 장면과 다양한 구성 구조를 가진 captions으로 구성되어 있습니다. 그러나 많은 모델들은 캡션이나 이미지에서 순서 및 구성 요소를 제거해도 retrieval에서 좋은 성능을 발휘할 수 있습니다. 따라서 구성적 결함이 있는 모델도 표준 평가에서 좋은 성과를 낼 수 있습니다. 이는 standard retrieval 작업이 모델의 구성적 이해를 평가하는 데 한계가 있음을 나타내며, 저자가 제안하는 포괄적인 ARO 벤치마크의 필요성을 강조합니다. contrastive pretraining은 retrieval을 최적화하는데 사용이되는데 이는 모델이 구성적 정보를 배울 필요가 별로 없기 때문에, VLMs은 이런 정보를 굳이 학습하려고 하지 않는다라고 주장하고 있습니다. 이는 모델이 복잡한 구조를 이해하기보다는 간단히 성능을 높이는 방향으로 학습한다는 것을 의미합니다. 때문에 저자는 모델이 구성 정보를 학습하지 않고도 잘 수행할 수 있음을 보여주고, 구성 정보를 학습하지 않는 것이 학습에 있어 valid shortcut strategy라고 주장합니다.

3. Composition-aware hard negatives can go a long way

저자는 위 문제에 대한 간단한 해결책으로 mining of composition-aware hard negatives을 제안합니다. 이를 간단하게 요약하면 ,먼저 각 배치에 가장 가까운 이웃 이미지로 구성된 하드 네거티브를 도입하여 모델이 매우 유사한 장면 간의 세부 차이를 표현하도록합니다. 다음으로, 단어 순서가 변경된 실제 캡션으로 구성된 하드 네거티브 캡션을 추가하여 모델이 올바른 순서와 잘못된 순서를 구별하도록 합니다. 결과적으로 이러한 간단한 수정 방법이 속성 및 관계 이해에서 모델의 성능을 크게 향상시킨다는 것을 보여줍니다.

2. ATTRIBUTION, RELATION, AND ORDER (ARO) BENCHMARK: WHEN DO MODELS BEHAVE LIKE A BAG-OF-WORDS?

인간은 관계에 따라 다양한 객체들이 포함된 natural scenes을 쉽게 분석할 수 있지만, 기계가 이러한 장면의 복잡성을 이해할 수 있는지는 불확실합니다. 이를 위해 모델은 객체, 객체의 속성, 그리고 객체들 간의 관계를 정확히 표현할 수 있어야 합니다. 최근에서야 VLMs가 이러한 정보를 얼마나 잘 이해하는지 조사되기 시작했습니다. 2022년 CVPR에 발표된 “Winoground: Probing vision and language models for visio-linguistic compositionality.” 논문은 Winoground라는 데이터셋을 제안했으며, 이 데이터셋은 VLMs의 compositional 능력과 pragmatic understanding의 부족을 보여줍니다. 이 데이터셋은 높은 퀄리티의 이미지로 구성되어있지만 상대적으로 소규모이며, 400개의 테스트 예제로 relation, pragmatics, world knowledge을 다루기 때문에 세밀한 관계 및 속성 능력에 대해 통계적으로 유의미한 결과를 도출하기 어렵습니다. 다른 연구에서는 Winoground가 compositionality 이상의 상식적 추론이나 world knowledge를 구성해야한다고 지적합니다. 이에따라 저자는 VLMs의 관계, 속성, 순서 이해 능력을 세밀하게 평가할 수 있는 대규모 데이터셋을 소개합니다.

2.1 NEW BENCHMARKS FOR ASSESSING RELATIONAL AND ATTRIBUTIVE UNDERSTANDING

저자는 Visual Genome (VG)과 GQA annotation를 기반으로 관계 및 속성 이해를 평가하기 위한 두 가지 새로운 데이터셋을 생성합니다:

Visual Genome Relation: 이미지와 X 관계 Y 형식의 구성 관계가 주어졌을 때 모델이 올바른 순서를 선택할 수 있는지 테스트합니다. 예를 들어, “the dog is behind the tree’ 와 “the tree is behind the dog” 와 같은 전치사 관계와 “the horse is eating the grass” 와 “the grass is eating the horse” 와 같은 동사 관계를 비교합니다.
Visual Genome Attribution: 객체에 적절히 속성을 부여할 수 있는지를 테스트합니다. 예를 들어, “the crouched cat and the open door” 와 “the open cat and the crouched door”. 을 구분할 수 있는지를 평가합니다.

저자는 ‘sitting on’, ‘eating’, ‘inside’, ‘below’를 포함한 48개의 관계에서 총 23,937개의 테스트 예제를 추출하였으며, ‘gray vs wood’, ‘open vs white’, ‘small vs brown’ 등 117개의 속성 쌍에서 총 28,748개의 테스트 예제를 추출했습니다. 데이터셋의 생성과정은 Visual Genome에서 관계나 속성의 구성 객체들을 찾아 가장 작은 bounding box를 추출한 뒤, 이를 올바른 관계/속성 설명과 순서가 바뀐 설명과 함께 생성합니다. 각 테스트 예제는 이미지, 올바른 캡션, 순서가 바뀐 캡션으로 구성됩니다. 각 테스트 예제에서 모델이 두 선택지 중 올바른 캡션을 식별할 수 있는지를 평가하며, chance level 성능은 50%입니다.

2.2 NEW BENCHMARKS FOR ASSESSING ORDER SENSITIVITY

Visual Genome Relation과 Visual Genome Attribution은 속성과 관계와 관련된 순서와 조합성을 이해하는 모델의 능력을 평가합니다. 하지만 저자는 여기서 더 나아가, 모델이 단순히 속성과 관계뿐만 아니라 단어 순서 자체를 얼마나 잘 이해하는지도 확인하고 싶어 합니다. 즉, 모델이 단어 순서의 중요성을 잘 이해해서 올바른 순서를 선호하는지, 아니면 단순히 순서에 무관심하게 모든 문장을 비슷하게 처리해버리는지를 테스트하려는 것입니다. 이를 통해, 모델이 문장의 순서를 신경 쓰지 않는 문제가 있는지 확인하고자 하는 것이 목표입니다. 이를 위해 COCO Order와 Flickr30k Order를 생성합니다. 이 데이터셋을 생성하기 위해, 저자는 사전 연구를 따라 네 가지 변형을 사용하여 문장을 생성합니다.

2.3 EVALUATING VLMS ON ARO

저자는 CLIP, BLIP, Flava, X-VLM 모델을 사용하여 평가합니다.

Models exhibit deficiencies in compositional understanding: 그림 1에서 저자는 Visual Genome Relation 및 Attribution 평가에서 모델의 성능을 제시합니다. 관계 테스트에서 대부분의 모델은 무작위 수준 또는 그 이하의 성능을 보이며, 관계 이해에 심각한 결함이 있음을 나타냅니다. 예를 들어, BLIP는 위치 관계를 이해하는 데 비교적 정확하지만, ‘ eating ‘ 또는 ‘ watching’와 같은 동사에서는 성능이 거의 무작위 수준입니다. CLIP은 일반적으로 위치 관계에서도 무작위 수준의 성능을 보입니다.

속성 테스트에서는 BLIP(88%)와 XLVM(87%)은 좋은 성능을 보였습니다. 하지만 CLIP는 62%로 여전히 무작위 수준에 가깝습니다. Flava는 속성에서는 73%의 괜찮은 성능을 보였지만, 관계 테스트에서는 25%로 무작위 수준 이하였습니다. 전반적으로, VLMs은 관계를 이해하는 데 한계를 보이는 것을 확인할 수 있습니다.

Models have little to no preference toward correctly formed sentences: 그림 1에서 COCO/Flickr30k 순서 작업과 테스트된 VLMs의 성능을 제시합니다. 이미지가 주어졌을 때, VLM은 원래 캡션과 네 가지 변형 캡션 중 올바른 캡션을 선택해야 하며, 무작위 수준의 성능은 20%입니다. 변형 예시는 Table 1에 나와있습니다. 저자는 다양한 캡션 변형에 대한 무작위성을 고려하여 5개의 다른 시드로 실험을 반복하고 평균 성능을 리포팅합니다.

전반적으로, 모델들은 올바른 순서에 대해 서로 다른 성능을 보입니다. 예를 들어, BLIP는 이전 테스크에서는 CLIP에 비해 상대적으로 좋은 성능을 보였지만, 여기서는 성능이 무작위 수준에 훨씬 가까워졌습니다. 마찬가지로, Flava는 Attribution 테스크에서는 좋은 성능을 보였지만, COCO와 Flickr30k Order 테스크에서는 성능이 무작위 수준 이하로 떨어졌습니다.

Connection to prior evaluations with text-condition image generation : 저자는 CLIP이 관계 내 구성 요소의 올바른 순서를 식별할 수 없다는 것을 관찰했습니다. 이는 CLIP이 단어의 순서를 잘 인코딩하지 못한다고 해석할 수 있습니다. 한편, Imagen이라는 구글이 만든 모델은 compositional 관계를 테스트할 때 더 나은 결과를 보여준다고 합니다. 더 나은 결과를 보이는 이유는 T5라는 언어 모델을 텍스트 인코더로 사용하기 때문일 가능성이 있다고 봅니다. 결과적으로, 언어 모델(LM) 기반의 기술을 비전-언어 모델(VLM)에 적용하면 구성적 이해 능력을 더 높일 가능성이 있다고 저자는 주장합니다.

3 WHY DO MODELS BEHAVE LIKE BAG-OF-WORDS? A CRITIQUE OF RETRIEVAL AND CONTRASTIVE PRETRAINING

이 섹션에서는 왜 모델들이 단순히 단어들의 모음처럼(BAG-OF-WORDS) 작동하는지 분석합니다. VLMs은 구성적 이해(Compositionality)와 순서 이해(Ordering) 능력이 부족하지만, 이전 평가 방식에서는 이런 문제가 잘 드러나지 않았습니다. 이는 대부분의 평가가 이미지-텍스트 검색(Image-to-Text Retrieval)이라는 테스크를 중심으로 이루어졌기 때문입니다. 이 테스크에서 VLMs는 높은 성능을 꾸준히 보여왔으나, 이는 모델이 텍스트와 이미지를 단순히 비슷하기만 해도 좋은 결과를 낼 수 있기 때문입니다. 다시 말해, 텍스트의 순서나 구성적 정보를 활용하지 않아도 검색 작업에서 높은 점수를 얻을 수 있었던 것입니다. 이로 인해, 모델의 구성적 이해와 순서 처리의 부족함이 가려졌고, 대규모 데이터셋을 사용한 대조 학습(Contrastive Pretraining) 방식이 모델이 구성적 정보와 순서를 학습할 동기를 없앨 수도 있다고 주장하고 있습니다

3.1 LIMITATIONS OF RETRIEVAL AS AN EVALUATION

앞에서 말했듯이 기존의 검색 데이터셋은 복잡한 장면과 자세한 설명을 포함하지만, 모델이 이러한 작업에서 좋은 성능을 내기 위해 얼마나 복잡한 정보를 이해해야 하는지는 명확하지 않습니다. 특히, 대규모 검색 테스크에서 모델이 조합적(compositional) 정보를 활용해야만 좋은 성과를 낼 수 있는지도 불분명합니다.

이를 분석하기 위해, 저자는 데이터셋을 수정한 평가 방식을 제안합니다. 먼저, 기존 데이터셋에서 순서와 구성에 대한 단서를 제거하는 방식으로 증강(augmentation)을 진행합니다. 이후, 이러한 수정된 데이터셋을 활용해 모델을 평가하여, 이러한 단서 없이도 높은 성과를 내는 것이 가능한지를 탐구합니다.

이 연구에서는 COCO와 Flickr30k를 분석합니다. 실험은 COCO의 5,000개 이미지와 Flickr30k의 1,000개 이미지로 구성된 테스트 데이터에서 수행되었으며, 성능은 Recall@1과 Recall@5로 측정합니다. 연구의 목표는 현재의 텍스트-이미지 검색 데이터셋에서 높은 성능을 내기 위해 모델이 순서 정보나 구성적 이해(Compositional Understanding)를 필요로 하는지를 파악하는 것입니다. 이를 위해 기존 데이터셋을 확장한 두 가지 실험 환경을 설계했으며, 이에 대한 세부 사항은 Figure 2에 나와있습니다.

1. Perturbing the order and composition information in the captions: 먼저 캡션의 조합적 정보가 필요한지 이해하기 위해 이를 제거하고 모델이 잘 예측할 수 있는지를 테스트합니다. 이 경우, Table 1에 나와있는 방식을 사용하여 캡션의 단어들을 무작위로 섞습니다.

2. Perturbing the order and composition information in the images: 캡션과 유사하게, 모델이 이미지 내 조합 정보를 사용해야 하는지 이해하기 위해 이러한 정보 없이 모델을 테스트합니다. 먼저 이미지를 패치로 나누어 이 패치들을 섞는 전략을 사용합니다. 예를 들어, 이미지를 9개의 동일한 크기의 패치로 나눈 다음, 이러한 패치를 섞어 새로운 이미지를 형성합니다. 저자는 이미지를 9개의 패치로 나누어 섞는 방법뿐만 아니라 이미지를 4개의 같은 크기의 행으로 나누기, 이미지를 4개의 같은 크기의 열로 나누는 방법으로도 실험을 진행합니다.

Models can achieve high performance even when order information is inaccessible: 그림 2에서 저자는 증강 방식에 따른 모델들의 retrieval 성능을 보여줍니다. 주목할 점은, 증강 방식에서 대부분의 모델이 캡션이나 이미지가 변형된 상태에서도 검색 작업에서 약간의 성능 저하만 겪는다는 것입니다. 즉, 이미지나 캡션의 순서나 조합이 바뀌어도 모델은 여전히 높은 성능을 유지할 수 있습니다. 이러한 결과는 VLMs들이 조합 구조를 활용하지 않고도 retrieval 테스크에서 높은 성능을 얻을 수 있음을 보여줍니다.

3.2 LIMITATIONS OF RETRIEVAL AND CONTRASTIVE PRETRAINING AS AN OBJECTIVE

왜 이러한 결과가 나타나는지 이해하기 위해 저자는 VLMs의 학습 과정을 탐구해서 문제점을 찾습니다. 대부분의 최첨단 VLM들은 Contrastive Loss를 사용하여 대규모 사전 학습 데이터셋에서 학습됩니다. 저자는 조합적 이해 부족이 모델이 학습되는 방식에 기인할 수 있다고 가정합니다. 대조 학습의 목표는 이미지를 보고 맞는 텍스트를 찾는 것입니다. 하지만 이 과정에서 모델이 이미지나 텍스트의 순서와 구조를 정확히 이해할 필요가 없습니다. 또한 데이터셋의 관점에서 분석하면 기존의 대규모 학습 데이터셋은 다양한 이미지와 텍스트를 포함하지만, 비슷한 단어를 포함하고 구분이 필요한 이미지들이 많지는 않습니다. 즉, 모델이 순서나 구성을 고려하지 않고도 단어만 맞추는 방식으로 쉽게 정답을 맞출 수 있습니다. 결론적으로 모델은 가능한 한 빠르고 쉽게 문제를 푸는 지름길(Shortcut)을 찾는 경향이 있습니다. 따라서 순서와 구성 정보를 제대로 학습시키려면, 데이터셋을 더 정교하게 설계하거나 새로운 알고리즘을 도입하는 것이 필요합니다.

4. A SIMPLE FIX: COMPOSITION-AWARE HARD NEGATIVES

이 섹션에서는 위의 분석 결과를 바탕으로 발견된 문제를 해결하기 위해 CLIP의 대조 학습 목표를 확장하는 하드 네거티브(HARD NEGATIVES)를 제안합니다.

1. Generation of negative captions: 각 이미지-캡션 쌍에 대해 다양한 언어적 요소를 바꿔서 네거티브 캡션을 생성합니다. 예를 들어, 명사구, 명사, 형용사, 부사, 동사구를 교체합니다. “The horse is eating the grass and the zebra is drinking the water”이라는 캡션은 “The zebra is eating the grass and the horse is drinking the water” (명사 교체) 또는 “The horse is drinking the grass and the zebra is eating the water” (동사구 교체)로 바뀝니다.

2. Sampling strong alternative images: 배치에 있는 이미지에 alternatives 이미지를 생성하기 위해 CLIP을 사용해 모든 이미지 간 쌍별 유사도를 계산합니다. 훈련 중에 배치의 각 이미지에 대해 가장 가까운 K=3개의 이웃 중 하나를 alternative 이미지로 샘플링합니다. 이렇게 샘플링된 alternative 이미지, 해당 캡션과 네거티브 캡션를 배치에 추가합니다.

composition-aware mining of hard negatives을 위해, CLIP의 학습 방식을 간단히 수정합니다. Figure 3에서 이 학습 방식을 시각적으로 확인할 수 있습니다. 기존 방식은 이미지 배치(IN)와 캡션 배치(TN)로 짝을 지어 학습을 진행하였습니다. 여기에 부정 샘플을 추가 하여 이미지와 맞지 않는 부정 캡션(T−N)을 생성합니다. 이후 부정 캡션(T−N)과 원래 캡션(TN)을 합쳐서 T ~2N이라는 새로운 캡션 배치를 만듭니다. 이제 이미지 배치(IN)와 확장된 캡션 배치(T ~2N) 간의 유사도 행렬(S ̃)을 계산합니다. 이 행렬은 이미지와 모든 캡션 사이의 유사도를 나타냅니다. 손실(loss) 계산에 있어서, 원래 CLIP 방식에서는 이미지-캡션 쌍이 맞는 경우, 맞지 않는 경우를 모두 활용해 손실을 계산했습니다. 하지만, 이 방법에서는 부정 캡션에 대해서는 이미지와의 유사도 손실을 계산하지 않고 해당 부분은 무시하고 학습합니다

Evaluation : 모델을 4가지 order 및 composition-sensitive 테스크에서 평가하고, CIFAR10/100 및 ImageNet과 같은 다운스트림 테스크에서도 평가했습니다. 결과적으로 저자가 제안한NegCLIP은 기존 테스크에서 성능 저하 없이 VG-Relation에서 63%에서 81%로, VG-Attribution에서 62%에서 71%로 성능을 향상시켰습니다. COCOOrder는 46%에서 86%로, Flickr30k Order는 59%에서 91%로 개선되었습니다.

결론적으로 NegCLIP은 다운스트림 테스크에서 성능을 잃지 않으면서도 composition-sensitive 테스크에서 상당한 성능 향상을 보였습니다. 이 실험은 대조 학습을 위한 알고리즘적 개선이 데이터셋 규모를 단순히 키우는 것보다 효율적일 수 있음을 보여줍니다.

5. CONCLUSION

이 연구는 VLM(Visual-Language Models)의 구성 및 순서 인식 능력을 평가하고, 이를 통해 모델이 관계 및 순서 이해에 어려움을 겪는다는 점을 보여줍니다.
모델은 순서 및 구성 정보를 학습하지 않고도 cross-modal retrieval에서 높은 성능을 발휘할 수 있으며,이는 모델이 학습될 때 이미지와 텍스트가 잘 맞는지 찾는데 집중해서 훈련되기 때문입니다. 즉, 모델은 이미지를 보고 어떤 텍스트와 연결되는지를 찾는 데 최적화되어 있어서, 텍스트의 순서나 구성 같은 세부적인 정보를 꼭 이해하지 않아도 검색 작업에서 높은 성과를 낼 수 있습니다.
이에 대한 해결책으로 composition-aware hard negative mining을 도입하여 모델의 구성 및 순서 이해 능력을 개선했습니다.
또한, 이 연구는 VLM의 성능 평가에서 세밀한 검토의 중요성을 강조하며, 향후에는 다양한 사전 학습 목표와 구성 이해 간의 상호작용을 연구하는 방향을 제시합니다.

3 thoughts on “[2023 ICLR] WHEN AND WHY VISION-LANGUAGE MODELS BE- HAVE LIKE BAGS-OF-WORDS, AND WHAT TO DO ABOUT IT?”

이 상인 says:

01/06/2025 at 10:51

안녕하세요. 굉장히 재밌는 논문이네요. 잘 읽었습니다.
Visual Genome Relation는 Referring Expression 또는 Visual Grounding 분야 연구들에게 항상 의문점이였는데, Contrastive learning에서 발생하는 Shortcut으로 인하는 문제점이라는 고찰이 흥미로웠습니다.
특히 Relation에 있어 또 하나의 궁금한 실험이 생기는데 현재는 동사구 (Eating, Sitting on)는 고정한 채로, 명사의 순서를 앞뒤로 교체하는 실험을 진행하는데, 과연 명사구는 제 자리에 있을 때 동사구가 타동사로 바뀌는 경우에는 관계성을 잘 찾아낼 수 있을지에 대해서도 궁금하네요. 그 이유로 여전히 VLM은 객체의 카테고리에 대해 집중하여 학습하기에 이런 동사구가 바뀌는 경우에는 대응력이 미흡할 것이라 예상되는데, 이에 대한 견해는 어떠신지 궁금합니다.

1. 정 의철 says:
  
  01/06/2025 at 21:56
  
  안녕하세요 상인님 좋은 질문감사합니다.
  저도 논문을 읽으면서 비슷하게 동사구가 수동 형태로 바꿨을때 모델이 어떤 결과를 보일지 궁금했습니다. 제 생각에는 ‘원래 캡션’과 ‘명사구는 제 자리에 두고 동사구를 변형한 캡션’ 중 옳바른 캡션을 고르는 실험에서는 Visual Genome Relation의 실험 결과처럼 모델은 무작위 수준의 성능을 보일 것이라고 예상하고 있습니다. 왜냐하면 실험 분석을 통해 알 수 있듯이 모델들은 문장을 단어들의 모음처럼 분석하기 때문입니다. 하지만 retrieval task를 수행하는데 있어서는 성능 하락이 발생하지는 않을 것 같네요.
  감사합니다.
  
김 주연 says:

01/13/2025 at 23:08

안녕하세요. 좋은 리뷰 감사합니다.
기존 Task에서 존재하는 문제점이 무엇인지 정확하게 꼬집고 이를 제대로 평가하기 위해서 명확한 방법을 제안했다는 것이 본 논문의 contribution인 것 같습니다.

논문의 저자는 대규모 데이터셋을 사용한 대조 학습(Contrastive Pretraining) 방식이 모델이 구성적 정보와 순서를 학습할 동기를 없앨 수도 있다고 생각했기 때문에 이를 보완한 하드 네거티브를 제안한 것으로 이해하였습니다. 성능 향상을 가져왔지만, 결국에는 contrastive 학습을 수행하여 성능을 개선한 것인데, 하드 네거티브 샘플을 만드는 것을 보면 동사구를 교체하거나 명사를 교체하거나 하는 식으로 진행하게 되는데, 이를 통해 다양한 네거티브 샘플을 얻게 되지만 어찌보면 한 문장의 구성을 벗어나지 못하는 느낌(명사 is 동사ing ~)이 들어 본 방법론의 한계가 금방 다가올 것으로 생각됩니다.

제가 생각하기에는 계속해서 이런 단조로운 문장 구조에서 벗어나지 못한다면 이미지에서 발생하는 복잡한 상황을 제대로 묘사하지 못할 것이라 생각되는데 본 논문에서는 이러한 관점에서 따로 제시한 방법이 있을까요?

감사합니다.