안녕하세요. 이번에 리뷰할 논문은 Google Research에서 ECCV 2024에 발표한 논문으로, VLM의 문장 생성 능력을 활용해 attribute recognition을 해결하고자 한 논문입니다. 속성과 같이 객체의 fine-grained한 특성을 인식하는 데에는 contrastive한 image-text 매칭만으로는 한계가 있습니다. 저자들은 contrastive한 방식 대신에, image-conditioned prefixLM을 사용하여 속성과 객체 간의 관계를 ‘문장 생성 확률’로 측정하고자 했습니다.

1. Introduction

CLIP과 같은 대규모 image-text 기반 모델은 contrastive retrieval을 통해 zero-shot 객체 인식에 뛰어난 성능을 보여왔습니다. 그러나 contrastive retrieval을 속성 예측에 그대로 사용하는 것은 다음 두 가지 문제가 있다고 저자들은 지적합니다. 첫째, 이미지와 텍스트를 global하게 align하는 방식이기 때문에 텍스트를 하나의 덩어리로 취급합니다. 따라서 객체 정보만으로도 positive하다고 판단되면 속성 정보는 무시되기 쉬우며, 따라서 객체의 fine-grained한 속성 정보를 구분하는 데 취약합니다. 둘째, 단어 순서와 속성-객체 간의 의존성을 표현하지 못합니다.

이 두 문제점을 보완하기 위해, 저자들은 contrastive retrieval이 아닌 prefix language model(prefixLM)을 활용한 generative retrieval을 활용한 방식을 제안했습니다. prefixLM이란 prefix(접두, 앞) token은 모두 보고, 그 뒤의 나머지 token은 자기 자신 이전의 token만 보며 autoregressive하게 token을 생성하는 언어 모델입니다. 이 구조를 활용해 image token과 이전 text token을 기반으로 문장을 생성하여, 문장 내의 객체와 속성의 의존성을 알 수 있습니다.

본 논문의 contribution은 다음과 같습니다.

attribute recognition 문제를 image-object-attribute 조건부 확률 모델링으로 재구성
객체와 속성 간의 복잡한 관계를 이해하는 데에 prefixLM이 효과적임을 입증하고, 사전 학습된 지식을 attribute recognition에 효과적으로 distill하는 generative retrieval 방식 제안
contrastive learning의 한계를 보여주고 저자들의 우수한 zero-shot 및 fine-tuning 성능을 보여줌
attribute / object recognition task를 통합한 Visual Genome Attribute Ranking(VGARank) 벤치마크 제안

2. Approach

2.1. Image-Conditioned Language Modeling

저자들이 제안하는 generative retrieval은 image-conditioned prefix language modeling, 즉 image captioning에 기반합니다.

위 식과 같이, 주어진 image v에 대해 text $x=\{s_1, s_2, ..., s_n\}$ 을 생성하는 것을 목표로 하며, $p(x|v)$ 는 조건부 확률의 곱으로 분해됩니다. s0은 start-of-sentence token이며 각 타임스텝에서 모델은 visual token v와 이전 token들을 기반으로 다음 token을 예측합니다.

저자들은 이와 같은 조건부 확률 곱으로써의 분해를 통해, 모델이 사전 학습 중에 다양한 객체-속성 조합을 학습할 수 있다고 말합니다. 다시 말해 $p\{w_{att} | v, w_{obj}\}$ 와 같은 추론을 해결할 수 있다는 것인데, 즉 image v와 obj가 주어졌을 때 속성 att가 나타날 확률을 알 수 있다는 것입니다.

2.2. Generative Retrieval for Attribute Classification

loss function을 설계하는 관점에서 contrastive 방식과 generative 방식을 비교하는 파트입니다.

Contrastive Retrieval

이 방식은 image와 text가 동일한 embedding space에 매핑된다는 사실에 기반하여, 일치하는 쌍은 내적을 최대화하고 일치하지 않는 나머지는 최소화하도록 학습됩니다. 일반적으로 image와 text 간의 거리를 나타내기 위해 L2 loss를 사용합니다.

Generative Retrieval

저자들이 제안하는 방식으로, image와 text를 정렬하기 위해 cross-entropy loss를 사용합니다.

$t_i$ 는 문장 t의 i번째 token의 one-hot representation이며, 모델 $q_θ$ 는 image token과 이전 모든 text token을 조건으로 하여 다음 token에 대한 확률 분포를 생성합니다.

2.3. Modeling the Conditional Dependence

generative retrieval에서, 문장의 단어 순서를 변경함으로써 속성 인식을 위한 다양한 확률 모델을 구축할 수 있습니다. 아래 그림에서 {A}는 attirbute, {O}는 object입니다.

{A}

이는 image에 기반해 attirbute만을 예측하는 가장 간단한 구조입니다.

{O} is {A}

image와 object를 기반으로 attirbute를 예측하는 구조로, $P\{"{A}" | v, "{O}"\}$ 를 approximate합니다. 이 모델에서 prefix는 “{O} is”가 됩니다.

{A} {O}

해당 방식은 “an image of a [MASK] cat”과 같은 문장에서 빈칸을 채우는 것과 관련이 있다는 점에서 masked language model(MLM)과 유사합니다. 그러나 MLM은 마스크된 token을 예측하기 위해 모든 문맥 정보를 활용하기 때문에 결국 {O} is {A} 꼴에서 사용되는 확률도 사용되게 됩니다.

{A}{O} is {A}

이는 “fluffy cat is fluffy”와 같은 비정상적인 문장을 생성하게 되는데, 저자들은 문장에서 {A}를 공유함으로써 앞선 방식들의 조건부 확률을 모두 사용하게 되고, 객체와 속성 간의 상호 의존성을 파악하는 데에 도움이 된다고 주장하였습니다.

3. Experiments

3.1. Implementation Details

base model로 contrastive learning과 image-conditioned prefix language modeling을 결합한 사전학습된 CoCa를 사용하였습니다.

또한 평가를 위해 다음 두 데이터셋을 사용합니다.

Visual Attribute in the Wild (VAW)

attribute detection task에서 널리 쓰이는 벤치마크로, image에 대해 명시적인 positive, negative attirbute를 제공합니다.

Visual Genome Attribute Ranking (VGARank)

기존 Visual Genome은 visual attribute 인식을 평가하기 위해 사용되던 데이터셋이며, 이를 저자들이 목적에 맞게 수정한 버전입니다. 이 데이터셋은 VAW와 달리 open-vocabulary task를 목적으로 하며, 속성 후보를 최대 50개 만들어 그중 정답을 얼마나 상위에 배치하는가를 측정합니다. 또한 객체에 대한 속성(VGARank-Attribute)과 속성에 대한 객체(VGARank-Object) 두 가지 목적에 맞게 데이터셋을 분류하고 있습니다.

VGARank-Attribute의 경우 하나의 object를 가리키는 box가 주어졌을 때, 그 객체에 해당하는 속성을 랭킹하는 문제입니다. 반면 VGARank-Object는 하나의 attirbute가 주어졌을 때 이미지 내에서 그 속성에 해당하는 object를 랭킹하는 문제입니다.

3.2. Results on the VAW Dataset

Table 1과 2는 각각 zero-shot과 fine-tuning 결과로, 모두 generative 방식과 contrastive 방식의 성능을 비교하고 있습니다. 두 방식 모두 generative 방식이 우수한 성능을 보이고 있습니다. 특히 Table 1에서 generative의 최고 성능이 56.0인 데 반해 contrastive 방식은 95.1입니다. 반면 fine-tuning에서는 10.6과 12.2로 zero-shot에 비해 성능 차이가 두드러지지 않았습니다. 저자는 generative 방식이 우수한 성능을 보인 원인으로 앞에서 계속 강조하였던 객체와 속성의 상호 의존성을 명시적으로 모델링했기 때문이라고 주장하였습니다.

3.3. Results on the VGARank Dataset

Table 4는 VGARank-Attribute, Table 5는 VGARank-Object에 대한 zero-shot 실험 성능을 나타냅니다. VAW 데이터셋에 대한 실험과 유사한 결과를 보이고 있습니다. VGARank-Attribute에서는 VAW와 마찬가지로 “{A}{O} is {A}” 템플릿에서 가장 좋은 성능을 보였고, VGARank-Object에서는 “{A}{O}” 템플릿에서 가장 좋은 성능을 보였습니다. 이러한 차이가 나타나는 이유로는, 전자는 상호 의존성을 명시적으로 모델링한 방식이 attribute 인식에서는 매우 도움이 되지만, object 인식에서는 여전히 두드러진({O}) 정보에 의존하기 때문이라고 저자들은 설명했습니다.

1 thought on “[ECCV 2024] ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling”

이 승현 says:

03/16/2026 at 11:23

예은님 좋은 리뷰 감사합니다.

contrastive retrieval 과정에서 일치하는 쌍은 내적을 최대화 하도록 한다고 하셨는데, 여기서 일치한다는 것은 어떻게 이해하면 될까요? 이미지와 text 속성에 대한 positive 쌍인가요? 그렇다면 한 물체에 대해서 여러 속성이 가능할텐데, 일대다 매칭이 되어있는 것인지도 궁금합니다.

또한 해당 방법론은 image captioning에 기반한다고 하셨는데, 이렇게 만들어진 캡셔닝 정보가 어떻게 활용되는 것인지 잘 이해가 되지 않습니다. 생성 모델을 통해 4가지 ({A}/{O}is{A}/{A}{O}/{A}{O}is{A}) 캡션을 만드는 것이라 이해하면 될까요? 그렇다면 이렇게 만들어진 캡션 자체가 해당 task의 최종 output인가요 ?

[ECCV 2024] ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling