[ICML 2025] Visual Abstraction: A Plug-and-Play Approach for Text-Visual Retrieval

오늘은 늘 리뷰하던 Text-Video Retrieval이 아닌 Text-Visual Retrieval 페이퍼를 리뷰해보겠습니다



1. Introduction

Text-Visual Retrieval은 사용자가 입력한 문장을 기반으로 가장 관련 있는 이미지나 영상을 찾는 작업입니다. CLIP 같은 기존 VLM들은 대규모 이미지–텍스트 쌍으로 학습되어 높은 성능을 보여왔지만, 실제 검색 상황의 다양한 상황을 만족시키기에는 여러 한계가 있었죠

가장 큰 문제는 모델이 불필요한 저수준 시각 정보에 과도하게 주목한다는 점입니다. 그림 1(a)의 첫 번째 예시처럼, “눈에 덮인 차들”이라는 쿼리를 주었을 때 모델은 차보다 타이어 자국이나 배경 텍스처 같은 중요하지 않은 부분에 집중하는 모습을 확인할 수 있습니다. 이는 global contrastive learning 탓이라고 볼 수 있는데, 핵심 개념보다 주변 디테일을 더 크게 보고, 결국 검색 정확도를 떨어뜨리기 때문이죠.

또 다른 중요한 한계는 텍스트–이미지 간 의미 수준(granularity)의 불일치입니다. 이미지는 매우 다양한 수준의 정보를 담지만 웹 캡션은 짧고 단순하기 때문에, 사용자가 “사람 두 명이 스키를 타고 있다”처럼 조금 더 구체적인 쿼리를 던지면 모델은 이를 제대로 맞추지 못합니다. 그림 1(a)의 두 번째·세 번째 예시처럼, 모델은 전체 ‘스키 장면’은 잡지만, 사용자가 요청한 ‘특정 사람의 복장/행동’ 같은 세부 정보는 놓치는 모습을 확인할 수 있습니다.

기존 연구들은 객체 탐지 기반 설명이나 LMM(Large Multimodal Model)을 활용한 고품질의 캡션 생성 등을 시도하며 문제를 해결하고자 했습니다. 하지만 이러한 방법은 객체 수의 제한, 관계 표현의 부족, 그리고 모델을 새로 학습해야 하는 비용 문제 때문에 실용성이 떨어졌다는 한계가 있었죠.

따라서 저자는 plug-and-play 방식인 VISual Abstraction (VISA)를 제안하여, 이러한 문제를 학습 없이(test-time) 해결하는 새로운 방향을 제안합니다. 핵심 아이디어는 이미지·영상을 먼저 텍스트로 추상화해 검색을 텍스트 공간에서 수행하는 것입니다. 자연어 설명은 본래 저수준 시각 정보를 덜어내고 의미 중심 표현을 남기기 때문에, 그림 1(a)에서 보듯 모델이 핵심 개념에 더 선명하게 집중하도록 도와줄 수 있었다고 하는데요.

그리고 그림 1(b)에 나타난 것처럼, 이러한 단순한 test-time 플러그인 방식만으로도 기존 VLM 대비 대부분의 이미지·비디오 검색 벤치마크에서 성능 향상을 보이기도 했다고 합니다. 저자가 제안하는 방식이 무엇인지 지금부터 살펴보겠습니다.

2. Method

저자가 제안하는 VISA는 테스트 시간 동안 텍스트에서 시각적 검색 능력을 향상시키기 위해 설계된 play-and-plug 방식입니다. 따라서 먼저, VISA가 텍스트를 사용한 시각적 검색을 기존 VLM에 통합하는 방법에 대해 다뤄보겠습니다.

2.1 Enhancing Text-to-Visual Retrieval with VISA

기존 VLM 기반 TVR 모델은 텍스트와 비주얼을 같은 임베딩 공간에 매핑해 유사도를 계산하는 방식으로 동작합니다. 즉, 주어진 쿼리 q와 후보 이미지 I_i가 있을 때, 모델이 출력하는 기본 유사도 점수 s는 다음과 같이 표현합니다

여기서 normalization은 후보들 간의 점수 스케일을 맞추기 위한 min–max 정규화 과정입니다.

하지만 문제는, 이러한 공통 임베딩 방식이 다양한 “세분화 수준(granularity)”의 쿼리에 모두 잘 대응하지 못한다는 점입니다. 예를 들어 전체 장면 설명에는 강하지만, ‘모자 색깔’처럼 미세한 속성을 요구하는 쿼리에서는 중요한 정보를 놓치기 쉽습니다. 이는 VLM이 학습 과정에서 높은 수준의 의미 정렬에 집중하고, 세부 시각정보가 점차 약화되는 구조적 한계 때문입니다.

VISA는 이 문제를 “plug-and-play” 방식으로 해결했는데요, 바로 retrieval을 한 번 더 텍스트 공간에서 재정렬(reranking) 하는 것입니다. 즉, 먼저 기존 VLM으로 top-k 후보 \mathcal{G}_{top-k}​를 뽑고, 그 다음 각 후보 이미지를 자연어 설명 T_i으로 바꿔 다시 텍스트-텍스트 매칭을 수행합니다.

이때 텍스트 공간 유사도는 다음과 같이 계산됩니다:

여기서 \text{Text-Retri} 는 off-the-shelf 텍스트 검색기(예: BM25, gemma2 retriever 등)를 이용해 쿼리와 후보 텍스트 묘사 간의 유사도를 계산하는 거라고 하네요. 즉, VISA는 이미지 → 텍스트 변환 후 기존 텍스트 검색 엔진의 강점을 가져오는 구조라고 할 수 있습니다 최종적으로 최적의 retrieval 결과는 두 점수를 합산해 결정합니다:

정리하자면, 1) VLM의 기존 점수는 전체적인 의미 정렬을 반영하고, 2) 텍스트 기반 점수는 세부 속성과 다양한 granularity를 반영하도록 보완하는 것이죠! 즉, 이미지를 다시 텍스트로 추상화하여 텍스트 검색의 장점을 추가한 방법론이라고 이해하면 될 것 같네요

2.2 Visual Abstraction

앞 단원에서, 기존 연구가 다루지 못하 세부 표현 보완을 위한 시각표현에 대한 텍스트 유사도가 추가된 것을 확인했습니다. 그럼 이제는 이 시각표현을 어떻게 자연어로 변환했는지를 알아봐야겠죠? 바로 시각 정보를 자연어로 변환하는 것 (VISual Abstraction)이 저자가 제안하는 VISA입니다. VISA는 크게 두 가지 모듈로 구성되며, 각 모듈에 대해 순서대로 설명하겠습니다./
1. General Description Generation
2. QA-Based Description Refinement

2.2.1 General Description Generation

VISA는 먼저 top-k 후보 이미지 각각을 LMM을 통해 설명문 형태로 바꿔주는 과정을 거칩니다. 이때 생성되는 긴 문장 T_i^{GD}​는 다음 수식처럼 이미지를 문장으로 변환하는 함수로 볼 수 있습니다:

이 단계의 핵심은, 원본 이미지에 포함된 배경 잡음·질감처럼 불필요한 저수준 정보를 제거하고, 시각적 의미만 남긴 ‘압축된 서술을 얻는 것이라고 합니다. 이렇게 텍스트 형태로 표현된 시각 정보는 쿼리 문장과 비교하기 훨씬 쉬워지기 때문에, 이후의 재정렬 과정에서 검색 일관성이 크게 향상된다고 하네요

2.2.2 QA-Based Description Refinement

기존 데이터셋에 존재하는 일반 설명은 장면의 큰 흐름을 잘 잡아주지만, 사용자의 쿼리가 요구하는 ‘세부 속성’까지는 충분히 반영하지 못하는 경우가 많습니다. VISA는 이를 보완하기 위해 쿼리에서 중요한 표현을 먼저 추출하고, 그 표현에 기반한 질문을 생성해 각 후보 이미지에 대해 하나씩 답변을 얻는 QA 과정을 추가하였습니다 이 과정을 통해 시각적 요약과 쿼리 간의 세분화 수준 차이를 줄이고, 검색에 필요한 핵심 정보만 더욱 명확히 드러내고자 하였습니다.

VISA는 먼저 쿼리에서 객체·속성·행동처럼 의미적으로 중요한 표현을 뽑아 질문 세트를 생성합니다:

이 질문들은 명확히 답할 수 있어야 하고, 쿼리와 동일한 granularity를 유지해야 한다는 기준 아래 생성되며, LMM이 시각 정보만 보고 확실하게 판단할 수 있도록 설계되었습니다. 각 질문에 대해 후보 이미지 I_i를 보고 다시 LMM이 답변을 생성하면, 그 결과가 T_i^A​로 기록됩니다:

답변 과정에서는 단순한 yes/no가 아니라 문맥을 담은 설명을 만들도록 유도하며, 답이 모호한 경우에는 Uncertain으로 처리해 잘못된 정보가 반영되지 않도록 하였다고 합니다.

마지막으로 VISA는 일반 설명 T_i^{GD}​과 QA 기반 세부 설명 T_i^{A}​을 이어 붙여 최종 텍스트 표현 T_i을 구성합니다. 이렇게 만들어진 묘사는 쿼리와 granularity가 맞춰진 형태가 되어, 이후 텍스트 기반 재정렬 단계(Eq. 2, 3)에서 훨씬 안정적인 검색 성능을 제공할 수 있었다고 하네요

3. Experiment

3.1 Short-context Image Retrieval

저자들은 MS-COCO와 Flickr30K에서 VISA를 평가했으며, 기존 VLM(SigLIP, EVA-CLIP)에 VISA를 단순히 덧붙이는 것만으로도 R@1 기준 COCO는 최대 3.9, Flickr30K는 최대 1.5의 성능 향상을 보였습니다. 이는 파라미터 수가 훨씬 큰 VLM을 단독으로 사용하는 것보다 더 높은 성능으로, VISA의 Abstraction이 단순 모델 확장보다 효과적이라는 점을 보여주는 결과라고 할 수 있습니다.

또한 DreamLIP, FLAIR처럼 설명문을 생성하는 방식이나, RAGVL·FLAME처럼 LLM을 fine-tuning하거나 distill하는 기존 재정렬 기법보다도 높은 성능을 달성하였는데요, 이는 대규모 모델을 새로 학습하지 않고도, 테스트 시점에서의 텍스트 기반 재정렬만으로 충분히 엄청난 개선을 보일 수 있음을 실험을 통해 확인했습니다.

3.2 Short-Context Video Retrieval

저자들은 네 가지 대표 비디오 리트리벌 데이터셋(MSR-VTT, DiDeMo, LSMDC, MSVD)에서 VISA를 평가했습니다.

VISA는 InternVideo2-C(dual-stream)와 InternVideo2-G(single-hybrid) 두 가지 기반 모델 모두에서 일관된 R@1 향상을 보였습니다. 예를 들어 InternVideo2-C에서는 MSR-VTT 46.0→48.8%, LSMDC 24.3→28.3%, DiDeMo 45.9→54.8%로 상승하며, 특히 DiDeMo에서 8.9%라는 큰 성능 향상을 보였고, InternVideo2-G에서도 모든 데이터셋에서 고르게 성능이 향상되었죠

전체적으로 VISA는 단순히 이미지가 아닌 비디오에서도 강력한 효과를 보이며, 서로 다른 구조의 비디오-언어 모델 모두에서 성능을 끌어올릴 수 있는 범용적이고 안정적인 플러그-앤-플레이 기법임을 확인한 결과라고 하네요.

3.3 Long-Context Video Retrieva

긴 context를 가진 쿼리에서도 세밀한 정보까지 처리할 수 있는지를 확인하기 위해, 네 가지 데이터셋(DCI, IIW, Urban1k, ShareGPT4v)에 대한 성능 평가도 수행하였습니다. 이 데이터셋들은 평균적으로 170토큰 이상의 descriptions부터 객체/위치/관계에 대한 라벨링이 있는 Urban1k까지, 다양한 granularity를 요구한다는 점이 특징이라고 하네요

베이스라인으로 LoTLIP을 사용했고, VISA를 결합했을 때 모든 데이터셋에서 R@1 성능이 크게 향상되었습니다. 특히 DCI에서 62.5% → 74.6%(+12.1%), Urban1k에서 85.9% → 94.6%(+8.7%)로 성능이 향상되며, 복잡한 장면 서술이나 긴 문장의 핵심 요소를 안정적으로 포착한다는 점을 보여주었습니다. 물론 IIW(+4.2%), ShareGPT4v(+1.7%)에서도 성능 개선이 있었죠.

정리하면, VISA는 기존 long-context 전용 모델보다도 안정적인 성능을 제공하는 것을 확인하였습니다. 이는 언어 기반 추상화가 장면을 구조적으로 정리해주는 효과 덕분이며, VISA의 범용성과 강인함을 뚜렷하게 보여주는 결과라고 할 수 있다고 하네요

3.4 Analysis Experiment

VISA 프레임워크의 일반화 성능과 각 구성 요소의 영향력을 확인하기 위해 네 가지 분석 실험도 확인해보겠습니다

(a) General Description (GD)
텍스트 설명을 생성하는 LMM의 품질이 높을수록 검색 성능도 함께 향상했습니다. 작은 모델(LLaVA-7B, Qwen2VL-2B)도 이미 의미 있는 성능 향상이 있었고, 모델 규모가 커질수록 더 풍부하고 정확한 설명을 생성해 검색 성능이 지속적으로 높아졌습니다.

(b) Number of Questions (NQ)
영상에 대해 LMM에게 묻는 질문 수를 달리해 실험한 결과, 3~5개의 질문이 가장 좋은 성능과 효율성 사이 최적이었다고 합니다. 질문 수가 너무 많아지면(특히 MSR-VTT) 중복된 질문이 늘어 오히려 성능이 떨어졌습니다.

(c) Answer Generator (AG)
질문에 대한 답변을 생성하는 LMM의 성능도 검색 결과에 직접적인 영향을 미쳤습니다. 대형 모델이 당연하게도 더 좋은 성능을 보였고, 특히 Qwen2VL-7B가 LLaVA-34B와 비슷한 성능을 보여 효율성과 정확성의 균형이 좋았다고 하네요. 이때, Qwen 모델이 불확실한 정보는 배제하고 중요한 내용만 유지하는 능력이 뛰어나기 때문이라고 합니다

(d) Text Retriever (TR)
텍스트 검색기(retriever)는 single-stream, dual-stream, lightweight 모두 VISA의 성능 향상에 기여하였습니다. Dual-stream이 문장 결합 효과로 가장 높은 성능을 보였지만, 크기가 작은 retriever조차도 일관된 성능 향상을 보여 VISA가 다양한 크기와 구조의 모델과 잘 결합된다는 점을 확인했습니다.

4. Summary

본 논문은 Text-to-Visual Retrieval 태스크로, 기존 VLM 기반 Retrieval이 텍스트–비주얼 정렬 능력은 우수하지만 세밀한 장면 표현 부족, 긴 문맥을 처리하지 못함, 단순 캡션 기반의 낮은 정보 밀도 등의 한계를 갖는다는 점을 지적했습니다. 이를 해결하기 위해 저자들은 VISA(Visual Abstraction)라는 프레임워크를 제안했습니다. VISA는 장면을 더 풍부하고 구조적으로 요약하는 시각적 추상화 텍스트(Visual Abstraction Caption)를 생성해 retrieval 성능을 올리는 방식이었습니다. 특히, 시각적 정보를 바탕으로 텍스트로 만들어 텍스트-텍스트 검색을 활용하였다는 점이 인상적이었습니다.

Author: 홍 주영

Leave a Reply

Your email address will not be published. Required fields are marked *