오늘도 Text Video Retrieval 페이퍼에 대해 리뷰해보겠습니다.

- Conference: ICCV 2025
- Authors: Bingqing Zhang, Zhuo Cao, Heming Du, Yang Li, Xue Li, Jiajun Liu, Sen Wang
- Affiliation: The University of Queensland, Australia, CSIRO Data61
- Title: Quantifying and Narrowing the Unknown: Interactive Text-to-Video Retrieval via Uncertainty Minimization
1. Introduction
Text-to-Video Retrieval(TVR)은 텍스트 query를 입력하면 거기에 맞는 비디오를 찾아주는 기술로, 비디오 검색·추천 등에서 핵심 역할을 하는 중요한 역할을 합니다. 초기에는 attention 기반 모델에서 시작해, 최근에는 비전–언어 사전학습 모델까지 발전하면서 인코더 구조, 학습 전략, 텍스트–비디오 정렬 방식이 다양하게 제안되어 성능이 많이 향상되었죠.

하지만 상단 그림 (a)와 같이, TVR은 여전히 세 가지 종류의 불확실성 때문에 어렵다고 합니다. (1) text query가 애매하거나 너무 일반적인 경우(“something”, “somefood”, “Cartoon play for kids” 등)에는 어떤 비디오를 찾아야 할지 목표가 불분명해지는 텍스트 모호성 (Text Ambiguity), (2) 문장은 충분히 구체적이더라도 여러 개의 비슷한 비디오가 동시에 후보로 뜨는 매핑 불확실성 (Mapping Uncertainty), (3) 모션 블러·아웃포커스·가림 현상처럼 프레임 자체의 품질이 나쁜 프레임 불확실성 (Frame Uncertainty)이 서로 얽혀 TVR 성능을 크게 떨어뜨린다고 합니다.
저자들은 이런 불확실성이 TVR만의 문제가 아니라 머신러닝 전반에서 나타나는 공통 문제로, 지식 부족에서 오는 epistemic uncertainty와 데이터 노이즈에서 오는 aleatoric uncertainty 모두를 포함한다고 언급하였습니다. 특히, 기존에는 active learning, 대화형 시스템, 최소 감독 학습처럼 사용자의 피드백을 활용해 이런 불확실성을 줄이려는 시도가 있었고, 인터랙티브 TVR도 VideoQA 모델이나 LLM을 이용해 후속 질문을 만들고 사용자 응답을 시뮬레이션하는 방식으로 발전해 왔지만, 대부분 불확실성을 명시적으로 수치화하지 않고 휴리스틱한 질문 생성에 의존한다는 한계를 지적했죠.
이 한계를 해결하기 위해, 저자들은 TVR에서 중요한 세 가지 불확실성을 직접 정량화하는 방법과 이를 기반으로 한 인터랙티브 프레임워크를 제안했습니다. 텍스트 모호성은 semantic entropy 기반 TAS(Text Ambiguity Score) 로, 텍스트–비디오 매핑 불확실성은 JS divergence 기반 MUS(Mapping Uncertainty Score) 로, 프레임 불확실성은 고품질 프레임만 골라주는 TQFS(Temporal Quality-based Frame Sampler) 로 측정하며, 이 모든 모듈은 추가 학습 없이 사용할 수 있는 training-free 방식이라고 설명했습니다.

Fig. 1(b)에서는 저자가 제안하는 UMIVR(Uncertainty-Minimizing Interactive TVR)에 대해 나와있는데요, UMIVR 구조에서는 매 라운드마다 TAS와 MUS를 갱신하면서 어떤 불확실성이 남아 있는지 추적하고, 그걸 줄이기 위해 “어떤 종류의 만화인가요?”, “주인공의 외형은 어떤가요?”와 같은 명확화 질문을 적응적으로 만들어, 모호하고 노이즈가 많은 입력의 영향을 줄이면서 점점 더 정확한 비디오를 찾도록 설계했다고 합니다. 지금부터 자세한 방법에 대해 알아보겠습니다
2. Method
이제부터는 Method 파트에서 저자들이 제안한 UMIVR 프레임워크를 어떻게 설계했는지 살펴보겠습니다.
2.1 Text Ambiguity Score via Semantic Entropy (TAS)
저자들은 먼저 “텍스트 query가 얼마나 애매한가?”를 측정하기 위해 semantic entropy 기반 TAS(Text Ambiguity Score)를 설계했습니다. 핵심 아이디어는 query가 데이터셋 안에서 얼마나 다양한 의미로 해석되는지를 확인하는 것이죠

먼저 TVR 데이터베이스에 있는 모든 비디오에 대해 캡션 생성 모델을 적용해 텍스트 설명들을 미리 생성합니다. 이렇게 만들어진 캡션들은 텍스트 임베딩 공간에 저장되어, 하나의 거대한 의미 사전처럼 활용됩니다. 이후 사용자의 query가 들어오면, 모델은 query와 가장 유사한 캡션들을 상위 K개까지 찾아옵니다. 이 K개의 캡션은 query와 관련된 가능한 의미 후보들이라고 볼 수 있죠.
하지만 캡션 간 표현 방식이 다를 뿐 의미는 비슷한 경우가 많기 때문에, 저자들은 이 후보 캡션들을 의미적으로 묶어 M개의 그룹으로 클러스터링했습니다. 이렇게 하면 문장 표현은 다르지만, 결국 같은 의미를 가리키는 후보들을 하나의 의미 그룹으로 정리할 수 있습니다.
이제 TAS의 핵심인데요, 바로 클러스터마다 “query와 얼마나 관련 있는지”를 유사도 기반 확률로 계산한 뒤, 이 확률 분포의 엔트로피(SE) 를 구합니다.

여러 그룹에 확률이 고르게 퍼져 있다면 → query 가 여러 방향으로 해석됨 → 엔트로피 ↑, TAS ↑ (애매한 query)
특정 그룹에 확률이 집중되어 있다면 → 의미가 명확함 → 엔트로피 ↓, TAS ↓ (분명한 query)
마지막으로 이 엔트로피 값은 [0,1] 범위로 정규화되어 최종 TAS로 변환됩니다. 결과적으로 TAS는 데이터셋 전체의 의미 공간 속에서 질의가 얼마나 넓게 흩어지는지를 나타내며, TVR에서 어떤 형태의 “텍스트 모호성”이 발생하고 있는지 직관적으로 설명해주는 지표로 사용됩니다.
2.3 Mapping Uncertainty Score (MUS)
두 번째 불확실성은 “텍스트와 비디오 후보 사이의 매칭이 얼마나 모호한가?”를 측정하는 Mapping Uncertainty 입니다. 이는 흔히, query와 여러 비디오가 비슷한 점수를 가져 가장 관련 있는 비디오가 뚜렷하게 드러나지 않을 때 발생하죠. 저자들은 이 문제를 정량화하기 위해 JS Divergence 기반 MUS(Mapping Uncertainty Score)를 제안하였습니다.

먼저 모델은 query와 상위 K개의 비디오 후보 사이의 유사도 점수 [s_1, s_2, ..., s_k]를 가져옵니다. 여기서 중요한 점은 이 점수를 바로 사용하지 않고, 평균 유사도보다 큰 부분만 강조되도록 변환한 뒤 확률 분포 p 로 정규화한다는 것입니다. 이렇게 하면 대체로 비슷한 후보들은 눌리고, 특히 강하게 매칭되는 후보만 강조되는 형태가 되기 때문이죠

그 다음 비교 대상이 되는 이상적인 정답 분포 q 를 정의하는데, 이는 1개의 후보가 확실한 정답일 때의 one-hot 분포입니다. 즉, 완벽한 확신이 있는 상황을 기준으로 삼아, 실제 분포 p 가 이 이상적인 분포와 얼마나 벗어나는지를 JS Divergence 로 측정합니다.

- p 가 특정 후보에 집중되어 있으면 → p \approx q → JSD ↓, MUS ↓ (정답이 뚜렷)
- 여러 후보에 고르게 분포하면 → p 와 q 가 크게 다름 → JSD ↑, MUS ↑ (매칭이 모호)
마지막으로 JSD 값을 최대값으로 나누어 [0,1] 범위의 MUS로 정규화합니다. 결과적으로 MUS가 높을수록 후보 비디오들 사이의 경쟁이 심해 “어떤 비디오가 맞는지 모델이 확신하기 어려운 상황” 을 의미하고, 이는 곧 UMIVR이 다음 라운드에서 “후보들 간 차이를 명확히 구분하는 질문”을 생성하는 근거로 사용됩니다.
2.3 Temporal Quality-based Frame Sampler

세 번째 불확실성은 비디오 내부에서 발생하는 프레임 품질 문제입니다. 일반적인 TVR·VideoQA 모델은 보통 전체 영상에서 일정 간격으로 프레임을 뽑아 사용하지만, 이 과정에서 흐릿하거나(out-of-focus), 모션 블러가 심하거나, 가려진 프레임이 함께 선택되는 문제가 쉽게 발생합니다. 이런 프레임들은 시각적 단서를 왜곡해 모델의 이해 성능을 떨어뜨리기 때문에, 저자들은 이를 해결하기 위한 TQFS(Temporal Quality-based Frame Sampler)라는 plug-and-play 샘플러를 제안했습니다.
TQFS의 핵심은 단순합니다. “영상의 시간적 흐름은 유지하면서, 각 구간마다 가장 선명한 프레임만 선택하자.”
이를 위해 먼저 영상 전체를 일정한 간격으로 나누고, 각 구간마다 NR-IQA(no-reference image quality assessment) 기반의 품질 점수를 계산해 가장 선명한 프레임을 고릅니다. NR-IQA 점수는 라플라시안 분산처럼 단순한 sharpness metric부터, BRISQUE 같은 고급 품질 측정 모델까지 사용할 수 있어, 영상의 blur·defocus 같은 노이즈를 효과적으로 제거합니다.

NR-IQA(No-Reference Image Quality Assessment)
여기서, NR-IQA(No-Reference Image Quality Assessment)는 이름 그대로 정답 이미지(reference) 없이도 이미지의 품질을 추정하는 방법이라고 합니다. 일반적인 IQA는 “원본 이미지와 비교해 얼마나 손상되었는가?”를 측정하지만, 비디오 프레임에서는 원본이 존재하지 않기 때문에 NR-IQA 방식이 필수적입니다. 이 방식은 이미지의 선명도(sharpness), 노이즈, 블러, 대비 구조 등을 직접 분석해 품질을 점수화하며, 라플라시안 분산처럼 직관적인 샤프니스 지표부터 BRISQUE처럼 통계적 특성을 학습한 고급 방법까지 다양합니다. 결과적으로 NR-IQA 점수는 “이 프레임이 사람 기준으로 봤을 때 얼마나 선명하고 정보가 잘 보존되어 있는가?”를 빠르게 평가할 수 있어, 품질이 고르지 않은 비디오에서 좋은 프레임만 뽑아내는 데 매우 효과적이라고 하네요
하지만 구간별 최고 품질 프레임만 모으면 여전히 “비슷한 장면이 반복”될 수 있기 때문에, 저자들은 한 번 더 semantic embedding 기반 필터링을 적용합니다. 각 프레임을 비전 모델로 임베딩한 뒤 K-means로 의미적 클러스터를 만들고, 각 클러스터 안에서 다시 가장 선명한 프레임을 선택합니다. 이렇게 하면 최종적으로 시각적으로 선명하면서 동시에 의미적으로 다양한 프레임만 남게 됩니다.
정리하면, TQFS는 (1) 시간적 커버리지를 유지하면서, (2) 흐리거나 품질이 떨어지는 프레임을 제거하고, (3) 의미 다양성까지 확보할 수 있는 프레임 샘플러인거죠. TVR에서는 입력 프레임의 질이 곧 모델의 표현력과 직결되기 때문에, TQFS는 이후 단계(텍스트–비디오 매칭, 불확실성 계산 등)의 안정성을 크게 높여주는 기반 역할을 수행하였다고 합니다.
2.4 UMIVR: Uncertainty-Minimizing Interactive TVR Framework
UMIVR은 지금까지 정의한 세 가지 불확실성(TAS, MUS, TQFS)을 하나의 인터랙티브 TVR 파이프라인에 통합한 프레임워크입니다. 핵심은 비디오–텍스트 정렬, 캡셔닝, 질문 생성, 쿼리 재구성 같은 여러 기능을 하나의 Video-LLM 아키텍처로 묶어 시스템을 간소화하고, 동시에 불확실성 감소라는 원칙에 따라 사용자와의 대화를 점진적으로 유도하는 구조라는 점입니다.
2.4.1 Unified Video-LLM Architecture
기존 인터랙티브 TVR은 BLIP·ChatGPT 등 여러 모델을 따로 조합하는 형태가 많아 메모리 비용과 지연 시간이 컸습니다. 이를 해결하기 위해 UMIVR은 VideoLLaVA 기반 통합 모델을 사용합니다. (참고로 저는 인터랙티브 TVR 태스크를 처음 알았는데, 사용자와 소통하면서 관련 비디오를 더 정확하게 찾아주는 것이라고 합니다)

이 모델은 LanguageBind로 비디오와 텍스트를 임베딩해 동일한 의미 공간으로 투영하고, LLM은 그 위에서 질문 생성·응답 처리·쿼리 보강 등을 모두 수행합니다. 따라서 캡셔닝–질문 생성–리트리벌이 단일 모델 내에서 자연스럽게 연결되어, 별도 모듈 간의 불일치나 오버헤드 없이 동작하는 것이 특징입니다.
2.4.2 UMIVR Pipeline
UMIVR의 파이프라인은 아래 그림 3처럼 5단계 인터랙션 과정으로 구성됩니다.

Step 0: (Offline) 사전 준비 당계
전체 비디오 데이터셋을 TQFS로 전처리해서 선명하고 의미적으로 다양한 프레임을 먼저 확보하고, VideoLLaVA 캡셔너를 통해 각 비디오의 주요 설명(캡션, 객체 정보 등)을 메타데이터로 생성해 저장합니다.
Step 1: 불확실성 측정 (TAS & MUS)
사용자가 질의를 입력하면, UMIVR은 먼저 query가 얼마나 애매한가(TAS)와 여러 비디오 중 어떤 것이 맞는지 구분이 어려운가(MUS)를 계산합니다.
Step 2: 불확실성 수준에 맞는 질문 생성
이 단계는 “모호성을 줄이기 위해 어떤 질문을 해야 하는가?”를 결정하는 핵심 모듈입니다. UMIVR은 세 가지 레벨의 질문을 사용합니다.
- Level 0 (TAS 높음): query 자체가 모호 → 외형·행동·상황을 묻는 개방형 질문
- Level 1 (TAS 낮고 MUS 높음): query는 명확하지만 후보 비디오가 비슷함 → 메타정보를 이용해 비디오 간 차이를 구별하는 질문 생성
- Level 2 (둘 다 낮음): 이미 충분히 상세한 query → 의미를 더욱 풍부하게 만들기 위한 추가 묘사 질문
Step 3–4: 사용자 응답 기반 쿼리 갱신
생성된 질문에 대한 사용자(또는 실험에서는 VideoQA 기반 시뮬레이션) 응답을 받아, 이를 기존 query와 병합하여 보다 구체적이고 명확한 refined query를 만듭니다. 이 과정은 불확실성을 실질적으로 감소시키는 단계라고 할 수 있죠
Step 5: 개선된 쿼리로 최종 비디오 검색
업데이트된 질의를 기반으로 다시 retrieval을 수행하면, 모델이 처음보다 훨씬 협소한 의미 공간에서 후보를 선택할 수 있게 되어 정확도가 크게 향상됩니다.
2.4.3 전체 과정의 의미
UMIVR의 전체 구조는 기본적으로 반복적(interactive)이며 불확실성 감소(uncertainty-driven) 로 구성됩니다. 각 라운드에서 질문–응답–질의 개선이 한 번씩 이루어질 때마다 TAS와 MUS가 점점 줄어들고, 결과적으로 모델은 사용자의 의도를 더 정확하게 파악하게 됩니다. 저자들은 이러한 과정이 특히 모호한 텍스트·비슷한 후보 비디오·프레임 노이즈가 많은 TVR 상황에서 큰 이점을 제공한다고 강조하였습니다. 즉, UMIVR은 단순히 LLM을 TVR에 붙인 것이 아니라, 불확실성을 수치화하고 그걸 줄이는 방향으로 대화를 설계한 첫 번째 인터랙티브 TVR 시스템이라는 점에서 기존 연구들과 차별화되는 포인트라고 할 수 있을 것 같습니다.
3. Experiments
3.1 Dataset & Evaluation
데이터셋 (4개)
- MSR-VTT: 10k 비디오, 각 20개 캡션 / 표준 1k split 사용 (주요 실험 및 ablation).
- AVSD: 비디오 기반 대화 데이터 / 기존 연구와 동일한 1,000 샘플 테스트셋.
- MSVD: 약 2k 비디오 / 다국어 캡션 / widely-used 670 test split.
- ActivityNet: 200개 액티비티를 포함한 대규모 long-video 데이터 / 약 4.9k validation set.
평가지표 (3개)
- Recall@K: 고전적 TVR 정확도 지표.
- Hit@K: interactive retrieval 상황에서 어느 라운드에서든 target이 top-k 안에 나타나는지 판단.
- BRI (Best Log Rank Integral):
- (1) user satisfaction (최종적으로 찾았는가),
- (2) retrieval efficiency (몇 번의 interaction에 성공했는가),
- (3) ranking improvement significance (순위 개선 폭)
- → 세 요소를 통합한 인터랙티브 TVR 특화 점수.
모델 및 설정
- Backbone: VideoLLaVA-7B 기반, 4-bit quantization
- Temperature:
- Captioner / Question Generation / Query Refinement → 0.1
- VideoQA (user response simulation) → 0.7
- Visual Encoder: LanguageBind(= CLIP ViT-L/14 기반), 24-layer Transformer with temporal attention, output dim=768.
Baselines: 최신 인터랙티브 TVR 방법인 *IVR의 세 가지 변형
*IVR: Simple Baselines for Interactive Video Retrieval with Questions and Answers, ICCV, 2023.
- ivrHeuristic: 템플릿 기반 수동 질문
- ivrAuto: 캡션 기반 자동 질문 + heuristic enhancement
- ivrAutoWoAug: ivrAuto에서 heuristic 제거한 버전
저자들은 IVR 코드를 UMIVR 프레임워크에 그대로 통합해, 모델 아키텍처 차이 없이 동일 조건으로 비교했다고 합니다. 단, 기존 IVR은 한 번에 여러 질문을 생성했으나, 인터랙티브 TVR 표준에 맞게 round당 1개의 question–answer만 허용하도록 수정하였고, 최대 interaction round 수는 10회 (그 이상이면 실제 사용자 경험이 나빠지는 탓).
3.2 Comparison Results

UMIVR은 MSR-VTT 실험에서 모든 interaction round 전반에 걸쳐 기존 인터랙티브 TVR 기법보다 꾸준히 우수한 성능을 보였습니다. 특히 단 3번의 라운드만 거친 시점부터 이미 비인터랙티브 SOTA였던 HunYuan-tvr을 Hit@1 기준으로 넘어서는 결과(68.9 vs. 62.9)를 기록하며, 불확실성을 단계적으로 줄여가는 인터랙티브 설계의 효과를 명확히 보여주었습니다.


이후 AVSD, MSVD, ActivityNet에서도 UMIVR은 안정적인 성능을 보였습니다. AVSD 실험에서는 기존 IVR 계열 모델 대비 높은 R@1, R@10, Hit@1 성능을 달성하면서도 BRI에서도 가장 낮은 값을 기록해 적은 interaction으로도 성능을 확보하는 효율성을 보여주었습니다. 뿐만아니라, 상대적으로 데이터 규모와 특성이 크게 다른 MSVD·ActivityNet 실험에서도 모든 라운드에서 가장 높은 recall과 hit 성능을 달성하며, 제안한 방법이 다양한 종류의 비디오와 텍스트 조건에서도 일반화된다는 점을 확인시켰습니다.
전반적으로 이 결과들은 UMIVR은 단순히 질문을 생성하는 것이 아니라, 왜 질문이 필요한지를 모델이 스스로 판단하고, 각 라운드에서 가장 효과적인 방향으로 질의를 재구성한다는 점에서 기존 접근보다 한 단계 진전된 인터랙티브 TVR 프레임워크임을 실험 전반에서 입증한 것이라고 할 수 있겠네요
3.3 Ablation Study

UMIVR을 구성하는 세 가지 핵심 요소(TAS, MUS, TQFS)에 대한 ablation 실험입니다. 실험 결과는 각 모듈이 점진적으로 성능을 높여주며, 특히 TAS(Text Ambiguity Score) 와 MUS(Mapping Uncertainty Score) 를 함께 사용할 때 가장 큰 개선 폭을 보인 것을 알 수 있습니다. 두 모듈은 각각 텍스트의 모호성, 텍스트-비디오 매핑의 불확실성을 줄이는 역할을 담당하고 있어 상호 보완적인 기능을 수행한 것이라고 하네요. 여기에 TQFS(Temporal Quality-based Frame Sampler) 를 추가하면 비디오 내 저품질 프레임을 제거해주기 때문에 전체적인 강인성이 더 크게 향상되었습니다.

또한 저자들은 각 점수의 threshold 파라미터가 성능에 얼마나 민감한지 추가적으로 분석했는데요. Grid search 결과, TAS의 α = 0.5, MUS의 β = 0.2 조합이 가장 높은 Recall, Hit@1, Hit@10 성능을 보였으며, 동시에 BRI 지표에서도 가장 낮은(좋은) 값을 달성했습니다. 이 값에서 벗어날 경우 성능이 확연히 감소해, 두 파라미터를 신중하게 조정해야한다고 하네요.
3.4 Generalization

저자들은 마지막으로 UMIVR이 다양한 시나리오와 모달리티로 확장될 수 있는지를 검증했습니다. 먼저, TQFS 모듈이 다른 TVR 모델에도 그대로 붙여 사용할 수 있는지 확인하기 위해 VideoCLIP과 Xpool에 직접 적용한 결과, 두 모델 모두에서 Recall@10 기준 최대 +1.4%의 성능 향상과 MnR 감소를 보였습니다. 이는 TQFS가 별도의 학습 없이도 기존 비디오 검색 파이프라인의 품질을 안정적으로 개선해주는 범용적인 모듈임을 보여주었습니다.

또한 UMIVR의 상호작용 구조가 비디오를 넘어서 이미지 Retrieval 영역에도 일반화되는지를 실험했습니다. 이를 위해 VisDial 데이터셋 기반의 text-to-image retrieval 환경에서 ChatIR, PlugIR, ivrHeuristic과 비교했고, UMIVR은 모든 interaction round에서 경쟁 기법들을 다 이겼다고 하네요. 특히 Recall@10과 Hit@10에서 뚜렷한 개선 결과를 보이며, UMIVR이 단순히 특정 비디오 데이터셋에 최적화된 방식이 아니라 대화형 검색 전반에 적용 가능한 강력한 불확실성 제어 프레임워크라고 주장합니다.
4. Summary
이번 논문에서는 Interaction Text-to-Video Retrieval이 잘 안 되는 이유가 “텍스트가 애매하거나”, “비디오 후보 중 무엇이 맞는지 확신이 없거나”, “비디오 프레임이 흐릿해서 정보가 부족하기 때문”이라고 보고, 이 세 가지 문제를 각각 해결하는 방법을 통합한 프레임워크 UMIVR 을 제안하였습니다. 먼저 TAS는 사용자가 입력한 문장이 얼마나 모호한지 측정해, 추가 질문이 필요한 부분을 찾아냅니다. MUS는 현재 검색된 비디오들이 얼마나 ‘헷갈리는 분포’를 보이는지를 계산해, 어떤 방향으로 다시 질문해야 검색이 빨라지는지 알려줍니다. TQFS는 비디오에서 흐릿하거나 의미 없는 프레임을 걸러내고, 선명하고 정보가 많은 프레임만 뽑아 검색 품질을 높입니다. 이 세 모듈이 상호작용 검색 시스템 안에서 함께 작동하면서, 검색을 반복할수록 더 정확하게 올바른 비디오를 찾아가는 구조입니다. 실험 결과, UMIVR은 기존 방법보다 훨씬 적은 상호작용으로 더 정확하게 검색했으며, 다른 모델에도 쉽게 붙여서 성능을 높일 수 있을 만큼 일반성도 뛰어났습니다.