[ICCV 2025] Principles of Visual Tokens for Efficient Video Understanding

안녕하세요. 이번에 소개할 논문은 Video Understanding에서의 token pruning을 다룬 논문입니다. 이 논문은 video token의 성질을 분석해, 모든 token이 같은 가치를 가지는 것이 아니라 소수의 핵심 token이 대부분의 정보를 담고 있음을 보여준 논문으로, efficient video Transformer 연구에서 token을 어떻게 이해하고 선택해야 하는지에 대한 중요한 관점을 제시해준 것 같아 이번에 리뷰하게 되었습니다.\

1. Introduction

Video understanding은 최근 몇 년 동안 여러 표준 benchmark와 task에서 큰 발전을 이루었습니다. 이러한 발전의 중심에는 Transformer 구조가 있습니다. Transformer는 강력한 표현 학습 능력을 가지지만, 동시에 계산 비용이 매우 큰 구조입니다.

문제는 Transformer가 원래 language domain에서 출발했다는 점입니다. 언어에서는 token 하나가 대체로 단어나 subword에 대응되기 때문에, 하나의 개념을 표현하는 데 필요한 token 수가 상대적으로 적습니다. 반면 vision transformer에서는 하나의 action이나 scene을 표현하기 위해 훨씬 많은 visual token이 필요합니다. 특히 비디오는 여러 프레임으로 구성되고, 각 프레임마다 patch token이 생성되기 때문에 token 수가 급격히 증가합니다.

이러한 높은 계산 비용은 모델 배포를 어렵게 만들고, 실험 반복 속도를 늦추며, 연구 비용 부담을 증가시킵니다. 저자는 특히 inference cost에 주목합니다. 한 번의 추론 비용은 학습보다 작아 보일 수 있지만, 모델은 배포 이후 매우 많이 사용되기 때문에 inference cost가 training cost보다 더 커질 수 있다는 것입니다.

동시에 비디오는 본질적으로 redundancy가 큰 데이터입니다. 공간적으로는 배경처럼 task에 큰 도움이 되지 않는 영역이 많고, 시간적으로는 인접한 프레임들이 서로 비슷한 경우가 많습니다. 즉, 비디오는 token 수는 많지만 모든 token이 같은 수준의 정보를 담고 있지는 않습니다. 이 지점에서 token reduction이라는 연구 방향이 자연스럽게 등장합니다.

기존 연구들은 이러한 중복성을 줄이기 위해 여러 방법을 제안해왔습니다. 대표적으로 token merging은 비슷한 token들을 하나의 그룹으로 묶고, 그 그룹을 대표하는 token만 남기는 방식입니다. 또 다른 방향은 motion 정보를 활용해 중요한 token을 선택하는 방식입니다. 이러한 방법들은 GFLOPs를 줄이면서 full model과 비슷한 정확도를 유지하는 것을 목표로 합니다.

그런데 저자는 여기서 흥미로운 문제를 제기합니다. 복잡한 token reduction 방법들이 실제로는 단순한 random token sampling baseline보다 더 좋은 trade-off를 보이지 못하는 경우가 많다는 것입니다.

그림 2는 이 문제를 직접 보여줍니다. 그림 2에서는 다양한 token selection 방법과 sampling baseline을 비교합니다. 여기서 P-Ratio는 전체 비디오 token 중 선택된 token의 비율을 의미합니다. 즉, P-Ratio가 낮을수록 더 적은 token만 사용하는 것입니다. 흥미로운 점은 정교하게 설계된 token selection 모델들이 random sampling과 비슷하거나, 경우에 따라 더 낮은 성능을 보인다는 점입니다. 이 결과는 “정말 기존 방법들이 중요한 token을 잘 고르고 있는가?”라는 질문을 던지게 만듭니다.

이 논문의 핵심 출발점은 바로 이 지점입니다. 저자는 random sampling이 왜 강한 baseline인지, 그리고 visual token의 중요도가 어떤 방식으로 분포하는지를 분석합니다. 단순히 새로운 token selection 방법을 제안하는 것이 아니라, visual token 자체의 성질을 먼저 관찰하고 이를 바탕으로 모델을 설계한다는 점이 중요합니다.

먼저 저자는 좋은 token의 subset만 사용하는 것이 전체 token을 사용하는 것보다 더 좋을 수 있음을 보입니다. 이를 위해 oracle을 설계합니다. 여기서 oracle은 action classification에서 각 input token이 얼마나 중요한지를 추정하는 역할을 합니다. 이 논문에서는 각 token의 중요도를 gradient를 통해 계산합니다. 다만 ground-truth class label을 사용하기 때문에 실제 inference 상황에서 바로 사용할 수는 없고, 그래서 이를 oracle이라고 부릅니다.

이 oracle을 사용해 gradient value가 높은 token만 남기면, 전체 token을 사용하는 baseline보다 더 높은 정확도를 얻을 수 있습니다. 차이는 최대 9%까지 나타납니다. 이는 낮은 가치의 token이 단순히 도움이 되지 않는 정도가 아니라, classification을 방해하는 noise처럼 작동할 수 있음을 보여줍니다.

다음으로 저자는 token value의 분포를 분석합니다. 그림 3은 oracle이 예측한 token value의 histogram을 보여줍니다. 핵심 관찰은 token value가 Pareto-like distribution을 따른다는 점입니다. 대부분의 token은 거의 정보가 없고, 아주 적은 수의 token만이 classification에 필요한 핵심 정보를 가지고 있다는 것입니다.

이 관찰은 앞서 그림 2에서 보였던 random sampling의 강함을 설명합니다. 대부분의 token이 낮은 value를 가진다면, random하게 token을 버리더라도 높은 확률로 중요하지 않은 token이 제거됩니다. 즉, random sampling이 강한 이유는 random 전략 자체가 뛰어나서라기보다, 애초에 비디오 token 중 상당수가 task에 큰 영향을 주지 않기 때문입니다.

그림 3에서는 easy class와 hard class의 차이도 나타납니다. Easy class의 경우 token value distribution의 tail이 더 얇게 나타납니다. 이는 쉬운 class에서는 classification에 필요한 핵심 token의 수가 상대적으로 적을 수 있음을 의미합니다. 반대로 hard class에서는 더 많은 token이 필요하거나, 중요한 token을 찾기 더 어려울 수 있습니다.

이후 저자는 중요한 token을 찾는 문제가 생각보다 어렵다는 점을 강조합니다. 수많은 visual token 중 실제로 task에 중요한 token은 극소수이고, 그 token이 반드시 사람이 직관적으로 중요하다고 생각하는 영역과 일치하지도 않습니다.

저자는 oracle이 선택한 token이 foreground object나 attention이 높은 영역과 일치하는지 분석합니다. 일반적으로 우리는 foreground나 attention score가 높은 영역이 중요할 것이라고 생각하기 쉽습니다. 하지만 실험 결과, foreground를 선택하거나 attention이 높은 token을 선택하는 방식은 오히려 random selection보다 낮은 성능을 보입니다. 이는 “눈에 띄는 영역”과 “모델이 classification에 실제로 필요로 하는 token”이 다를 수 있음을 보여줍니다.

이 문제를 해결하기 위해 저자는 LITE를 제안합니다. LITE는 Lightweight Token Elector의 약자로, oracle이 추정한 token value를 가볍게 근사하는 selector network입니다. 구조는 간단합니다. 각 token을 개별적으로 입력받아 해당 token의 중요도를 예측하는 MLP입니다. 즉, token 간 복잡한 상호작용을 모델링하기보다는 각 token의 가치를 token-level에서 예측하는 방식입니다.

흥미로운 점은 LITE가 매우 가벼운 구조임에도 기존 token selection, token merging 방법뿐 아니라 강한 random selection baseline보다도 좋은 성능을 보인다는 것입니다. 이는 visual token의 value 분포를 제대로 이해하고, 그에 맞게 token을 선택하는 것이 복잡한 구조를 추가하는 것보다 효과적일 수 있음을 보여줍니다.

마지막으로 저자는 모든 비디오에 동일한 계산량을 사용할 필요가 없다고 이야기합니다. 쉬운 video는 적은 token만으로도 높은 정확도를 유지할 수 있고, 어려운 video는 더 많은 token이 필요할 수 있습니다. 이를 위해 prediction confidence를 기준으로 per-video computational budget을 조절하는 방식을 실험합니다. 모델이 자신 있게 예측할 수 있는 비디오는 적은 token을 사용하고, 불확실성이 큰 비디오는 더 많은 token을 사용하는 방식입니다.

정리하면, 이 논문의 contribution은 다음과 같습니다.

비디오 visual token의 value가 어떤 성질을 가지는지 분석하고, 이를 5가지 원칙으로 정리. 특히 token value가 Pareto-like distribution을 따른다는 점은 random sampling baseline이 강한 이유를 설명하는 핵심 근거가 됨
이러한 관찰을 바탕으로 LITE라는 새로운 token selector를 제안.
Kinetics-400과 Something-Something-V2에서 기존 방법보다 더 좋은 결과를 보이며, zero-shot setting이나 다른 task에서도 재학습 없이 적용 가능함을 보여줌

다만 이 논문은 visual token에 초점을 맞춥니다. 실험은 vision model과 action classification, zero-shot learning 같은 task를 중심으로 진행되며, VQA나 captioning처럼 vision-language model을 사용하는 task는 직접적인 대상이 아닙니다. 저자는 VLM의 성능 향상이 visual representation뿐 아니라 LLM이나 language embedding의 발전에도 크게 의존하기 때문에, visual token 자체를 분석하기에는 vision-only setting이 더 적합하다고 봅니다.

또한 ViT의 visual token과 VLM의 vision-language token은 같은 성질을 가진다고 보기 어렵습니다. VLM의 visual token은 language representation과 맞춰지도록 contrastive learning을 통해 학습되는 경우가 많기 때문입니다. 따라서 이 논문의 결론을 VLM token에 그대로 적용하기는 어렵지만, visual token 자체를 이해하는 데에 초점을 맞췄다 보시면 될 것 같습니다.

2. Principles of Visual Tokens in Video

이번 섹션에서는 비디오 visual token이 어떤 성질을 가지는지 분석합니다. 목적은 단순히 token을 줄이는 것이 아니라, visual token의 본질적인 특징을 이해하고 이를 바탕으로 test time에서 계산량을 줄일 수 있는 모델을 설계하는 것입니다.

Datasets & Implementation Details

실험 설정을 먼저 살펴보면, 저자는 세 개의 action recognition dataset과 하나의 spatio-temporal action detection dataset을 사용합니다. Action recognition dataset으로는 Kinetics-400, Something-Something V2, UCF101이 사용되고, spatio-temporal action detection dataset으로는 AVA Actions가 사용됩니다. 그리고 Backbone으로는 VideoMAE를 사용합니다.

Principle 1: Random is better than most

첫 번째 principle은 다소 직관에 반하는 내용입니다. 저자는 SS-V2 dataset과 VideoMAE architecture를 기준으로 기존 token selection 방법들과 random token selection을 비교합니다. 앞서 설명드렸던 그림 2의 결과처럼 random baseline이 ToMe 같은 token merging 방법이나 video-specific token selection 방법들과 비슷하거나, 일부 계산 budget에서는 오히려 더 좋은 성능을 보입니다. 기존 방법들은 다양한 cue를 활용해 중요한 token을 고르려고 하지만, 실제로는 단순 random selection을 명확히 넘어서지 못하는 경우가 많습니다.

Principle 2: Good tokens do not coincide with visual cues

두 번째 principle은 중요한 token이 사람이 직관적으로 생각하는 visual cue와 반드시 일치하지 않는다는 것입니다.

일반적으로는 아무 기준 없이 token을 고르는 random selection보다, motion, attention, saliency처럼 중요해 보이는 단서를 활용하는 방식이 더 좋은 성능을 낼 것이라고 기대할 수 있습니다. 저자는 이를 확인하기 위해 여러 baseline을 실험합니다.

첫째, attention 기반 선택입니다. 모델이 classification을 위해 실제로 attention을 많이 주는 token이라면 중요한 token일 가능성이 높아 보입니다. 하지만 실험 결과, attention 기반 선택은 random baseline과 비슷한 수준에 머뭅니다.

둘째, motion vector 기반 선택입니다. Action recognition에서는 움직임이 중요한 단서가 될 수 있습니다. 특히 많이 움직이는 영역은 foreground나 action이 발생하는 위치와 관련될 가능성이 큽니다. 그래서 저자는 compressed video에서 얻을 수 있는 motion vector magnitude를 활용해 움직임이 큰 token을 선택합니다. 하지만 이 방법도 특히 낮은 computational budget에서 random보다 낮은 성능을 보입니다.

셋째, saliency 기반 선택입니다. CPFE saliency detector를 사용해 각 frame에서 saliency가 높은 영역의 token을 선택합니다. 그러나 이 방식 역시 random보다 좋지 않습니다.

이 결과를 통해서 사람이 보기에는 foreground나 움직임, saliency가 중요한 정보처럼 보이지만, 실제 모델이 recognition에 필요로 하는 token은 그런 시각적 단서와 일치하지 않을 수 있다는 것을 알 수 있습니다.

Principle 3: Low-value tokens can hurt recognition

세 번째 principle은 낮은 value를 가진 token이 단순히 불필요한 정도가 아니라, recognition 성능을 방해할 수도 있다는 것입니다.

앞선 실험에서 motion, attention, saliency 같은 직관적인 cue들이 random보다 좋지 않다는 것이 확인되었습니다. 그렇다면 좋은 token과 나쁜 token을 더 직접적으로 구분할 방법이 필요합니다. 이를 위해 저자는 각 token의 gradient를 활용합니다. 특정 class score에 대해 어떤 token이 더 강하게 영향을 주는지 보면, 해당 token이 classification에 얼마나 중요한지 추정할 수 있기 때문입니다.

이를 위해 저자는 Grad-CAM 기반 oracle을 설계합니다. 이 oracle은 각 token의 중요도를 계산합니다. 다만 true class label이라는 privileged information을 사용하기 때문에 실제 inference에서는 사용할 수 없습니다. 그래서 저자는 이를 oracle이라고 부릅니다.

먼저 target class (c)의 score y^c에 대해 마지막 block의 MLP feature activation A^d_thw의 gradient를 계산합니다.

여기서 y^c는 softmax 적용 전 target class c의 score입니다. A^d_thw는 시간 (t), 공간 위치 (h,w), feature dimension (d)에서의 activation입니다. 이 gradient를 모든 token에 대해 평균내면 target class c에 대한 feature별 importance weight ω^c_d를 얻을 수 있습니다.

이후 각 token의 중요도 score는 feature activation과 importance weight의 선형 결합으로 계산됩니다.

그림 4는 oracle과 다른 visual cue들이 선택하는 영역을 heatmap으로 비교합니다. 위에서부터 input video frame, oracle, motion vector magnitude, saliency, attention 결과가 나타납니다. 이 그림을 보면 oracle이 강조하는 영역이 단순히 움직임이 큰 부분이나 saliency가 높은 부분과 항상 일치하지 않는다는 것을 확인할 수 있습니다. 즉, 실제로 classification에 중요한 token은 사람이 직관적으로 중요하다고 보는 영역과 다를 수 있습니다.

저자는 이 oracle이 좋은 token value estimator인지 확인하기 위해, oracle score가 높은 top-K token만 선택해 성능을 측정합니다. 결과는 그림 2에 함께 제시됩니다. Oracle은 모든 baseline과 기존 방법보다 훨씬 좋은 성능을 보입니다. 이는 gradient 기반 score가 token의 recognition value를 잘 반영한다는 것을 보여줍니다.

더 흥미로운 점은 oracle의 성능이 token 수가 늘어날수록 항상 증가하지 않는다는 것입니다. 오히려 적절한 지점에서 가장 높은 성능을 보입니다. 이는 high-value token은 도움이 되지만, low-value token까지 포함하면 noise나 confusion이 추가되어 성능이 떨어질 수 있음을 의미합니다.

Principle 4: The value of tokens follows a Pareto distribution

네 번째 principle은 token value가 Pareto-like distribution을 따른다는 것입니다.

그림 3은 많은 video에 대해 oracle이 계산한 token value histogram을 보여줍니다. 분포를 보면 대부분의 token은 매우 낮은 value를 가지고 있고, 소수의 token만 높은 value를 가집니다. 즉, 전체 token 중 극히 일부가 classification에 필요한 핵심 정보를 대부분 담고 있다는 것입니다.

이 관찰은 random sampling이 생각보다 강한 이유를 설명합니다. 대부분의 token이 낮은 value를 가진다면, random하게 token을 버려도 대체로 중요하지 않은 token이 제거됩니다. 반대로 random sample 안에 tail에 해당하는 핵심 token이 일부 포함되기만 하면, 비디오는 여전히 올바르게 분류될 수 있습니다.

그림 2의 random selector accuracy curve도 이를 뒷받침합니다. 성능 감소가 선형적으로 나타나지 않고, sampled token 비율이 30% 아래로 내려갈 때 급격한 cliff가 발생합니다. 이는 sampling 비율이 너무 낮아지면 핵심 token을 포함할 확률이 크게 줄어들기 때문이라고 해석할 수 있습니다.

Principle 5: Easy videos require less compute

다섯 번째 principle은 쉬운 video일수록 더 적은 계산량으로도 높은 정확도를 유지할 수 있다는 것입니다.

그림 3에서는 easy class와 hard class의 token value distribution 차이도 나타납니다. Easy class는 hard class보다 tail이 더 얇습니다. 차이가 커 보이지 않을 수 있지만, 분석한 token 수가 매우 많기 때문에 통계적으로는 의미 있는 차이입니다. 이는 쉬운 class에서는 classification에 필요한 핵심 token의 수가 더 적을 수 있음을 예측할 수 있습니다.

저자는 이 가설을 확인하기 위해 class별 baseline accuracy와 token dropping에 따른 accuracy drop을 비교합니다. 그림 5는 easy class와 hard class에서 token을 70% 제거했을 때 성능이 얼마나 감소하는지를 보여줍니다. X축은 모든 token을 사용했을 때의 accuracy이고, Y축은 token을 제거했을 때 accuracy가 감소한 비율입니다.

결과적으로 쉬운 class는 token을 많이 제거해도 성능 하락이 상대적으로 작습니다. 반면 hard class는 같은 비율로 token을 제거했을 때 더 큰 성능 저하를 보입니다. 이는 모든 video에 동일한 token budget을 적용하는 것이 최선이 아닐 수 있음을 보여줍니다. 쉬운 video에는 적은 token을 사용하고, 어려운 video에는 더 많은 token을 사용하는 adaptive computation 전략이 필요하다는 의미입니다.

정리하면, 이 섹션의 핵심은 visual token의 중요도가 매우 불균등하게 분포한다는 것입니다. 대부분의 token은 낮은 value를 가지며, 소수의 token이 recognition에 중요한 역할을 합니다. 또한 이러한 중요한 token은 foreground, motion, saliency, attention 같은 직관적인 visual cue와 반드시 일치하지 않습니다. 따라서 단순한 시각적 기준으로 token을 고르는 것보다, 실제 recognition value를 근사하는 방식이 필요함을 알 수 있습니다.

3. LITE

앞선 섹션의 분석을 바탕으로 저자는 LITE라는 방법론을 설계합니다.

3.1. Review of Video Transformer

먼저 저자는 기본 Video Transformer 구조를 간단히 정리합니다. 입력 비디오를 patch들로 나뉩니다. 각 patch는 linear projection을 거쳐 D 차원의 patch embedding으로 변환되고, 여기에 spatial positional embedding과 temporal positional embedding이 더해집니다.

여기서 M은 learnable linear projection이고, e_n과 e^t는 각각 spatial, temporal positional embedding입니다. 이렇게 만들어진 token들은 Transformer block으로 들어가 self-attention과 MLP를 거치며 최종 classification에 사용됩니다.

3.2. Learning to Select

LITE의 핵심은 selector입니다. Selector의 역할은 각 patch token이 얼마나 중요한지를 예측하는 것입니다. 앞선 섹션에서 oracle은 gradient 기반으로 token value를 계산했지만, oracle은 true label을 사용하므로 inference 단계에서는 사용할 수 없습니다. 따라서 저자는 oracle의 token score를 학습해 따라가는 lightweight selector를 만듭니다.

구조는 간단한 3-layer MLP입니다. Patch embedding을 입력으로 받아 각 token의 score를 예측합니다.

여기서 θ는 selector의 parameter입니다.

Training 단계에서는 backbone의 patch embedding module을 frozen한 상태로 사용하고, selector가 예측한 token score와 oracle score 사이의 binary cross-entropy loss를 최소화합니다. 그림 6의 노란색 영역이 이 training 과정을 보여줍니다. 즉, 학습 시에는 Grad-CAM 기반 oracle을 만들고, selector가 이 oracle의 score를 모방하도록 학습합니다.

Inference 단계에서는 oracle을 사용하지 않습니다. 대신 selector가 각 token의 중요도 score를 예측하고, 주어진 budget b에 따라 score가 높은 top token만 선택합니다. 이후 선택된 token만 Transformer block과 classifier로 전달됩니다. 그림 6의 초록색 영역이 이 inference 과정입니다.

정리하면, LITE는 전체 token을 Transformer에 넣기 전에 selector를 하나 삽입합니다. 이 selector는 매우 가벼운 MLP이고, 기존 backbone의 대부분 weight는 그대로 사용됩니다. 따라서 구조적으로는 단순하지만, oracle이 알려준 token value를 근사함으로써 random selection보다 더 나은 token 선택을 목표로 합니다.

3.3. Adaptive Computational Budget

앞선 Principle 5에서 저자는 쉬운 video와 어려운 video가 같은 계산량을 필요로 하지 않는다는 점을 보였습니다. LITE++는 이 아이디어를 반영해 video마다 token budget을 다르게 설정합니다.

핵심은 video의 difficulty를 매우 가볍게 추정한 뒤, 쉬운 video에는 적은 token을 사용하고, 애매한 video에는 기본 budget을 사용하는 것입니다. Difficulty를 직접 아는 것은 어렵기 때문에, 저자는 prediction confidence를 proxy로 사용합니다. 이를 위해 빠르지만 상대적으로 덜 정확한 MoviNet을 사용해 confidence c를 추정합니다.

Budget 결정 방식은 다음과 같습니다. Confidence가 매우 낮은 경우 (c < τ1)에는 매우 어려운 case로 보고 추가 token을 많이 투자하지 않습니다. Confidence가 높은 경우 (c < τ2)에는 쉬운 case로 보고 더 작은 budget을 사용합니다. 그 사이에 있는 경우에는 baseline budget을 사용합니다.

그림 6의 주황색 영역이 이 adaptive budget 과정을 나타냅니다. 기본 LITE가 selector를 통해 중요한 token을 고르는 모델이라면, LITE++는 여기에 video 난이도에 따른 budget 조절을 추가한 버전이라고 볼 수 있습니다.

3.4. Model Variants

마지막으로 저자는 더 복잡한 selector가 성능을 높일 수 있는지도 실험합니다. 크게 세 가지 방향을 확인합니다. 첫째, oracle을 다른 방식으로 개선하는 방법입니다. 둘째, selector가 token을 개별적으로 보는 것이 아니라 global information을 함께 활용하게 하는 방법입니다. 셋째, selector 자체의 capacity를 키우는 방법입니다.

하지만 Supplementary Material의 결과에 따르면, 이러한 변형들은 downstream task accuracy를 뚜렷하게 개선하지 못했습니다. 이는 oracle의 token value를 예측하는 문제가 매우 어렵다는 것을 의미합니다. 동시에 단순한 MLP selector가 오히려 과적합을 피하면서 적절한 균형을 만든다고 볼 수 있습니다.

4. Experiments

이제 실험 결과를 살펴보겠습니다.

4.1. Comparison to State-of-the-art Methods

표 1과 표 2는 각각 SS-V2와 Kinetics-400에서 GFLOPs와 Top-1 accuracy의 trade-off를 비교한 결과입니다. 여기서 LITE 뒤의 숫자는 유지한 token 비율을 의미합니다. 예를 들어 LITE70은 전체 token 중 70%를 사용한다는 뜻입니다. 결과를 보면 LITE는 기존 방법들보다 더 좋은 계산량-성능 trade-off를 보입니다. 같은 accuracy를 기준으로 보면 더 적은 GFLOPs를 사용하고, 같은 GFLOPs를 기준으로 보면 더 높은 accuracy를 얻습니다.

SS-V2에서 LITE는 ObjectViViT와 비슷한 accuracy를 유지하면서도 약 40% 수준의 GFLOPs만 사용합니다. Kinetics-400에서도 LookupViViT와 비슷한 accuracy를 훨씬 적은 계산량으로 달성합니다. 또한 ToMe나 STA 같은 token merging/selection 방법과 비교해도 비슷한 GFLOPs에서 더 높은 성능을 보입니다.

특히 LITE50은 SS-V2에서 GFLOPs를 50% 이상 줄이면서 accuracy drop을 0.6% 수준으로 유지합니다. Kinetics-400에서도 비슷하게 50% 이상의 GFLOPs를 줄이면서 accuracy 감소는 0.9% 정도에 그칩니다. 즉, LITE는 token을 상당히 줄여도 성능을 크게 잃지 않는다는 것을 보여줍니다.

4.2. Zero-shot across Datasets and Tasks

다음으로 저자는 LITE의 generalization을 확인합니다. 여기서는 Kinetics-400에서 학습한 selector를 다른 dataset이나 task에 그대로 적용합니다.

결과는 표 3에 나와있습니다. 먼저 classification task에서는 K400에서 학습한 LITE를 UCF101과 SS-V2에 적용합니다. UCF101에서는 LITE90이 baseline VideoMAE와 거의 동일하거나 약간 높은 성능을 보이고, LITE70도 작은 성능 하락만 보입니다. SS-V2는 K400과 시각적 특성이 꽤 다른 dataset임에도, LITE는 baseline과 가까운 성능을 유지합니다.

4.3. Qualitative Results

그림 7은 LITE가 실제로 어떤 token을 선택하는지 시각화한 결과입니다. 예시는 “Stacking number of something”, “Plugging something into something” 같은 class를 포함합니다.

그림을 보면 LITE는 단순히 한 영역에만 집중하지 않고, action 이해에 필요한 여러 위치의 token을 선택합니다. 또한 oracle이 선택한 token도 특정 영역에만 몰려 있지 않고 다양하게 분포합니다. 이는 중요한 token 조합이 생각보다 다양하다는 것을 의미합니다.

저자는 이 점이 단순한 MLP selector가 효과적인 이유 중 하나라고 봅니다. Selector가 너무 복잡하면 oracle의 특정 패턴에 과적합될 수 있지만, LITE의 MLP는 단순한 구조 덕분에 token diversity를 어느 정도 유지하면서 중요한 token을 선택할 수 있다는 해석입니다.

4.4. Analysis of LITE

먼저 표 4는 SS-V2에서 random baseline과 LITE를 직접 비교한 결과입니다. Random baseline은 앞서 말한 것처럼 상당히 강한 성능을 보입니다. 하지만 P-Ratio가 낮아질수록 LITE와 random의 차이는 커집니다. 예를 들어 token을 30%만 사용할 때, LITE30은 Random30보다 더 높은 Top-1 accuracy를 보입니다. 이는 계산 budget이 빡빡할수록 LITE의 token selection 능력이 더 중요해진다는 것을 의미합니다.

표 5는 oracle을 만들 때 true label을 사용하는 경우와 predicted label을 사용하는 경우를 비교합니다. 결과적으로 true label을 사용한 oracle은 50% token만 사용해도 baseline보다 훨씬 높은 성능을 보입니다. 반면 predicted label을 사용한 oracle은 baseline과 비슷한 수준에 머뭅니다. 이는 oracle의 강력한 성능이 true label이라는 privileged information에서 나온다는 점을 보여줍니다. 동시에, 좋은 token을 정확히 알 수 있다면 전체 token을 사용하는 것보다 일부 token만 사용하는 것이 더 좋을 수 있음을 다시 확인해줍니다.

마지막으로 표 7은 VideoMAE가 아닌 TimeSformer backbone에 LITE를 적용한 결과입니다. 높은 P-Ratio에서는 LITE가 어느 정도 효과를 보이지만, VideoMAE에서만큼 강한 성능은 나오지 않습니다. 저자는 그 이유를 backbone의 성능 차이에서 찾습니다. Backbone이 덜 정확하면 oracle도 더 noisy해지고, 그 결과 selector 학습도 어려워질 수 있다는 것입니다.

Q1. k-means 실험의 목적? >> DINOv2+k-means와 DINOv2+CA는 DINOSAURv2의 장점이 단순히 token을 줄였기 때문인지 확인하는 비교 실험입니다. 아마 리뷰어가 "그냥 토큰…

안녕하세요 주영님! 댓글 감사드립니다. 질문주신 것과 관련된 실험들이 있었는데, 리뷰에는 담지 못한 것 같아 댓글로 설명드리고자 합니다. 잘못된(판별력 있는 description…

안녕하세요 주연님 댓글 감사합니다! 저도 학습없이 fine-grained class에 대해 discriminative한 캡션을 잘~뽑아서 classification 성능을 올린다는 점에서 이 논문을 재미있게 읽은…

안녕하세요 승현님 댓글 감사합니다! Q1) Category-Discriminative Visual Captioner과정에서, 타겟 이미지와 시각적으로 유사한 t개의 샘플을 선택한다고 하셨는데, 클래스당 K개의 이미지로 구성된다면…

특정 대화 하나보다는, 저자들이 후속 연구와 현재 방법의 한계를 솔직하게 설명해주셨던 순간들이 기억에 남습니다. 논문에 적힌 결과보다 저자들이 실제로 중요하게…