[arXiv2025]Does Your Vision-Language Model Get Lost in the Long Video Sampling Dilemma?

본 논문은 비디오 연구에서 Sampling Dilemma 문제를 수면 위로 올리며, 이를 위한 벤치마크 데이터셋을 공개하는 논문입니다. Sampling Dilemma란 무엇인지에서 부터 논문이 어떻게 벤치마크를 구성했는지 리뷰를 통해 다루어보겠습니다.


#Problem Setting.

Sampling Dilemma: Too few and Too much!

Large Vision-Language Models (LVLMs)이 발전하면서 Video understanding 역량을 향상시키고 있습니다. 그러나 비디오를 다룰때 항상 논의되는 문제는 중복 정보나 노이즈에 따른 연산량 문제인데요, 이를 해결하기 위해 통상 일정 간격으로 프레임을 선택하는 Uniform Sampling이 사용됩니다.

유사 연구간의 비교를 위해 Sampling 사용이 일반화 되었지만, 해당 방법에 문제점이 없을까요? 원본 데이터를 축소하는 과정에서 우리는 Sampling Dillemma 즉, 너무 많은 정보를 없애면 중요한 정보를 누락할 위험성이 높아지고(Too few) 그렇다고 없애는 정보의 수를 줄인다면 샘플링의 효과인 중복 정보 제거 등의 이점을 갖지 못한다(Too much)는 딜레마에 빠지게 됩니다.

Then, what we have to do?

현 시점에서 Sampling Dillemma는 지금 long-video를 다루는 테스크에서는 발생할 수 밖에 없는 문제입니다. 그렇다면 해결 방법은 무엇일까요?

단순합니다. Random sampling이 아니라 중요한 부분만 잘 선택할 수 있는 Sampling 전략을 도입하여 중복은 줄이고 LLM에게 입력할 컨택스트는 유지하도록 하는것입니다.


#The strategy.

Sampling Dillemma의 해결책은 단순했습니다. 단순한 해결책이 왜 여지껏 구현되지 못했을까요? Uniform sampling으로 대체되었던 이유가 무엇일까요? 원인은 Necessary Sampling Density (NSD) 입니다.

Necessary Sampling Density: The reason makes the task challenging.

그림1

최신 Video understanding 연구는 이러한 Samling Dillemma에 대해 보통 Uniform sampling 전략을 적절하게 활용하는것으로 대응합니다. 그러나 Uniform sampling을 아무리 적절히 조절하더라도 Trade off를 해결할수는 없습니다.

예제를 통해 살펴봅시다. 위의 그림1은 Video understanding의 대표적인 테스크인 VQA의 시행 예시인데요, 질문에 따라 집중해야하는 영역(영상의 노란색 바)이 다르며, 그 밀도도 다릅니다. 어떤 질문은 영상에서 전역적인 정보가 중요하고, 다른 질문은 영상에서 해당하는 지엽적인 정보가 밀도있게 중요하며, 테스크를 수행하기 위한 필수(Necessary) 샘플링 밀도(Sampling Density)가 상이하다는 것입니다.

즉, Sampling Dillemma를 해결하기 위해서는 NSD를 고려한 샘플링 전략을 제시해야한다는 것입니다. 논문에서는 이러한 필요성을 말하며 연구를 위한 벤치마크를 제시하고 있습니다.

The Benchmark. LSDBench.

그림2

논문은 기존 Video Understanding을 위한 데이터셋의 경우 이러한 NSD를 고려해 구축한 데이터셋의 부재함을 언급하며 데이터셋인 LSDBench를 제시합니다. LSDBench는 HourVideo 비디오셋의 서브셋에 대한 추가 어노테이션을 통해 구축되었으며, 가공 방식은 그림2와 같습니다.

논문은 Long video에 대해 다양한 NSD를 필요로하는 질의응답셋을 구축하기 위해 4단계 파이프라인을 제시하였습니다: Video Hierarchical Structing, Questioin Generation, Answer Generation, Multiple-choice Question Construction

(1) Video Hierarchical Structing

긴 비디오에 대해 LLM을 활용한 효과적인 어노테이션 구축 파이프라인을 위해 논문은 먼저 비디오를 계층적으로 나누는 단계를 수행하였습니다. 이는 가장 먼저 GPT-4o를 통해 캡션을 생성하고 캡션을 clustring 하는 순서로 수행되었습니다. 특히 장소를 기반으로 한번 클러스터링하고, 다음단계로 event나 action 단위로 클러스터링 하여 트리구조를 구축했다고 합니다.

(2) Question Generation

비디오에 대한 질문 생성은 앞서 구축한 트리 계층 구조를 활용하여 5분 이하의 (원본영상 평균 45.39분) 콘텍스트를 활용해 LLM(GPT-4o)을 활용해 자동으로 질문이 생성하고 이후 필터링 하는 방법으로 진행되었습니다. 필터링 또한 2 단계로 진행했는데, 첫번째 단계에서는 LLM을 활용하여 명확하지 않거나 모호한 단어를 포함한 질의를 제거하였으며 두번째 단계에서는 LLM을 활용할때, 나레이션 정보를 활용하도록 하여 비디오 컨텍스트와 관련이 없다고 판단되는 질문을 제거하는 과정을 수행했습니다.

(3) Answer Generation

정답 생성의 경우 Gemini-2.0-Flash를 이용하여 비디오와 비디오에 세그먼트에 대한 나레이션 정보, 비디오와 정답 세그먼트, 쿼리까지 모두 입력으로 하여 정답을 생성하도록 했습니다.

(4) Multiple-choice Question Construction

생성된 답변을 활용하여 다지선다형의 질의응답 세트를 구축하기 위한 과정입니다. 비전 정보 누락없이 답변을 수행하지 못하도록 적대적 최적화 방법을 활용했다고 합니다. 즉, 초기에 다지선다 질문을 생성한 후, 정답을 영상없이 선택하는 과정 시뮬레이션을 반복했습니다.

The Baseline. Sempling strategy.

Sampling Dillemma를 해결하기 위해 논문은 2 stage 기반의 training-free 샘플링 전략인 Reasoning-Driven Hierarchical Sampling (RHS)와 plug and play로 동작할 수 있는 보조 전략인 Semantic-Guided Frame Selector를 제안합니다.

(1) Reasoning-Driven Hierarchical Sampling (RHS)

그림3

논문은 질의에 대한 NDF를 찾기 위하여 먼저 대략적인 위치를 특정하는 1단계와 Dense-Sampling을 진행하는 2단계로 구성된 RHS(Reasoning-driven Visual Cues Localization) 전략을 제안하며 개요는 그림3과 같습니다.

먼저 첫번째 스테이지에서는 전체 비디오를 전반적으로 희소 샘플링(그림3의 Initial Sparse Sampling)합니다. 해당 값을 키프레임으로 하여 VLM에 입력합니다. VLM은 질의와 시간적 정보를 고려하여 질의와 관련있는 영역을 특정합니다(그림3의 상단 원본 영상에서 파란 괄호로 표시된 영역)

다음 스테이지에서는 특정된 영역을 조정하는 단계로, 선택된 구간에서 더욱 밀도있게 샘플링합니다. 이렇게 검색과 재샘플링이라는 2stage 접근법으로 NDS에 효과적인 샘플링 전략을 제시합니다.

(2) Semantic-Guided Frame Selector

그림4

앞선 전략은 Uniform sampling에 비해 필요되는 프레임을 효과적으로 줄일 수 있지만, 초기 sparse한 샘플링을 통해 핵심 정보를 누락할 가능성이 있습니다. 이를 막기위해 초기 sampling에서 단순하게 uniform sparse sampling이 아닌, 선별적 전략인 SGFS(Semantic-Guided Frame Selector) 제안했습니다. 해당 전략은 비디오에서 정보량이 가장 많은 영역을 선별해 내는 것으로 프레임들을 SigLIP2와 같은 VLM으로 임베딩하며, 임베딩된 Feature간의 Cosine similarity를 최대화할 수 있는 k개의 쌍을 다이나믹프로그래밍 방식으로 선별합니다. 이때, 단순히 Cosine similarity 뿐 만 아니라, 프레임간의 거리를 고려하는 페널티 전략도 합산하여 사용하며 수식은 위의 그림4와 같습니다.


#The proof.

Results on Benchmark.

표1. Performance comparison of different models and sampling strategies.

표1의 벤치마크 실험 결과는 Sampling Dilemma가 실제로 존재하며 중요한 문제임을 시사할 수 있는 결과입니다. 실험은 표에서 확인할 수 있듯이 Gemini-2.0-Flash, Qwen-2.5VL, Qwen-2VL, LongVA, LongVila, InternVideo2.5에 대해 진행되었으며 Uniform sampling으로 1FPS를 기준으로 하였으나, 제안된 데이터셋이 long video이기 때문에 해당 입력을 수용하지 못하는 모델의 경우 모델에 고정된 입력에 맞추어 샘플링(Fixed)하여 실험을 진행했다고 합니다.

실험의 상한을 제공하기 위한 Oracle 실험과 전체 비디오를 활용하는 Full video에서 알 수 있듯이 쿼리 등에 적합한 영역에서 샘플링을 진행하는것이 Uniform sampling 보다 유용하며 NSD를 고려한 샘플링이 필수적임을 확인할 수 있습니다. 또한 Qwen2.5-VL 모델에 대해 기존 샘플링 기법을 사용하여 256개의 프레임을 선정한것에 비해 제안하는 RHS 전략으로 225개의 프레임을 선정하는것이 유의미했으며, 이는 Upper에서 0.2 FPS로 샘플링한것보다 높은 성능으로 영상의 주요 위치를 Uniform sampling 대비 잘 특정하고 있음을 알 수 있습니다.

Ablation Study

표2. Comparison with different sampling strategies and ablation studies on SGFS.

표2는 논문이 제안한 샘플링 전략에서 plug and play로 동작하는 SGFS가 유의미한지 보이고 있습니다. 해당 분석 실험은 Qwen2.5-VL를 VLM 모델로 실험했습니다. 먼저 1 Stage Methods는 uniform sampling 대비 단순 SGFS로 샘플링한 결과의 정확도를 비교하고 있습니다. 해당 결과의 첫 행을 보면, Uniform sampling을 통해 32개의 프레임을 선택했을때 보다, 128개의 프레임을 초기 샘플링하고 제안하는 SGFS로 쿼리기반 의미가 높은 영역에서 밀집되도록 32개의 프레임 샘플링을 하였을때 성능이 3.1정도 개선되었음을 확인할 수 있으며, 다양한 세팅에서 전반적으로 성능이 개선되는것으로 제안 방법이 유의미했음을 확인할 수 있습니다.

다음으로 완전한 RHS에 대한 결과인 2 Stage Methods입니다. 전체 영상에 대해 uniform sampling으로 입력하였을때 최대 정확도는 0.2-FPS로 523개의 프레임을 선별해 추론한 51.6%에 해당합니다(표2의 6행 참조) 그러나 2 Stage가 모두 적용된 RHS의 경우 225개의 프레임으로 52.2의 성능을 달성함을 통해 제안 방법의 효과를 확인할 수 있습니다.


본 논문은 현재는 arXiv 2025에 올라와있으며 깃허브를 통해 ICCV 2025 게제 예정임을 알 수 있는 논문입니다. 게제가 된 이후에 instruction 등을 제공하지 않을지 기대해 봅니다. 현재로서는 찾을 수 없어 어노테이션 등에서 VLM 활용에 있어 설명이 약간은 구체적이지 않은 부분이 있는점 양해 부탁드립니다. 이상으로 논문에 대한 소개를 마치겠습니다. 감사합니다.

Author: 황 유진

1 thought on “[arXiv2025]Does Your Vision-Language Model Get Lost in the Long Video Sampling Dilemma?

  1. 유진님 좋은 리뷰 감사합니다.

    기존의 video 연구에서 어떻게 샘플링을 해야 하는지에 관한 논문으로, 해당 논문은 NSD를 고려한 샘플링 전략을 제안하며, 벤치마크를 함께 제안한 연구로 이해하였습니다.

    video hierarchical structing과정은 gpt-4o로 구한 캡션을 기준으로 진행이 되다보니, 이 캡션의 퀄리티가 굉장히 중요할 것 같습니다. 장소에 대한 정보 뿐만 아니라, event와 action에 대해서 따로 평가하거나 신뢰성을 어떻게 이야기하지는 않는지 궁금합니다.

    또한, 비디오에서 정보량이 가장 많은 영역을 선별하는 과정에 대하여 궁금한 것이 있습니다. cosin similarity와 프레임간 거리를 함께 고려하여 쌍에 대한 가중치를 구한 뒤, 이 값이 큰 프레임들을 선별하는 것으로 이해하였는데, 그렇다면 유사한 프레임들만 뽑는것이다보니, 중복으로 볼 수 있지않을까 하는 생각이 들었습니다. 혹시 이에 대해 설명 부탁드려도 될까요?

Leave a Reply

Your email address will not be published. Required fields are marked *