안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 CVPR2025에 게재된 VideoTree 모델로 Long Video Understanding 논문입니다.
Prerequisite Information
대규모 언어 모델(LLM)은 방대한 양의 텍스트 데이터를 학습하여 사람처럼 자연어를 이해하고 생성하는 모델입니다. LLM은 자연어만 처리할 수 있기에 LLM을 이미지, 비디오 정보를 같이 활용하기 위해서는 이미지, 비디오 정보를 LLM에 연결하기 위한 방법이 필요합니다. 일반적으로 비디오의 내용을 묘사하는 caption을 생성하여 LLM에 입력하여 비디오에 관한 질문을 하여 해결하는 방식이나 짧은 비디오 클립과 클립과 매칭되는 쌍을 활용하여 학습하는 방식 등을 활용했습니다. 이러한 비디오-자연어 모델링하는 방법을 통해 video captioning, video question answering, video summarization 등의 task를 수행하고 평가했었습니다.
하지만, 위와 같은 학습을 통해 비디오 모달리티로 확장한 LLM은 주로 짧은 길이의 영상을 통해 학습되었기 때문에 영화와 같은 긴 영상은 잘 처리하지 못합니다. 성능도 낮을 뿐 아니라 긴 영상을 처리하기 위해 많은 연산량을 필요로 하기 때문에 개선이 많이 필요한 연구분야입니다. 최근에는 긴 영상의 이해를 위해 LLM의 강력한 추론 능력을 활용한 Long Video Question Answering 시도가 점점 늘어나고 있습니다. 일반적으로는 비전-언어 모델(VLM)을 활용하여 비디오의 프레임들을 촘촘하게 샘플링하고 각각의 프레임을 caption으로 변환하고 이 caption을 LLM에 입력하여 질문에 대한 답을 구했습니다. 혹은 caption이 아니라 feature를 구하고 이를 LLM에 입력하여 질문에 대한 답을 구했습니다. 이러한 접근은 모델을 별도의 학습 없이 training-free하게 LLM을 활용할 수 있지만, 긴 영상에 적용할 때에는 연산량이 커지고 메모리가 커진다는 단점이 존재합니다. 따라서 긴 영상을 이해하기 위해서는 연산과 메모리 효율적이면서도 긴 영상의 내용을 이해할 수 있도록 모델링하는 방법이 필요합니다.
비디오는 계층적인 구조를 가지고 있습니다. 일반적으로 긴 영상은 짧은 영상(장면)들의 집합으로 구성되어있고 각각의 짧은 영상은 프레임들로 구성되어있습니다. 효과적으로 비디오를 이해하기 위해서는 이러한 계층적인 구조를 잘 이해하는 것이 유리합니다. 하지만 비디오를 top-down으로 영상-장면-프레임 순의 계층적으로 이해하는 것을 장면의 맥락을 효율적으로 파악할 수 있지만, 세부 정보를 모두 파악하기 힘들 수 있습니다. 이번에 리뷰하는 VideoTree는 top-down 방식으로 비디오를 이해하면서도 세밀한 정보까지 이해할 수 있는 효율적인 방법을 제안합니다.
Introduction
Long Video Understanding은 긴 비디오에 대한 QA를 진행하는 task입니다. 일반적인 VideoQA와 다른 것은 바로 긴 비디오라는 점인데 여기서 말하는 긴 비디오는 일반적으로 10분 이상의 영상을 말합니다(대부분의 LVU 데이터셋이 10분 이상의 영상으로 구성되어있습니다). 질문은 일반적으로 특정 인물의 행동에 관한 질문이거나, 영화 전체를 보고 인물의 의도를 추론, 그리고 특정 장면의 묘사 등이 다양하게 포함되어있습니다. 긴 비디오일수록 비디오를 구성하는 프레임 수가 늘어나기 때문에 굉장히 어려운 task입니다. 일반적인 LLM은 입력 길에 따른 제한이 있기 때문에 무한한 메모리와 연산이 가능해도 모든 프레임을 입력으로 넣을 수는 없습니다. 따라서, 어떤 프레임을 사용할 지에 대한 효율적인 요약과 선택이 필요합니다.
기존에는 비디오 프레임을 일정한 간격으로 샘플링(uniform sampling)하여 자막으로 변환한 뒤에 거대한 자막 시퀀스를 LLM에 같이 넣어 답변을 생성했습니다. 하지만, 이러한 접근에는 두가지 문제점이 있습니다. 하나는 긴 비디오는 비슷한 내용의 장면이 여러번 반복되거나 질문과 상관없는 장면들이 많이 포함되게 되는데 uniform sampling은 이러한 중복되고 무관한 정보까지 모두 LLM에 입력으로 활용합니다. 이러한 상황에는 LLM이 불필요한 정보들까지 처리하게 되어 정확도가 떨어지게 됩니다. 또 다른 하나는 어떤 질문들은 비디오의 전체를 알아야하지만, 어떤 질문들은 한 장면 만으로도 필요한 정보를 얻을 수 있습니다. 즉 질문에 따라 필요한 비디오의 이해정도가 다릅니다. 하지만, 기존 방법은 모든 질문을 동일한 방식으로 샘플링하기 때문에 비효율적이고 정확하지 않다는 단점이 존재합니다.
따라서 저자가 해결하고자하는 문제는 바로 긴 비디오로부터 질문에 답하는 데에 필요한 꼭 필요한 정보만을 효율적으로 추출해서 LLM이 효과적으로 추론할 수 있도록 하는 새로운 비디오 표현 방법을 찾는 것입니다. 저자가 집중한 포인트는 영상의 중복적이거나 무관한 정보가 아니라 유의미한 정보만을 효율적으로 활용하는 것입니다. 기존의 방법은 정보가 과하게 들어와 질문과 연관이 없는 정보까지 들어오는 것이 긴 비디오를 이해하는 데에 있어 방해가 되기 때문입니다. 또 다른 중요한 점은 바로 계층적 이해의 부족입니다. 비디오의 어떤 부분은 질문과 밀접하게 연관되어 있어서 특정 프레임은 자세한 정보가 필요하지만 다른 프레임은 대략적인 정보만을 가지고 있어도 질문을 답하는 데에 문제가 되지 않습니다. 따라서 저자는 전부 동일하게 프레임을 보는 것이 아니라 질문과 연관된 부분을 잘 봐야한다고 주장합니다. 이걸 계층적으로 top-bottom구조로 질문에 따라 유연하게 비디오를 분석하는 방법의 필요성을 강조합니다.
이러한 관점으로 문제를 해결하기 위해 저자는 VideoTree를 제안합니다. VideoTree는 질문에 adaptive하게 반응하는 계층적 트리 구조를 통해서 긴 비디오를 표현하고 LLM에게 전달하는 파이프라인입니다.

VideoTree의 큰 흐름은 위 그과 같습니다. 먼저 비디오에서 질문과 관련이 있을 수 있는 장면들을 추려낸 뒤에 장면들을 계층적 형태로 구성합니다. 그런 다음 중요한 부분은 더 많은 프레임을, 중요하지 않은 부분은 더 적은 프레임을 갖도록하여 질문과 연관이 있는 구간의 프레임 정보를 더 많이 활용합니다. 그런 다음 핵심 프레임들을 caption으로 변환하여 LLM에 입력하는 것으로 질문에 대한 답변을 생성합니다. 이와 같은 과정에는 학습이 필요하지 않으며 LLM에 입력하는 프롬프트를 구성하는 전처리 과정에서 수행됩니다. 프레미을 선택하고 조직화하는 과정에서 LLM의 능력을 활용하고 단순히 영상 신호만으로 질문과의 유사도 즉 중요도를 판단하는 것이 아니라 각 부분이 질문에 얼마나 도움이 되는지를 LLM이 평가하게 함으로 질문과 의도에 부합하는 정보를 추출합니다.

위 그림은 VideoTree의 질문에 대한 답변 생성을 위한 3가지 단계를 설명하고 있습니다.
1. Adaptive Breadth Expantion
이 단계의 목표는 비디오 전반에서 질문과 관련이 있는 부분을 찾아서 최상위 요약 장면을 선택하는 것입니다. 먼저 입력 비디오를 인정 간격으로 프레임 샘플링합니다. 여기까지는 기존 방법론과 동일합니다. 그 후에 대표 프레임들의 집합을 만듭니다. 이 대표 프레임들을 임베딩 공간에서 군집화한 후에 K-Means 클러스터링 알고리즘을 활용하여 장면, 시퀀스 별로 묶어주고 각 클러스터를 대표하는 키프레임을 선택합니다. 선책하고 난 후에는 비디오 캡션 모델을 활용하여 대표하는 키프레임의 캡션을 생성합니다. 그 후 LLM을 활용하여 각각의 키프레임의 캡션과 질문과의 유사도를 LLM이 평가하게합니다. 이때 LLM은 GPT4를 사용하게됩니다. 주어진 질문과 키프레임의 캡션과의 유사도를 LLM을 통해 추출합니다. 이때 추출하는 유사도를 1, 2, 3 중에 하나를 출력하고 숫자가 클수록 유사도가 높은 것을 의미합니다. 이러한 관련도 평가를 거친 후에 높은 점수를 받은 클러스터들은 질문과 관련성이 높은 키프레임으로 선정하게됩니다.
여기서 중요한 점 중에 하나는 adaptive하게 작동하는 점입니다. 처음에 K개수를 랜덤하게 설정하였을 때에는 질문에 답변하기에 충분한 장면들을 얻지 못할 수도 있습니다. 저자는 VideoTree의 관련도 높은 클러스터의 개수가 임계치에 미치지 못한다면 K의 개수를 늘린 후 앞선 과정을 반복합니다. 결과적으로 질문에 답을 하기 위한 충분한 개수의 키프레임 수가 선정이 되면 반복적인 과정을 멈추고 최종적으로 키프레임을 선정하게 됩니다. 저자는 이와 같은 반복적인, adaptive한 과정을 통해서 비디오 내에서 질문과의 유사도가 높은 키프레임을 얻을 수 있습니다.
2. Relevance-Guided Depth Expansion
2단계는 1단계를 통해 추출한 키프레임 즉 중요 장면들 중에 더 자세한 정보가 필요한 장면을 골라서 그 장면의 세부 내용을 추출하는 과정입니다. 상위 클러스터라고해서 모두 같은 가중치의 중요도를 갖는 것은 압니다. 일부는 질문과 매우 세밀하게 연관되어 있을 수 있고, 특정 클러스터는 중요하긴 하지만 그정도는 아닐수도 있습니다. 저자는 관련성이 낮은 1점의 점수를 받은 클러스터는 추가적인 정보를 추출하지 않습니다. 하지만 관련성이 높은 장면들은 다시 한번 sub-clustering을 통해서 w개의 하위 클러스터로 나누어 다시 추가적인 키프레임을 추출합니다. 이 계층적인 키프레임 선정 과정을 통해서 VideoTree는 질문과 유사도가 높은 구간의 세부적인 정보까지 추출할 수 있습니다. 이러한 coarse-to-fine 과정을 정보의 밀도가 높지 않은 구간의 정보는 비디오 전반에 대한 맥락을 파악하는 데에 도움을 주고 정보의 밀도가 높은 구간은 최대한 상세하게 파고들어 질문에 맞는 비디오에 대한 이해를 할 수 있도록 합니다. 결국 완성된 트리 구조에서는 뿌리 노드 쪽에는 대략적인 비디오 전바에 대한 이해를, 가지를 따라 내려갈수록 세부적인 내용을 담게 하여 비디오의 전체 내용과 내재적인 정보까지 모두 이해할 수 있도록 합니다.
3. LLM Reasoning
1~2단계를 거쳐 VideoTree는 비디오에서 질문과 유사도가 높은 구간을 선정하였습니다. 앞선 단계에서 추출한 비디오의 키프레임 정보를 통해 caption을 생성합니다. 그런 다음 이 자막들을 시간 순서대로 정렬하여 비디오의 전체 줄거리 요약 텍스트를 생성합니다. 그리고나서 자세한 내용의 텍스트를 생성합니다. 이렇게 하여 얻은 요약 텍스트를 LLM에 입력하여 질문에 대한 답을 생성합니다. 저자는 LLM을 GPT4를 사용합니다. 계층적 요약 텍스트를 LLM에 입력하여 질문에 대한 답을 추론하는데 LLM에 입력하는 텍스트는 긴 텍스트이고, 긴 문맥의 추론 능력을 활용하여 최종 답변을 선택합니다.
즉, 1~3 단계를 거치는 VideoTree는 비디오를 시각 군집화하여 질문과 관련된 핵심 장면을 선택하고, 그 핵심 장면을 다시 세분화하여 계층적 트리로 조직하고 선택된 프레임들을 텍스트로 변환하여 LLM에 입력하고 추론합니다.
Experiments
저자는 다양한 데이터셋에서 VideoTree의 성능을 검증합니다.
- EgoSchema 데이터셋은 약 250시간 분량의 1인칭 시점 긴 비디오로 구성되어있습니다. 평균적으로 3분의 영상 길이를 가지며 사람의 행동에 대한 질문들로 구성되어 있습니다. 5지선다 객관식 문제들로 구성되어있고, 긴 영상 내 사람의 행동에 대한 이해 능력을 평가하는 데이터셋입니다.
- NExT-QA 데이터셋은 평균 44초 길이의 영상으로 긴 비디오라고는 보지 않는 경우도 많지만 일반적으로 VideoQA에서 많이 활용되는 데이터셋입니다. 마찬가지로 객관식 문제로 구성되어있으며 시간적 추론(Tem), 인과적 추론(Cau), 서술적 이해(Des)의 총 3가지 질문 유형이 있으면 모델이 영상 전반적으로 이해하고 있는 지를 평가하는 데이터셋입니다.
- IntentQA 데이터셋은 사람의 의도를 파악하는 장면이 많은 긴 비디오 QA 데이터셋입니다. 비디오의 길이가 10분 이내로 존재하며 사람이 왜 이런 행동을 했을까 와 같은 영상 내 사람의 행동에 대한 외도, 이유를 파악하는 능력을 평가하는 데이터셋입니다.
- Video-MME 데이터셋은 최근 제안된 멀티모달 비디오 이해 데이터셋으로, 여러 종류의 영상 이해 문제를 포함하고 있습니다. 평균 44분, 최대 60분의 영상이 존재하는 굉장힌 긴 영상의 데이터셋으로 긴 영상에서의 모델의 이해 능력을 평가하는 데이터셋입니다.
본 논문은 Long Video Understanding(LVU) 능력을 목표하고 있기에 Video-MME에서의 성능을 가장 유의깊게 확인하시면 좋을 것 같습니다.

Table1은 EgoSchema와 NExT-QA 데이터셋에서의 성능을 확인할 수 있습니다. VideoTree는 두 데이터셋 모두에서 높은 성능 향상을 보여주고 있습니다. 이는 학습 없이 성능을 향상시켰다는 점에서 의의가 있습니다. 또한 저자는 추론 속도 또한 다른 방법론에 비하면 굉장히 빠른편이라고 강조합니다.

Figure3은 기존 방법론인 LLoVi 와 VideoTree의 효율성을 비교하는 정성적 자료입니다. LLoVi는 하나의 비디오에 180장의 프레임을 활용하고 자막을 만들어 추론하기에 약 24.8초가 소요되고, 성능도 더 낮습니다. VideoTree는 약 62.4장의 프레임만을 활용하고 7.8초의 시간이 소요되어 기존 방법론에 비해 훨씬 더 효율적임을 알 수 있습니다. LLoVi도 일반적인 uniform sampling 방법에 비하면 굉장히 빠른 수준이었음을 감안하면 VideoTree 방법론의 효율성을 확인할 수 있습니다. Table2도 마찬가지로 효율성을 보이는 실험결과입니다. 더 적은 프레임으로도 성능이 높게 나오는 것을 확인할 수 있습니다.

Table3와 Table4는 저자가 제안하는 방법론의 Ablation Study입니다. Uniform에 비해 모두 좋은 성능을 보이는 것을 확인할 수 있습니다.

마지막으로 Video-MME 데이터셋에서의 성능입니다. 기존 LVU 방법론인 LLoVi에 비해서 약 6퍼센트 정도의 성능 향상이 있었으며, 앞선 실험과 설명한 것과 같이 효율성도 더 뛰어납니다. VideoTree가 물론 다른 뛰어난 MLLM에 비해서는 성능이 좀 낮긴하지만, 효율적인 점 그리고, 성능이 크게 밀리지 않는 다는 점에서 VideoTree 방법론이 긴 영상에서 효과적이라는 것을 확인할 수 있습니다.

정성적 결과와 함께 논문 리뷰를 마치겠습니다. 감사합니다.
안녕하세요 성준님 리뷰 감사합니다.
컨셉이 coarse하게 한번 질문과의 유사도로 프레임을 걸러내고 그 이후 fine 한 정보까지 보는 방법론인 것 같습니다. 보다가 드는 생각이 보통 이러한 질문들은 영상을 보고 무조건 대답할 수 있는 정보들로 구성되어 있을 것 같습니다. 만약 영상을 보고도 대답할 수 없거나 아예 관련 없는 질문을 하게된다면 이러한 모델이 어떻게 대답하게 될지 궁금합니다.
감사합니다.