안녕하세요. 박성준 연구원입니다. 오늘도 Video Question Grounding 논문입니다.
Introduction
비디오 정보와 자연어 정보를 같이 이해할 수 있는 Video-LM은 이미지-언어 모델인 Image-LM에 비해 더 높은 계산 비용과 높은 주석 비용으로 인해 모델 및 데이터의 규모를 확장하는 데에 어려움이 있었습니다. 이 한계를 극복하기 위해 최근 연구들은 사전 학습된 Image-LM을 활용하여 Video-LM을 효율적으로 학습하는 방법을 연구하기 시작했습니다. 그 방법인 Warm-Start 전략은 Video-LM의 학습에 도움이 되지만, 대부분 균일하게 혹은 무작위로 샘플링된 비디오 프레임들을 시각 입력으로 연결할 뿐이며 명시적으로 언어를 이해한 채로 시간적 모델링을 하지 않습니다. 이러한 방식은 중요한 시각적 단서의 손실로 이어질 수 있기에 Video-LM이 자연어와 무관하거나 중요하지 않은 프레임에 집중할 수도 있게 만듭니다. 어렵게 서술되어 있지만, 간단하게 설명하면 Video-LM을 학습할 때 어떤 비디오 프레임이 자연어와 연관이 있는 지를 학습하지 않기에 기존의 모델은 자연어와 유사도가 높은 중요한 프레임의 위치를 잘 알지 못한다는 것을 말합니다.
저자는 이러한 한계를 극복하기 위해서 Self-Chained Video Localization-Answering(SeViLA) 프레임워크를 제안합니다. 저자는 BLIP-2 모델을 베이스라인으로 사용하여 Video에 대한 QA와 Grounding을 모두 처리할 수 있으면서 동시에 주석으로 인한 비용을 최소화할 수 있도록 프레임워크를 설계했습니다. SeViLA 모델은 Localizer와 Answerer의 두 모듈로 구성되며 효율적인 미세조정 방법인 PEFT기법으로 초기화합니다. 저자는 Forward 단계에서 Localizer의 출력을 Answerer의 입력으로 연계하고 Backward에서 Answerer의 피드백을 통해 Localizer를 계선하는 프레임워크를 제안합니다. 구체적으로는 Forward 단계에서 각 프레임워크마다 “해당 프레임의 정보가 주어진 질문을 정확히 답변하는 데 필요한 세부 정보를 제공하는가(“Does the information within the frame provide the necessary details to accurately answer the given question?)”라는 프롬프트를 사용하여 질문으로부터 중요한 비디오의 키프레임을 선택하고 Answerer는 Localizer가 선택한 키프레임을 입력으로 연결하는 것으로 최종 답변을 생성합니다. Backward 단계에서는 Answerer를 활용하여 키프레임에 대한 pseudo-label을 생성하고 이 pseudo-label을 통해 Localizer를 스스로 조정(self-refinement)합니다. 이러한 Forward, Backward 과정에서 QA와 Grounding의 성능이 모두 향상되며 스스로 조정하기에 주석도 필요없게 됩니다. 즉, weakly supervised 방법임을 알 수 있습니다.

Figure 1은 방금 제가 설명드린 Forward와 Backward 과정을 그림으로 설명하고 있습니다. 자세한 방법은 Method에서 한번 다시 다루겠습니다. 저자는 이러한 방법을 통해서 Video QA와 Grounding을 모두 수행할 수 있는 프레임워크를 제안합니다. Grounding 주석 없이 학습할 수 있는 Weakly supervised 방법론이며, 여러 Video-Language 벤치마크에서 SOTA를 달성하였습니다.
Method
Self-Chained Video Localization-Answering(SeViLA)는 BLIP-2 모델의 사전지식을 활용하여 학습합니다. BLIP-2 모델은 당시 SOTA 사전학습 이미지-언어 모델로 Frozen 이미지 인코더와 Frozen LLM 그리고 이미지 인코더와 LLM을 이어주는 Q-Former로 구성됩니다. Q-Former는 이미지 인코더로부터 추출된 시각 특징 h과 학습 가능한 쿼리 임베딩 q를 입력 받아 고정된 길이의 시각 특징 v를 얻습니다. BLIP-2의 Q-Former는 두 단계를 통해 학습되는데 첫 단계에서는 이미지 인코더에 연결하여 이미지-텍스트 사전학습을 진행하는 것으로 텍스트에 가장 유용한 시각 정보를 추출하고 h 내의 관련 없는 세부정보를 제거하도록 학습합니다. 두번째 단계에서는 Q-Former를 LLM에 연결하여 생성적 언어 능력을 학습합니다. FC-layer를 통해 자연어 쿼리의 임베딩을 LLM 차원으로 사영시켜 이미지-텍스트 사전학습을 진행합니다. 이 두과정을 거쳐 사전학습된 BLIP-2는 다양한 이미지-언어 과제에서 뛰어난 성능을 보일 수 있습니다. SeViLA는 기본적으로 BLIP-2를 Localizer와 Answerer에서 모두 활용합니다. 이미지 인코더와 LLM을 Freeze해둔 상태로 두개의 Q-Former를 학습하는 방법으로 Localizer와 Answerer를 업데이트합니다.

Figure 2는 SeViLA가 Localizer와 Answerer가 BLIP-2를 활용하는 방법을 보여줍니다. Localizer는 상위 K개의 프레임을 선택하며 Answerer는 이 프레임들(키프레임)에 집중하여 답변을 예측합니다. Localizer와 Answerer는 서로 다른 Q-Former를 사용합니다.
Localizer는 Frozen 이미지 인코더 ViT를 통해 feature h를 추출합니다. 비디오 특징 V = {h_1, h_2, \dots, h_n}는 Answerer와 Localizer에서 모두 동일하게 사용됩니다. Localizer의 목적은 V로부터 가장 자연어 쿼리에 연관 높은 키프레임을 선정하는 것입니다. Figure 2의 상단에서와 같이 원본 비이도 특징으로부터 프레임 특징을 각각 독립적으로 추출하고 이를 LLM인 Flan T5에 입력합니다. 여기서 LLM에는 “해당 프레임의 정보가 주어진 질문을 정확히 답변하는 데 필요한 세부 정보를 제공하는가(“Does the information within the frame provide the necessary details to accurately answer the given question?)”의 프롬프트와 자연어 쿼리를 함께 입력하여 자연어 context를 파악할 수 있게 구성합니다. LLM은 각 프레임의 점수를 산출하고 이 점수는 LLM이 키프레임을 선정할 때 기준이 되는 점수입니다. 이를 top-K개 선정하여 사용하게 됩니다. k개는 하이퍼파라미터로 선정합니다.

Answerer는 Localizer로부터 키프레임 집합인 K를 이어 받아 답변을 생성합니다. Localizer에서와 마찬가지로 Q-Former를 거쳐 키프레임들과 자연어 쿼리 특징을 연결하고 LLM에 입력하는 것으로 최종 답변을 생성합니다. LLM에 입력할 때에는 각 프레임의 ID 토큰을 추가로 입력하는 것으로 프레임을 구분하여 입력했다고 합니다.


Figure 3은 Forward와 Backward를 설명하는 그림입니다. Forward에서는 Answerer를 미세조정합니다. 일반적인 미세조정 과정과 동일하므로 자세한 설명은 생략하겠습니다. Backward가 저자가 제안하는 파이프라인의 핵심 내용입니다. 앞선 Forward 과정에서 답변을 Answerer가 생성했습니다. Answerer가 생성한 답변을 pseudo-label로 사용하는 것으로 저자는 주석을 필요로하지 않는 weakly-supervised 방법론임을 Introduction에서 강조했었습니다. 여기서 생성하는 pseudo-label은 이진 분류 라벨로 키프레임인지 아닌지를 구분하는 라벨입니다. 만약에 Answerer가 하나의 프레임을 참고하여 답변을 맞출 수 있다면, 키프레임이고, 그렇지 않다면 키프레임이 아닐거라는 가설로 Freeze된 Answerer로 프레임별로 답변을 생성하고 정답과 비교를 통해 키프레임이 될 수 있는지 없는지를 판단하게 됩니다. 이 과정을 통해 Localizer는 키프레임에 해당하는 프레임이 어떤 프레임인지를 스스로 미세조정(self-refinement)할 수 있습니다. Lozalizer의 성능을 확실히 하기 위해 저자는 영상 내 구간 검색(Moment Retrieval) 데이터셋인 QVHighlights 데이터셋을 통해 사전학습 한 후에 self-refine합니다. 이를 통해 저자는 BLIP-2 기반의 Video QA, Grounding 모델인 SeViLA를 학습했습니다.
Experiments
저자는 먼저 여러 VideoQA 데이터셋에서의 객관식 QA 성능을 실험합니다. 그리고 Video Language Event Prediction (VLEP)와 Moment Retrieval 성능을 측정하는 것으로 저자가 제안하는 SeViLA 모델이 VideoQA, Grounding 모두 가능하고 성능이 좋다는 것을 검증합니다. Baseline은 InternVideo와 BLIP-2로 설정하여 성능을 비교합니다.

Table 1은 VideoQA와 VLEP의 성능입니다. NExT-QA, STAR, How2QA, TVQA 데이터셋은 VideoQA 데이터셋이고 VLEP는 비디오 내 사전을 예측하는 task입니다. 32->4는 Localizer가 32장 중에 4장의 키프레임을 선정하는 것을 의미하고 십자가 모양은 Backward를 통한 Localizer 학습을 하지 않은 모델입니다. 저자는 위 실험결과를 통해 세가지 결론을 내렸습니다. 하나는 temporal modeling의 중요성입니다. 시간적이해능력을 키우는 것이 저자는 QA 성능을 향상시키는데 큰 도움이 됐다고 말합니다. STAR 데이터셋에서 특히 BLIP-2에 비해 13퍼센트 가량 성능이 향상하며 좋은 성능을 보였다고 합니다. 두번째는 키프레임 선택의 효과입니다. 십자가 달린 성능이 Backward 학습을 하지 않고 키프레임 선정만 한 성능임에도 불구하고 기존의 BLIP-2 혹은 InternVideo보다 높은 성능을 보이며 효과적이었음을 강조하고 있습니다. 이를 통해 자연어 쿼리와 연관있는 비디오에 집중하는 것이 더 효율적인 동시에 성능 향상에도 도움을 주고 있음을 보이고 있습니다. 세번째는 self-refinemet의 성능입니다. pseudo-label을 생성하고 학습한 모델의 성능이 사용하지 않았을 때 대비 NExT-QA에서 0.4, STAR에서 2.2, TVQA에서 1.9의 성능 향상을 보이며 self-refinement의 효과를 검증했습니다.

Table 2는 zero-shot 성능 비교입니다. 비디오 사전 학습 없이도 SeViLA는 기존 모델들보다 높은 성능을 보였습니다. 추가로 저자는 음성 및 추가적인 비디오 사전학습까지 수행한 FrozenBiLM 보다도 높은 성능을 보였음을 강조하며 SeViLA의 성능을 강조합니다. 저자는 추가로 균일하게 비디오를 샘플링하는 것보다 키프레임에 집중하는 것이 효율적이라는 것을 확인할 수 있다고 강조하고 있습니다.

다음은 Ablation Study입니다. 균등하게 프레임을 사용하는 것보다 키프레임에 집중하는 것이 더 성능이 좋은 것을 확인할 수 있고, Backward를 통하 Localizer의 학습을 거치는 것이 더 성능인 높은 것을 Table3를 통해 확인할 수 있습니다. 저자는 특히 너무 dense한 프레임 선정보다도 오히려 sparse하게 특정 프레임을 선정하는 것이 더 효율적임을 강조합니다.

마지막으로 정성적 결과와 함께 리뷰 마치겠습니다. 저자의 키프레임 선정방식이 기존의 균등하게 비디오 프레임을 샘플링해서 QA를 진행하는 것보다 더 정답에 가까운 결과를 내는 것을 확인할 수 있습니다.
감사합니다.