[CVPR 2025] Question-Aware Gaussian Experts for Audio-Visual Question Answering

안녕하세요. 오늘의 X-Review에서는 25년도 CVPR에 게재된 <Question-Aware Gaussian Experts for Audio-Visual Question Answering> 논문을 소개드리겠습니다. CVPR 리뷰 과정에서 좋은 평가를 받아 Highlight으로 선정된 논문입니다.

1. Introduction

저자는 Audio-Visual Question Answering (AVQA) task의 한 방법론 QA-TIGER를 제안합니다. 여기서 AVQA는 비디오와 그 비디오에 포함된 오디오 내용을 전반적으로 이해했을때 답할 수 있는 질문을 받아, 올바른 답변을 맞추는 task입니다. 물론 답변을 위해 집중해야하는 비디오나 오디오는 시간 축에 있어 전 구간일수도 있고, 극히 일부일 수도 있습니다.

AVQA는 비디오 내의 오디오 정보를 명시적으로 다룬다는 점에서 최근 활발하게 연구되고 있고, 지금까지는 답변을 위해 비디오와 오디오 구간을 spatial, temporal하게 grounding하는 방향 또는 parameter-efficient하게 큰 모델을 finetuning해서 쓰는 방향, 데이터나 모델에 내재된 편향을 제거함으로써 성능을 올리는 방향으로 다양하게 연구되고 있었습니다. 연구가 수 년간 지속되며 성능이 조금씩 오르고있긴 하나, 저자는 기존 연구들이 여전히 question-specific한 세부 정보나 temporal cue를 놓치고 있다고 주장합니다. 막연히 놓치고 있다고 하면 설득력이 없으니, 정확히 무엇을 개선시키면 좋다는 것인지 함께 이야기해줍니다.

위와 같은 관점에서, 저자는 성공적인 AVQA를 위해서는 아래 두 가지 포인트가 꼭 고려되어야한다고 이야기합니다.

(1) 시간축으로 흐르는 오디오-비디오 정보 중 question-relevant한 정보를 flexible하게 잡아내는 것
(2) 사용자가 던지는 question 정보를 좀 더 명시적으로 오디오-비디오 정보에 결합하는 것

포인트 (1)과 관련해서는 flexible이라는 단어가 키워드가 될 것 같습니다. 기존의 AVQA 방법론들은 비디오로부터 프레임을 단순히 uniform하게 샘플링할 뿐, 프레임 간의 가중을 두지 않습니다. 즉 프레임을 추려내는 과정에 질문이 전혀 반영되지 않고 있던 것입니다. 최근에는 이를 극복하기 위해 비디오와 질문 간 유사도를 기반으로 Top-K개의 프레임을 샘플링하는 방법론들도 제안되고 있지만, 이 과정은 각 프레임에만 의존할뿐 비디오 전반에 뿌려져있는 temporal cue를 명시적으로 고려하진 않았습니다. 특히 프레임 간 temporal 정보 뿐만 아니라 오디오 정보도 놓치고 있었다고 이야기합니다.

다음으로 question의 정보를 비디오-오디오와 좀 더 명시적으로 통합할 필요가 있다고 주장했는데요. 기존 방법론들은 보통 오디오-비디오를 방법론 초, 중반에 열심히 integrate한 뒤 최종 답변을 분류해낼때만 question의 feature를 단순히 matrix multiplication 해주는 식으로 활용합니다. 제가 이전에 보던 Video Moment Retrieval 또한 그렇지만, 최종 답변을 내는데 가장 중요한 question 정보를 이렇게 마지막에 단순한 연산에만 관여시키는 것은 별다른 정량적 근거가 없어도 sub-optimal하다고 볼 수 있습니다. Question 정보를 비디오-오디오 정보와 초반부터 계속 결합시키며 답변에 핵심이 되는 temporal cue를 더욱 잘 잡아내길 기대할 수 있습니다.

여기까지 내용만 정리하면, 저자가 제안하는 QA-TIGER는 시간 축에 따른 비디오-오디오 정보 중 question을 고려해 중요 프레임을 유동적으로, 가중을 두어 뽑아낼 것입니다. 또한 question 정보를 feature integration 과정 전반에 관여시킴으로써 더 나은 temporal cue를 잡아낼 수 있는 모듈들을 제안할 것으로 보입니다.

저자는 Question-Aware Temporal Integration of Gaussian Experts for Reasoning, 줄여서 QA-TIGER라는 방법론을 제안합니다. 첫번째 포인트를 고려하기 위해 QA-TIGER는 MoE 구조를 활용한 multi-Gaussian weighting 메커니즘을 도입합니다. 이 메커니즘은 연속, 불연속적인 시간 구간을 adaptive하게 가중하여 모델이 집중할 구간을 flexible하게 추릴 수 있도록 만들어줍니다. 위 그림 1을 보면 비디오의 일부 프레임을 discrete하게 떼오는 Uniform sampling이나 Top-K frame selection 방식과 다르게, 아래 저자의 QA-TIGER는 flexible하게 프레임끼리의 가중을 두는 것을 볼 수 있습니다.

다음으로 두번째 포인트와 엮어서 보면, 위에서 말씀드린 가중을 효과적으로 주기 위해 연산 초반부터 비디오-question, 오디오-question 관계를 계속 모델링해주게 됩니다. 이러한 integration 과정이 그림 1에 나타나있진 않지만, 이러한 방식을 통해 실제로 question과 유관한 부분만 살리도록 점진적으로 refine해나가는 효과를 가질 수 있습니다.

2. Method

저자가 제안하는 QA-TIGER가 어떤 컨셉인진 알았으니, 어떻게 그 목표를 달성하는지 이제부터 자세히 알아보겠습니다. 우선 각 모달리티 feature notation부터 설명드리겠습니다.

2.1 Input Representation

비디오는 겹치지 않는 1초 단위의 segment $T$ 개로 쪼개지게 됩니다. 하나의 segment 구간 내 하나의 프레임과 오디오 sequence가 존재합니다.

Visual Representation

하나의 segment $t$ 로부터 얻은 프레임은 CLIP 이미지 인코더를 타고 frame-level feature $v = \{v^{t}\}_{t=1}^{T} \in{} \mathbb{R}^{T \times{} D}$ 로 변환됩니다. 이때 frame-level feature $v$ 뿐만 아니라 patch-level feature $p = \{p^{t}\}_{t=1}^{T} \in{} \mathbb{R}^{T \times{} M' \times{} D}$ 또한 추출합니다. 여기서 $M'$ 은 원래의 토큰 개수 $M$ 에 대해 ToMe 방식으로 추려낸 token 개수를 의미합니다. ToMe와 관련된 자세한 내용은 제 이전 리뷰를 참고해주시면 감사드리겠습니다. 대략적으로는, 프레임 내 spatial token간 유사도를 기반으로 redundant한 토큰은 병합하는 기법입니다.

Audio Representation

각 세그먼트 $t$ 에 대해, VGGish 모델로부터 오디오 feature $a^{t} \in{} \mathbb{R}^{D}$ 를 추출합니다. 최종 audio feature는 $a = \{a^{t}\} \in{} \mathbb{R}^{T \times{} D}$ 입니다.

Question Representation

입력된 question 텍스트는 CLIP의 텍스트 인코더로부터 특징을 추출해냅니다. 문장의 [EOS] 토큰을 sentence-level feature $q_{s} \in{} \mathbb{R}^{D}$ 로 활용하고, word-level feature $q_{w} \in{} \mathbb{R}^{N \times{} D}$ 는 가장 마지막의 projection layer를 태우지 않고 얻어냅니다. 여기서 $N$ 은 문장 토큰 개수를 의미합니다.

이렇게 추출한 각 모달리티의 feature들은 아래 그림 2와 같은 QA-TIGER 방법론을 거쳐 최종 답변을 만들어내게 됩니다.

2.2 Question-Aware Fusion

먼저 위 그림 2 좌하단에 나타나있는 Question-Aware Fusion 모듈입니다. 앞서 말씀드린 두 번째 포인트와 관련된 모듈입니다. 논문에는 글로 장황하게 설명이 쓰여있지만, 아래 수식으로 본 모듈을 설명드릴 수 있습니다.

question을 고려한 비디오, 오디오 feature가 각각 수식 (1)과 (2)에서 얻은 $v_{q}$ , $a_{q}$ 입니다. 연산 과정은 SA(Self-Attention), CA(Cross-Attention)으로 구성되어있고, 실제 수식을 보시면 $v_{q}$ 를 만들어내기 위해 question의 word-level feature $q_{w}$ 와 오디오 feature $a$ 도 관여하는 것을 볼 수 있습니다. 좀 더 단순하겐 위 그림 2의 좌하단 모식도를 참고하실 수 있습니다.

이 구조에 엄청난 고찰이 담겨있진 않고, 첫 단계에서부터 question의 특징을 비디오, 오디오와 함께 녹여준다는 점에 contribution이 있다고 느껴집니다. 이 모듈에서 얻는 특징은 $v_{q} = \{v^{q}\}_{t=1}^{T} \in{} \mathbb{R}^{T \times{} D}$ , $a_{q} = \{a^{q}\}_{t=1}^{T} \in{} \mathbb{R}^{T \times{} D}$ 형태입니다.

앞서 얻은 두 특징 $v_{q}$ , $a_{q}$ 는 비디오와 오디오의 특징을 enhance한 것이고, 이어서 patch-level feature를 아래 수식 (3), (4)와 같이 enhance해줍니다.

기존 방법론과 유사하게 spatial grounding 또한 수행하기 위해, patch-level feature도 위와 같이 question이 고려된 visual, audio feature를 활용해 refine해주는 것입니다.

2.3 Temporal Integration of Gaussian Experts

비디오의 temporal dependency를 좀 더 명시적으로 활용하기 위해, 저자는 MoE 구조를 도입합니다. 비디오 시간축에 걸쳐 여러 개의 Gaussian 분포를 두는 것이고, 이를 통해 모델이 question과 관련된 segment에 집중할 수 있도록 만들어줍니다.

Gaussian Generation

Question-relevant한 가우시안 분포를 잘 생성하기 위해서, 비디오와 오디오 모달리티 정보를 조금 더 응집한 feature를 만들어줍니다.

위 수식 (5)와 같이, 단순 CA 연산을 거쳐 sentence-level feature $q_{s}$ 와 비디오, 오디오 특징이 결합된 $D$ 차원짜리 feature $v'_{q}$ , $a'_{q}$ 를 만들어줍니다.

이후에는 위 수식 (6)과 같이 비디오와 오디오의 가우시안 분포를 선언할 수 있습니다. 모달리티마다 총 $E$ 개의 가우시안 전문가(=분포) $g = \{g^{i}\}_{i=1}^{E}$ 를 생성하는 것입니다. 여기서 각 가우시안 분포는 question-relevant한 segment 각각을 나타냅니다. $\{\mu{}^{i}\}_{i=1}^{E}$ , $\{\sigma{}^{i}\}_{i=1}^{E}$ 는 각 분포의 평균과 표준편차를 의미합니다. 이 평균과 표준편차는 $D$ 차원 feature를 입력받아 2차원 벡터를 출력하는 linear layer에 태워 얻게됩니다. 입력은 뒷절에서 자세히 설명됩니다.

실질적으로는, 전체 temporal 축에 걸쳐 가우시안 분포의 redundancy를 최소화하기 위해 등간격으로 initial center를 미리 정해두고, linear layer로 얻은 값을 offset으로 사용해 실제 평균 $\mu{}$ 를 만들게 됩니다. 이렇게하면 각 expert가 offset을 사용하지 않을때보다 distinct한 범위를 담당할 수 있게 됩니다.

Integrating Temporal Information

앞선 과정을 통해 temporal 축 전체에 가우시안 분포 형태의 마스크 여러개를 깔았으면, 실제 질문 답변을 위해 집중해야하는 구간을 추려내야합니다. 제가 자꾸 추려낸다고 표현하는데, 쉽게 말씀드리면 비디오와 오디오 모달에 대해, 질문과 유관한 중요 구간(=가우시안 분포)의 가중은 높게, 중요하지 않은 구간의 가중은 낮게 죽인 뒤 feature aggregation을 한다는 뜻입니다. 일반적인 MoE의 Expert가 MLP 등등이었다면 여기선 시간 축에 따라 뿌려진 가우시안 분포인 것입니다.

그럼 여러 가우시안 분포 중 누군 높이고 낮출지 결정해야겠죠. 그 역할을 하는것이 바로 이제 설명드릴 router입니다. Router는 아래 수식 (7)과 같이 각 가우시안 분포의 가중인 routing value $r_{v} = \{r_{v}^{i}\}_{i=1}^{E}$ , $r_{a} = \{r_{a}^{i}\}_{i=1}^{E}$ 를 추출합니다.

수식에서 $W \in{} \mathbb{R}^{D \times{} E}$ 는 linear layer에 해당합니다. 각 모달리티 feature는 아래 수식 (8), (9)에 따라 aggregate됩니다.

수식 (9)에서 $\mathcal{E}_{m}^{i}(x)$ 는 모달리티 $m$ 의 입력 $x$ 를 받았을때 $i$ 번째 expert(가우시안 마스크)를 적용한 출력을 의미합니다. $\mathcal{G}$ 의 역할은 결국 patch feature를 입력받아 현재 집중하는 위치에 따른 가우시안 마스크를 적용한 뒤, 이를 질문과의 관련도를 의미하는 routing value만큼 반영하고, 전체 시간 구간에서의 위치를 고려해주는 학습 기반의 가우시안 마스크를 마지막에 다시 적용해주는 것입니다.

기존 MoE는 보통 두번째 연산까지만 이루어지지만, 여기까지만 진행하면 질문과의 연관도인 rounting value 가중치가 곱해지며 시간 축에 대한 민감도가 희석되게 됩니다. 이 때 시간 축 어느 위치에서 온 것인지 다시 강조해주기 위해 마지막 가우시안 분포가 계산되는 것입니다. 또한 가우시안 분포를 위와 같이 결합함으로써 기존 Top-K 방식에 비해 시간적인 연속성을 더욱 보장해줄 수 있게 됩니다.

2.4 Question-Guided Reasoning and Prediction

지금까지 여러 과정을 통해 얻은 비디오, 오디오, question feature가 어떻게 task의 최종 출력으로 변환되는지 살펴보겠습니다. 먼저 아래 수식 (10), (11)과 같이 $D$ 차원짜리 최종 feature $F_{va}$ 를 만들어줍니다. 식에서 []는 concat입니다.

마지막까지도 모든 모달리티와 질문 feature를 명시적으로 integrate해주는 모습을 볼 수 있습니다. 최종적으로는 $F_{va}$ 를 linear layer + softmax에 태워 답변 분류를 진행하게됩니다. 학습은 CE loss로 진행합니다.

3. Experiments

3.1 Datasets

벤치마크 데이터셋은 음악 연주 비디오로 구성된 MUSIC-AVQA, MUSIC-AVQA-R, MUSIC-AVQA-v2.0을 선택하였습니다. MUSIC-AVQA의 비디오에는 총 22개 악기가 등장하며, audio only, visual only, audio-visual 관련 질문으로 구성되어있습니다. MUSIC-AVQA-R은 기존 데이터셋에 비해 rare한, 즉 OOD 샘플이 강조된 데이터셋이며, v2.0은 기존 데이터셋의 정답이나 악기에 대한 bias를 최소화하며 다양성을 늘린 데이터셋입니다.

3.2 Quantitative Results and Analysis

표 2는 MUSIC-AVQA 데이터셋에 대한 성능이며 항목별로 Audio QA는 오디오만 입력해도 답변 가능한 질문에 대해, 오디오만 입력했을때의 성능 등을 의미합니다. 추가로 Count, Comparative, Localization, Existential, Temporal 등의 질문 카테고리가 존재합니다.

저자의 방법론 QA-TIGER는 Audio-Visual QA 부분에서, 특히 복합적인 reasoning을 요구하는 Counting 및 Localization 부문에서 기존 방법론보다 훨씬 높은 성능을 보여줍니다. 전체 평균 성능에서도 기존보다 1% 가까이 향상된 성능을 보여줍니다.

표 3은 MUSIC-AVQA-R 데이터셋에 대한 성능이고, 여기서도 마찬가지로 가장 높은 성능을 보여줍니다. 저자들이 별다른 이야기를 추가로 하고있진 않고, bias를 직접적으로 해결하는 방법론이 아님에도 좋은 성능을 달성했다고 말합니다.

다음 표 4는 MUSIC-AVQA-v2.0 데이터셋에서의 성능입니다. 마찬가지로, 기존 방법론보다 평균 측면에서 가장 높은 성능을 보여주고 있습니다. 표 4-(a), 4-(b)를 나누어 보았을때 평가 데이터가 bias든 balanced든 가장 높은 성능을 찍었습니다. 아무래도 편향을 직접 다루는 방법론이 아니다보니 원인 분석은 조금 부족한 상황입니다.

4. In-depth Analysis

4.1 Ablation Study

표 5는 제안하는 모듈별 ablation 성능입니다. 베이스라인은 프레임 uniform 샘플링시의 성능입니다. 실제 성능을 보니 복잡한 가우시안 모델링보다 question을 초반부터 잘 섞어주는것이 더 큰 성능 향상을 불러오는 점이 인상깊습니다.

4.2 Frame Sampling

그림 3은 비디오 프레임 샘플링 방식에 따른 정확도 비교 및 분석입니다. 일반적 방식인 Uniform은 질문 정보를 고려하지 못하며 전반적으로 가장 낮은 성능, Top-K 방식은 질문 내용을 반영은 하나 앞뒤 시간정보 맥락을 놓치며 중간 정도의 성능을 보여주고 있습니다.

나머지 Gaussian 분포 기반의 샘플링 성능 총 4가지가 표시되어있습니다. “Gaussian”은 여러 개의 가우시안 분포 기반으로 비디오, 오디오 feature를 aggregate하지만 가중치 없이 단순 합을 사용한 경우입니다. 사실상 uniform에 가까운 성능을 보여주고있네요. 다음으로 W-Gaussian은 가우시안 분포간 가중치를 동적으로 계산했을때의 성능으로 여기서부터 단순 Top-K보다 성능이 높아지고 있습니다. 최종 형상처럼 질문과 유사도 기반 weighting이 아닌 단순 학습 기반 weighting 성능입니다.

다음으로 W-Gaussian (D.C.)는 Disjoint Center라는 뜻으로 앞서 offset을 활용해 분포가 최대한 겹치지 않게, 여러 범위를 담당하도록 만들어주니 가우시안 개수가 7개일때 굉장히 높은 성능을 보여줍니다. 최종적으로 Expert를 활용했을때, 질문과의 연관도에 따른 동적 비율을 각 Expert에 할당해줌으로써 가장 높은 성능을 달성합니다.

성능과 여러 분석 결과까지 알아보았고, 이상으로 리뷰 마치겠습니다.

2 thoughts on “[CVPR 2025] Question-Aware Gaussian Experts for Audio-Visual Question Answering”

허 재연 says:

09/01/2025 at 12:02

흥미로운 리뷰 감사합니다. 단순히 video QA를 하는 것도 복잡한데 audio까지 input으로 넣으니 더 challanging 한 것 같네요.
프레임워크를 보면 video와 audio와의 attention을 활용하는 것 같은데, ‘방법론 초 중반에 integrate’하는 과정에서 video와 audio의 temporal 정합을 어떻게 만드는지 궁금합니다. 수식 1,2에서 단순히 video와 audio의 모든 segment를 넣어서 attention을 하는 건가요? 아니면 동일 t 시점의 video,audio segment를 정렬해서 함께 Question-Aware Fusion 모델 처리를 하는 건가요?
감사합니다.

1. 김 현우 says:
  
  09/05/2025 at 10:27
  
  재연님 안녕하세요. 질문 감사합니다.
  
  먼저 비디오를 1초 단위 segment로 모두 쪼개게 됩니다. 그리고 1초 단위의 segment에서 하나의 프레임, 1초 구간동안의 오디오를 추출합니다. 따라서 동일 segment에서 나온 비디오 프레임과 오디오는 자연스럽게 정합이 이미 맞아있는 상태라 이들에 대해서는 추가적인 alignment를 진행하진 않습니다. 말씀해주신 내용 중에선 후자에 가깝다고 볼 수 있습니다.
  
  만약 temporal 축 전반에 걸친 비디오와 오디오 간의 temporal 정합을 이야기하신 것이라면 방법론 전반에 걸쳐있는 Cross Attention이 그 역할을 수행하게 됩니다.