[Arxiv 2025] GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval

arxiv 구경하다 새로운 VTR 연구가 나와서 리뷰해보려고 합니다.



1. Introduction

텍스트-비디오 검색(T2VR)은 텍스트 쿼리에 맞는 영상을 찾아내는 기술로, 비디오 검색과 추천, 요약 등 다양한 서비스에서 활용 가능한 기술입니다. CLIP 같은 대규모 사전학습 모델의 등장으로 놀라운 성능 개선이 있었지만, 모달리티 간 격차시간적 복잡성 때문에 여전히 어려움이 존재합니다.

첫째, 대부분의 기존 연구는 오디오를 활용하지 않고, 비주얼 정보에만 의존하고 있습니다. 이로 인해 대화나 배경 소리 등 맥락 정보가 빠져 검색 정확도가 떨어질 수 있습니다. 예를 들어, 교실에서 한 남자가 이야기하는 장면은 시각적으로는 조용한 교실 장면과 유사하게 보일 수 있지만, 오디오가 없으면 구분이 어렵습니다.

둘째, 오디오를 사용하는 연구가 있긴 하지만, 아직 coarse 수준으로 통합하는 상황입니다. 다시말해, 대부분은 샘플 단위의 coarse 수준에서만 정보를 통합하고, 프레임별 의미 변화를 반영하지 못합니다. 비디오 속 오디오는 프레임마다 의미가 달라질 수 있는데(대화나 효과음 등), 이를 무시하면 부정확하거나 잡음이 많은 표현으로 이어질 수 있기 때문이죠.

Figure 1은 저자가 언급한 문제를 보여줍니다. (a) 프레임마다 의미가 변하는 오디오 대화나 특정 소리 효과가 들어있는 경우, 프레임마다 오디오의 중요도가 달라집니다. 이때는 오디오가 의미를 구분하는 데 큰 도움이 되기 때문에, 모델이 오디오에 높은 가중치를 주도록 학습해야 합니다. (b) 의미가 거의 없는 오디오 배경 소리나 주변 잡음처럼 의미 없는 소리가 지속되는 경우에는 오디오가 검색 정확도를 방해할 수 있습니다. 이럴 땐 오디오의 비중을 줄여야 하죠. 즉, 오디오가 항상 중요한 것은 아니며, 프레임마다 오디오의 중요도를 조절하는 게 필요하다는 점을 확인할 수 있습니다.

이 문제를 해결하기 위해 저자들은 GAID라는 새로운 프레임워크를 제안합니다. GAID에는 다음의 두 가지 모듈이 큰 핵심인데, Frame-level Gated Fusion (FGF)으로 프레임마다 오디오와 비주얼 정보를 동적으로 결합하고, Direction Adaptive Semantic Perturbation (DASP)으로 텍스트 임베딩을 안정화해 높은 강건성을 확보했다고 합니다. 본격적인 내용 설명 시작하겠습니다

2. Method

저자들은 제안하는 GAID의 목표는 오디오-비주얼 정보의 상호보완성을 충분히 활용하면서도 시간적 정렬(temporal alignment)과 표현의 강건성(representation robustness)을 유지하는 것입니다. 상단 그림에 GAID의 전체 구조를 보여주며, 두 가지 핵심 모듈로 구성되어 있습니다:

Frame-level Gated Fusion (FGF)
쿼리 텍스트를 조건으로 각 프레임의 오디오와 비주얼 특징을 동적으로 융합

Directional Adaptive Semantic Perturbation (DASP)
텍스트 임베딩에 구조적 정보를 반영한 방향성 노이즈를 주입해 강건성을 높임

2.1 Frame-level Gated Audio-Visual Fusion

앞서 말한 것처럼 오디오와 비주얼 정보는 시간에 따라 기여도가 크게 달라집니다. 예를 들어 일부 프레임에서는 대화나 특정 소리 효과는 중요한 의미를 제공하지만, 배경 잡음이나 침묵은 거의 도움이 되지 않습니다.

기존 연구에서는 비디오 전체에 동일한 가중치를 주는 sample-level fusion이나, 모든 패치나 스펙트로그램 토큰마다 가중치를 계산하는 token-level fusion 방식을 사용했습니다. 상단 그림 3이 바로 그 차이를 설명하는 그림입니다.

(a) Sample-level fusion은 연산은 가볍지만 프레임별 의미 변화를 반영하지 못합니다.
(b) Frame-level fusion은 프레임마다 하나의 게이트를 학습해 오디오와 비주얼의 웨이트를 조절합니다.
(c) Token-level fusion은 더 작은 단위로 연산하기 때문에 세밀한 표현을 얻을 수 있으나 계산량이 매우 크고, 텍스트 조건화 시 토큰 수준의 정보 누출(data leakage) 위험이 있다고 합니다

다시 frame-level fusion에 대한 설명으로 돌아가겠습니다. 비디오 프레임 임베딩과 오디오 임베딩, 그리고 텍스트 임베딩을 결합해 각 프레임의 게이트 값 g_i \in [0,1]을 계산합니다. 이후 이 게이트를 사용해 프레임별 오디오와 비주얼 특징을 가중합하여 최종 비디오 임베딩 v를 생성합니다.

이 방식은 계산량을 줄이면서도 프레임 단위의 시간적 변화를 반영할 수 있고, 모델이 쿼리 텍스트를 참고해 각 프레임에서 오디오와 비주얼 정보의 비중을 조절할 수 있다고 합니다. 마지막으로 이렇게 얻은 비디오 임베딩은 텍스트 임베딩과의 경량 cross-attention을 거쳐 멀티모달 상호작용을 한층 강화한 후 DASP 모듈로 전달됩니다.

2.2 Directional Adaptive Semantic Perturbation (DASP)

Frame-level Fusion이 오디오-비주얼 간의 격차를 줄여주지만, 텍스트 임베딩(text embedding)은 여전히 noise나 누락된 시각 정보에 영향을 받아 검색 정확도가 떨어질 수 있습니다. 이를 보완하기 위해 기존 T-MASS(CVPR24)라는 논문에서는 STP(Stochastic Text Perturbation)라는 방식을 사용했는데, 이 방법은 텍스트 벡터에 Random Noise를 추가해 모델이 입력 변화에 덜 민감하게 만드는 기법이라고 합니다.

하지만 STP에는 두 가지 큰 한계가 있습니다. (1) 노이즈가 아무 방향으로나 무작위로 추가되기 때문에, 실제로 중요한 의미를 강화하지 못하고 오히려 불필요한 차원까지 섞어버릴 수 있다. (2) 여러 번 샘플링을 해야 해서 추론 속도가 느려진다.

    저자들은 이 문제를 해결하기 위해 DASP를 제안했습니다. 비디오와 텍스트 간의 상호작용으로 계산한 의미 있는 방향(variance direction)을 따라 노이즈를 추가하고, 학습 과정에서는 random성을 유지하지만 추론 시에는 단 한 번 계산으로 처리할 수 있도록 설계한 것이죠.

    즉, DASP는 “아무 방향으로나 노이즈를 넣는 대신, 비디오와 텍스트가 실제로 차이가 나는 방향에만 노이즈를 주입”해 더 정밀하고 효율적인 정규화 효과를 주고자 하였다고 합니다.

    DASP 동작 방식

    먼저, 텍스트 임베딩t과 멀티모달 정보로부터 계산한 분산 벡터 \text{std}를 구합니다. 이 때, \text{std}는 노이즈를 추가할 방향을 나타내는 벡터입니다

    기존 STP:

    DASP 학습 시:

    DASP 추론 시:

    (\alpha는 learnable 파라미터)

    Geometric Interpretation
    아래 Figure 4는 DASP가 기존 방식보다 더 “방향성 있는” 정규화를 수행함을 보여줍니다.

    DASP는 콘(cone) 모양의 방향성 영역 안에서만 노이즈를 넣어, 의미를 해치지 않으면서 필요한 변화만 반영합니다.
    이 덕분에 모델이 텍스트와 비디오의 실제 의미 차이에 집중할 수 있습니다. 그에 반해, 기존 STP는 구(hypersphere) 상에서 모든 방향으로 동일하게 노이즈를 추가해 의미와 상관없는 변화가 많았다고 하네요.

    2.3 Loss function

    GAID는 모델의 robustness과 discriminability (구분 능력) 을 함께 높이기 위해 Dual-Branch Contrastive Loss를 사용했습니다.

    Perturbation Branch (Robustness 확보)

    DASP로 생성한 노이즈가 추가된 텍스트 임베딩을 사용해 학습합니다. 의미가 조금 변해도 검색 결과가 안정적이도록 모델을 정규화하는 역할을 합니다.

    Support Branch (결정 경계 강화)

    크로스모달 분산 방향으로 계산한 support embedding을 사용합니다. 이로 인해, 모델이 구분하기 어려운 샘플(worst-case positive)도 잘 구분할 수 있도록 한다고 합니다.

    최종 Loss는 두 가지를 합쳐서 계산하였습니다. 지금까지 저자가 제안한 DASP를 기반으로 설계한 Loss function까지 알아보았습니다.

    3. Experiments

    3.1 Setting

    Dataset
    MSR-VTT, LSMDC, DiDeMo, VATEX

    Evaluation Metric
    Recall@K (R@1/5/10), Median Rank (MdR) and Mean Rank (MnR)

    Backbone
    CLIP (ViTB/32, ViT-B/16)

    3.2 Benchmarks

    (Table 1) MSR-VTT & DiDeMo: Text -> Video

    GAID는 MSR-VTT, DiDeMo, VATEX, LSMDC 등 주요 벤치마크에서 기존 오디오 활용 기법(AVIGATE)이나 오디오 비활용 기법(T-MASS, ViCLIP)보다 일관되게 더 높은 성능을 보였다고 합니다.

    MSR-VTT
    ViT-B/32 백본 기준 R@1에서 +4.8%, R@5에서 +7.7% 향상을 기록했습니다. ViT-B/16에서는 R@1 성능이 추가로 +2% 더 개선되었습니다.

    DiDeMo
    R@1에서 +2.6% 향상을 기록하며 R@5, R@10 지표에서도 일관된 성능 개선을 보였습니다.

    VATEX, LSMDC
    R@1에서 각각 +4.7%, +2.0% 향상을 달성했습니다.

    또한 CLIP-ViP처럼 프레임별 텍스트 설명을 추가한 모델보다도 GAID가 모든 지표에서 더 나은 성능을 보여 저자가 제안하는 모듈의 개선을 확인할 수 있었다고 합니다.

    (Table 4) MSR-VTT: Video -> Text

    보통 성능 리포팅 시 Text->Video, 그리고 Video->Text 를 동시에 리포팅하는데.. 왜 일부만 했는지…

    영상-텍스트 실험에서도 GAID는 AVIGATE 대비 R@1 +6.4%, R@5 +8.2%, R@10 +7.1% 향상하는 결과를 보였습니다.

    3.2 Ablation Study

    GAID는 오디오-비주얼 정보를 결합하는 세 가지 수준인 샘플 단위(Sample-level), 프레임 단위(Frame-level), 토큰 단위(Token-level) 융합을 비교했습니다.

    (Table 5) Fusion Level Comparison

    그 결과는 Frame-level Fusion이 계산 효율성과 모델링 세밀함 사이에서 가장 좋은 균형점을 제공한다는 점을 확인시켜줍니다.

    Figure 5에서는 프레임 단위 게이트의 동작에 대한 정성적 결과입니다. 대화나 중요한 소리가 있는 구간에서는 게이트 값이 높아지고, 의미 없는 배경 소음이 많은 구간에서는 게이트 값이 낮아지며 오디오를 억제하였다고 합니다. 이를 통해 프레임 단위 융합이 오디오의 중요도를 동적으로 조절해 비디오-텍스트 정렬을 강화한다는 점을 확인할 수 있습니다.

    (Table 6) DASP Ablation Study

    저자가 제안하는 DASP 모듈의 효과를 확인하기 위해 기본 모델(no perturbation), 기존 STP(Stochastic Text Perturbation), DASP를 비교했습니다.

    DASP가 55.0%로 가장 높은 검색 정확도를 달성했습니다. 또한 STP는 여러 번 샘플링(예: 20회)이 필요해 98.2초가 걸린 반면, DASP는 단일 패스로 6.5초에 처리가 가능합니다. 이는 STP 수준의 강건성을 유지하면서도 속도를 대폭 단축시켰음을 보여줍니다.

    4. Summary

    GAID는 텍스트-비디오 검색에서 오디오 정보를 활용하고 노이즈를 추가하여 텍스트 임베딩을 안정화함으로써 검색 성능을 향상시키는 프레임워크입니다. 기존 연구들은 대부분 시각 정보에만 의존하거나 오디오를 단순히 합치는 수준에 머물러 있어 중요한 맥락 정보를 놓칠 수 있었습니다. 또한 텍스트 임베딩은 누락된 프레임이나 잡음에 쉽게 영향을 받아 검색 성능이 불안정했습니다. 이를 극복하고자, 첫째 Frame-level Gated Fusion (FGF)에서 프레임 단위로 오디오와 비주얼 정보를 동적으로 조합하여, 중요한 대화나 소리 구간에서는 오디오에 더 높은 가중치를 주고, 불필요한 잡음은 억제하도록 설계했습니다. 둘째 Directional Adaptive Semantic Perturbation (DASP)에서 비디오와 텍스트 간의 차이를 분석해 의미 있는 방향으로만 노이즈를 추가하는 기법으로, STP보다 훨씬 적은 연산량으로도 강건성을 확보했다고 합니다.


    논문에서의 문제정의인 오디오의 중요성은 프레임마다 달라질 수 있다는 점을 명확히 문제로 정의한 것은 설득력있었습니다. 즉, 프레임 단위로 오디오-비주얼 융합을 설계한 부분은 납득이 되는 문제정의였습니다.

    그치만 아쉬운 점도 있습니다. 실험에서 제안 기법의 장점만 강조하고, 한계나 부작용에 대한 검증은 다소 부족했던 것 같습니다. 예를 들어, 프레임 단위 오디오 게이팅이 실제로 어떤 상황에서 실패하는지, DASP가 지나치게 방향을 제한했을 때 의미 있는 표현을 놓치지는 않는지에 대한 내용이 없지 않았나….

    Author: 홍 주영

    Leave a Reply

    Your email address will not be published. Required fields are marked *