안녕하세요, 정의철 연구원입니다. 논문 작업으로 인해 한동안 X-review를 작성하지 못했지만, 다시 돌아와 연구 동향을 살펴보려고 합니다. 이번 리뷰에서는 Text-Video Retrieval 연구를 다루며, 향후에도 이 분야의 연구를 지속적으로 분석할 예정입니다. 그럼 지금부터 리뷰를 시작하겠습니다
1. Introduction
Text-Video retrieval은 텍스트 또는 비디오 클립 쿼리에 대해 가장 의미적으로 관련된 비디오 클립 또는 텍스트를 찾는 task입니다. 하지만 비디오와 텍스트는 특성이 크게 달라 정확한 retrieval을 수행하는 것이 쉽지 않습니다. 예를 들어, 비디오는 중복된 특징 추출이 가능하지만, 텍스트는 일반적으로 짧은 캡션, 자막, 해시태그 형태로 제공되며, 비디오에 비해 의미적 정보가 제한적입니다.
이러한 비디오와 텍스트의 특성을 인식한 이전 연구들은 다양한 vision-language model (CLIP)을 Text-Video 멀티모달 도메인에 적용하거나, 비디오-텍스트 간의 상호작용을 학습하거나, 비디오의 시간적 특성을 모델링하는 방법을 제안하였습니다. 또한, 비디오와 텍스트를 fine grained level에서 연결하는 접근 방식도 제시가 되었습니다.
이처럼 대부분의 기존 방법들은 정확한 비디오 또는 텍스트 임베딩을 학습하는 것을 목표로 합니다. 다시 말해 임베딩을 단일 텍스트/비디오 Point로 추출하는 방식을 사용합니다. 그러나 단일 텍스트 임베딩으로 비디오 내의 모든 의미와 시각적 변화를 포착하는 것은 한계가 있습니다. 왜냐하면 텍스트는 짧고 간결한 반면, 비디오는 방대한 정보를 포함하고 있기 때문입니다. 이러한 문제를 해결하기 위해, 본 연구에서는 더 유연한 텍스트 모델링 접근 방식을 통해 비디오 의미 정보를 더 잘 포착하고, 텍스트와 비디오의 정렬을 향상시키기 위해 T-MASS를 제안합니다.

그림 1을 통해 알 수 있듯이 T-MASS는 기존 방법과 달리 텍스트를 임베딩 공간의 단일 지점으로 취급하지 않고, “text mass”로 표현하여 의미적 범위를 확장합니다. text mass를 구현하기 위해서는 CLIP 모델의 deterministic text embedding에 대해 reparametrization을 적용하는 방법이 있습니다. 자세한 설명은 이후에 드리겠지만, reparametrization은 확률 분포에서 샘플링할 때, 역전파를 가능하게 하기 위해 사용하는 기법입니다. 일반적으로 확률 분포에서 직접 샘플링하면 역전파를 통한 학습이 어렵지만, Reparametrization Trick을 통해 이를 해결할 수 있습니다. T-MASS에서는 이러한 방식으로 텍스트 임베딩을 하나의 고정된 점이 아닌 확률 분포로 표현하여, 텍스트-비디오 매칭의 학습을 수행합니다. 그러나 이러한 text mass를 학습하는 과정에서 몇 가지 어려움이 존재합니다.
첫째, text mass scale 결정의 어려움 입니다. 기본적인 scale은 텍스트에 따라 달라질 수 있으며, 심지어 서로 다른 비디오에 대해 동적으로 변화할 수도 있습니다. 이를 해결하기 위해, 본 연구에서는 Similarity-Aware Radius Module을 개발하여, 텍스트-비디오 쌍에 적응적으로 조정 가능한 학습 가능한 스케일을 구현했습니다.
둘째, joint embedding space에서 text mass을 어떻게 추가적으로 정규화하고 이동시킬 것인가 하는 문제입니다. 본 연구에서는 text mass 전체를 한꺼번에 처리하지 않고, Stochastic Text Points와 Video Points 간의 Contrastive Learning만으로도 성능을 향상시킬 수 있음을 발견했습니다. 또한, Support Text Vector를 도입하여 Text Mass의 위치와 스케일을 동시에 제어하도록 했습니다. 저자는 또한 추론 과정도 재구성하여 text mass을 최대한 활용하는 방식을 도입했습니다. 이는 각 비디오 후보에 대해 쿼리 텍스트의 확률적 텍스트 임베딩을 배치로 샘플링한 후, 비디오 임베딩에 가장 가까운 텍스트 임베딩을 선택하여 평가합니다.
이러한 방식으로, 제안된 T-MASS는 기존 단일 포인트 텍스트 표현 방식과 비교하여, 관련된 텍스트-비디오 쌍 간의 연결을 강화하고, 비관련 쌍을 효과적으로 밀어내어 더 정확한 retrieval task를 수행합니다.
2. Method
2.1 Preliminaries
Text-Video retrieval task를 수행하기 위해서는 텍스트(t)와 비디오(v)를 joint embedding space에서 학습하여 t, v ∈ R^d를 생성하는 것으로 시작합니다. 여기서 d는 특징 차원을 나타냅니다. 그런 다음 cosine similarity와 같은 유사도 측정 함수 s(t, v)를 사용하여 유사도를 계산합니다. K개의 서로 다른 Text-Video 쌍을 포함하는 train Dataset D = {(tk, vk)}(k=1~K)이 주어졌을 때, 손실 함수는 symmetric cross entropy 를 사용하여 관련 Text-Video 쌍 간의 거리를 최소화하면서 무관한 쌍 간의 거리를 최대화합니다. 식을 정리하면 아래와 같습니다.

여기서 N은 Text-Video 쌍의 집합으로, 일반적으로 배치 크기를 나타내며, λ는 학습 가능한 스케일링 인자입니다. 전체 손실 함수 Lce는 다음과 같습니다.

손실 함수는 배치 내 모든 텍스트-비디오 쌍이 정확하게 맞아떨어질 때 값이 0이 됩니다. 즉, s(ti, vi)의 값이 텍스트와 비디오가 일치할 때는 1, 다른 비디오와 텍스트는 0이 되어야 한다는 의미입니다. 하지만 이 과정은 쉽지 않으며, 텍스트와 비디오의 표현이 얼마나 잘 만들어졌는지에 따라 달라집니다. 예를 들어, 그림 1에서처럼 실제로 관련이 있다고 판단된 텍스트-비디오 쌍도 완벽하게 일치하지 않을 수 있습니다. 비디오는 불필요하게 많은 정보를 제공하거나 중복될 수 있고, 텍스트는 의미가 제한적일 수 있기 때문입니다. 이로 인해 두 가지 유형의 데이터에서 의미를 제대로 학습하는 것은 어려운 과제로 남아있습니다.
2.2 Text-Video Representations
Text-Video retrieval task를 수행하기 위해서는 두 데이터를 같은 임베딩 공간에서 표현될 수 있도록 변환해야합니다. 이를 위해, 최근에는 CLIP 모델을 많이 사용하고 있습니다. 비디오는 수많은 프레임(이미지)으로 구성되어 있으므로, 모든 프레임을 분석하는 것은 비효율적이기 때문에 일부 중요한 프레임(T’개)을 샘플링하여 각 프레임을 이미지 인코더를 통해 임베딩 벡터로 변환하게 됩니다. CLIP의 이미지 및 텍스트 인코더를 각각 ϕv 및 ϕt로 나타낼때 특징 추출은 다음과 같이 정의됩니다

비디오 임베딩은 비디오의 여러 프레임을 CLIP 모델을 통해 벡터로 변환한 후, 이를 결합하여 비디오 전체를 하나의 벡터로 표현하는 과정입니다.

여기서 ψ(⋅)는 프레임-텍스트 상호작용을 통해 비디오 의미를 뽑는 feature fusion module로, 여러 수준에서 비디오 의미를 추출하거나 시간적 모델링을 사용할 수 있습니다. 하지만 비디오의 복잡한 의미를 텍스트로 완벽하게 표현하는 것은 어렵기 때문에, 두 임베딩 간의 alignment을 맞추는 것은 여전히 큰 어려움으로 남아 있습니다.
이러한 문제를 해결하기 위해 저자는 텍스트 임베딩의 표현 범위를 확장하고 유연성을 강화하고자 했습니다. 구체적으로, 단일 벡터가 아닌 특정 의미 범위(semantic range)와 연관된 ‘text mass’라는 새로운 임베딩 방식을 도입하여, 비디오 임베딩과의 유연한 대응이 가능하도록 설계했습니다.
2.3 Proposed Method: T-MASS
Stochastic Text Modeling
본 연구에서는 T-MASS (Text is Modeled As a Stochastic representation)를 제안합니다. 기존의 방법과 달리, T-MASS는 텍스트를 단일한 포인트가 아닌 mass로 투영하여 확장성과 표현성을 동시에 갖춘 임베딩 학습 방식을 도입하였습니다. 아래 그림 2는 T-MASS의 전체적인 프레임워크를 보여줍니다.

이전에 말씀드린대로 학습 과정에서 stochastic gradient calculations을 가능하게 하기 위해 reparameterization을 적용하였습니다. 식 (3)에서 정의된 기존 텍스트 임베딩 t을 기반으로, 확률적 텍스트 임베딩 ts을 다음과 같이 정의합니다.

여기서, epsilon은 사전 확률 분포(P=N(0,1) )에서 샘플링된 auxiliary variable이며 R∈Rd는 text mass의 크기를 모델링하며, 기본적인 범위를 정의합니다. 기존 방식에서는 텍스트 임베딩 t와 비디오 임베딩 v 사이의 거리를 조정하는 방식을 사용했습니다. 하지만 T-MASS에서는 text mass내부에 존재하는 모든 점이 해당 텍스트의 의미를 표현하는 유효한 임베딩으로 간주될 수 있으며, 유사도 계산에도 사용할 수 있습니다. 이 방식은 기존의 텍스트 인코더를 그대로 활용할 수 있도록 하며, 최소한의 구현 변경만으로도 적용이 가능합니다.
Similarity-Aware Radius Modeling
확률적 텍스트 임베딩(ts)을 train loss Lce에 바로 적용하는 것에는 어려움이 있습니다. 왜냐하면 text mass의 크기가 너무 크면 무관한 비디오 임베딩까지 포함해 retrieval 성능이 저하될 수 있으며, 반대로 너무 작으면 비디오와의 의미적 일치를 이루기 어렵습니다. 따라서 고정된 R 값을 설정하는 대신, 텍스트-비디오 쌍에 따라 R을 동적으로 조정하는 방식이 필요합니다. 이를 해결하기 위해, similarity-aware radius module을 제안하였으며, 텍스트 t과 비디오 프레임 [f1,…,fT′]을 기반으로 적절한 text mass 크기를 학습할 수 있도록 하였습니다. 주된 아이디어는 텍스트와 비디오 프레임 사이의 cosine similarity를 계산하고, 이를 텍스트-비디오 관계를 나타내는 지표로 활용하는 방식입니다.

이 유사도를 이용하여 학습 가능한 스칼라 θ를 정의하고, 이를 이용해 반경 R을 계산합니다.

이 때 R은 지수 함수로 크기가 조정됩니다. 이렇게 계산한 R을 사용하면, 기존의 방법보다 성능이 더 잘 향상되는 것을 확인할 수 있었습니다.

또한, 고차원 공간에서 반지름을 조정할 때 단순한 스칼라 값만 사용하면 유연성이 부족할 수 있습니다. 그래서 저자는 반지름 R을 계산하는 방법을 조금 더 복잡하게 만들기 위해 선형 계층을 도입하여, S의 값을 기반으로 반지름을 더 정교하게 조정합니다. 이렇게 얻은 R은 확률적 텍스트 임베딩을 계산할 때 사용이 되고 이를 통해 비디오와 텍스트 간의 유사도를 더욱 정확하게 반영할 수 있습니다.
Learning Text Mass in Joint Space
기존 손실 함수인 식(1)에서 텍스트 임베딩 t와 비디오 임베딩 v 사이의 관계는 text mass의 이동만 제어할 뿐, scale은 조정하지 않았습니다. text mass는 stochastic text embedding으로 구현되므로, 학습 과정에서 확률적 텍스트 임베딩 ts를 무작위로 샘플링하여 식(1)의 t를 ts로 대체합니다. 이를 통해 text mass 내의 다양한 지점을 학습에 참여시킬 수 있습니다. 이를 위해 기존 symmetric cross-entropy loss, Lce를 확장하여 새로운 stochastic loss, Ls를 추가로 정의하였고 최정적인 손실 함수는 다음과 같이 표현 됩니다.

이러한 학습 방식은 R@1 기준 1.5% 이상의 성능 향상을 가져왔습니다.
그러나 여기서 저자는 기존의 t를 이용한 학습 방식이 오히려 해로울 수 있다는 점을 발견합니다. 왜냐하면 t는 하나의 고정된 텍스트 임베딩 벡터로 text mass 전체의 특성을 반영하지 못하고, 특정 방향으로만 편향된 학습이 이루어질 수 있기 때문입니다. 또한 text mass는 복잡한 고차원 임베딩 공간에서 불규칙한 형태로 존재하기 때문에,확률적 텍스트 임베딩(ts) 몇 개만 샘플링하는 것은 이 전체를 제대로 학습하기에는 부족하다는 문제점이 생깁니다. 따라서 저자는 support text vector, tsup를 도입하여 이 문제를 해결하고 합니다. 이는 아래 그림 4를 통해 확인할 수 있습니다.

tsup은 주어진 텍스트 임베딩 t와 비디오 임베딩 v 사이에서 특정한 위치를 결정합니다. 이 위치는 비디오와 텍스트 간의 의미적 거리를 기반으로 계산되며, 아래의 수식을 통해 정의됩니다:

기존 방식에서는 text mass가 어디까지 확장되어야 할지 정확히 제어하기가 어려웠습니다. 하지만 tsup을 추가함으로써 text mass의 크기와 이동을 학습할 수 있어 더 정밀한 학습이 가능하도록 했습니다. 따라서 최종 손실은 아래 정의된 것과 같이 기존 contrastive learning Lce 대신, tsup을 활용한 새로운 손실 함수 Lsup을 도입하여 학습을 진행합니다.

Inference pipeline
본 연구에서는 stochastic text representation을 활용하여 inference pipeline을 개선하였습니다. 우선, 주어진 텍스트-비디오 쌍 {t,v}에 대해, 텍스트 임베딩 t과 비디오 프레임 임베딩 [f1,…,fT′]을 추출합니다. 이 과정은 식 (3) 을 기반으로 수행됩니다. 이후, 확률적 샘플링을 M번 반복하여 M개의 확률적 텍스트 임베딩 {ts1,…,tsM}을 생성합니다. 생성된 확률적 텍스트 임베딩들 중 비디오 임베딩 v과 가장 높은 유사도를 가지는 임베딩 t^s을 선택합니다. 이 과정은 다음과 같이 정의됩니다.

여기서 s(t, v)는 텍스트와 비디오 간의 유사도를 측정하는 함수이며, 비디오 임베딩 v은 feature fusion module ψ(⋅)을 통해 계산됩니다 (식 (4)). 최종적으로 선택된 t^s을 metric computation에 활용하며, 기존의 단일 텍스트 임베딩 방식보다 더욱 정밀한 검색 결과를 도출할 수 있습니다.
T-MASS의 이 접근법은 텍스트 임베딩이 고정된 값으로 제한되지 않고, 다양한 확률적 표현을 통해 최적의 임베딩을 선택할 수 있도록 합니다. 이를 통해, 텍스트-비디오 정렬(text-video alignment)이 보다 유연하고 적응적으로 수행되며, 검색 성능이 최적화됩니다. 특히, 기존 방식에서는 원래의 텍스트 임베딩 t이 비디오 임베딩과의 유사도가 낮을 경우 검색 성능이 저하될 수 있었으나, T-MASS에서는 비디오 임베딩과 더 가까운 확률적 임베딩을 동적으로 선택할 수 있어 검색 성능이 향상됩니다. 이 방법은 텍스트에서 비디오를 검색하는 경우(text-to-video retrieval)뿐만 아니라, 비디오에서 텍스트를 검색하는 경우(video-to-text retrieval)에도 동일하게 적용할 수 있습니다.
결론적으로, T-MASS는 텍스트 임베딩의 표현력을 확장하고, 보다 유연한 방식으로 텍스트-비디오 검색을 수행할 수 있도록 합니다. 이를 통해 기존 방식과 차별화되며, 검색 성능을 향상시키는 효과적인 방법을 제공합니다.
3. Experiment
3.1 Performance Comparison
저자는 T-MASS의 text-to-video retrieval 성능을 다섯 개의 벤치마크 데이터셋에서 기존 방법들과 비교했습니다. 그 결과, T-MASS가 모든 평가 지표에서 기존 baseline 모델인 X-Pool보다 큰 폭으로 성능을 향상시킬 뿐만 아니라, 최신 연구들과 비교해도 SOTA의 성능을 달성했음을 발견했습니다.


표 1에 따르면, T-MASS는 LSMDC ViT-B/32 모델에서 CLIP-ViP 대비 R@1 기준 3.3% 향상된 성능을 보였고, 표 2에서는 DiDeMo ViT-B/16 모델에서 X-Pool 대비 R@1 기준 6.0%의 성능 향상을 달성했습니다.
T-MASS는 다양한 데이터셋 및 모델 크기에서도 일관된 성능 향상을 보여줍니다. 그러나 MSRVTT ViT-B/16 환경에서는 CLIP-ViT가 더 나은 성능을 보이는 경우도 있습니다. 이는 CLIP-ViP가 WebVid-2.5M , HD-VILA-100M 과 같은 추가 데이터셋을 활용하여 post-pretraining을 진행하였기 때문이고 더 큰 모델인 ViT-B/16의 경우, 추가 데이터가 성능 향상에 더 큰 영향을 미치는 경향이 있다고 저자는 설명하고 있습니다.

그럼에도 불구하고, T-MASS는 다른 데이터셋과 백본(backbone) 모델에서 CLIP-ViP보다 우수한 성능을 보였고표 3에서는 video-to-text task 에서도 최고의 성능을 달성함을 확인할 수 있습니다.
4.3. Model Discussion

Similarity-Aware Radius
Table 5에서는 Similarity-Aware Radius Module의 구현 방법으로 세 가지 옵션을 제시합니다. 첫 번째 옵션은 cosine similarity만을 사용한 방식. 두 번째는 학습 가능한 θ를 도입한 방식이며, 세 번째는 선형 레이어를 사용하는 방식입니다. “w/o R”은 X-Pool의 모델의 베이스라인을 의미합니다. 실험 결과, Radius Module이 성능 향상에 기여했으며, MSRVTT에서 R@1 기준 1.5% 이상, DiDeMo에서 3% 이상 성능이 향상되었습니다. 이는 텍스트를 의미 범위로 표현하는 것이 검색 성능에 유리하다는 것을 보여줍니다. 또한, 학습 가능한 모듈을 도입하면 텍스트 질량의 표현력과 유연성이 향상되어 성능이 추가적으로 개선됩니다. 세 번째 방식이 대부분의 경우 가장 뛰어난 성능을 보여 이를 최종 모델로 사용하였습니다.

Ablation Study
Table 6a에서는 MSRVTT 데이터셋을 기반으로 텍스트 표현과 학습 목표에 따른 성능을 분석한 결과를 제공합니다. X-Pool 모델에서는 텍스트 임베딩 t를 확률적 텍스트 임베딩 ts로 대체하고, 손실 함수 Ls를 추가했을 때 1.6% 성능 향상이 있었습니다. 하지만 확률적 임베딩 ts에서 원래의 손실 함수 Lce를 추가하면 성능이 오히려 저하되었고, 이는 t에 대한 학습이 text mass 학습에 편향을 주기 때문입니다. 대신, tsup를 사용하여 text mass의 크기와 이동을 조정한 결과 성능이 향상됨을 확인할 수 있습니다.
Inference Discussion
Table 6b에서는 추론 시 샘플링 횟수 M에 따른 성능 변화를 분석한 결과를 제공합니다. “w/o sampling”은 원래 텍스트 t만을 사용하는 방식으로, text mass을 활용하지 않아 성능이 최적화되지 않았습니다. 샘플링 횟수 M이 5에서 20으로 증가함에 따라 성능이 향상되는 것을 확인할 수 있고 M=10에서 M=20까지 성능은 안정적으로 유지되었으며, 최종 모델에서는 성능과 계산 비용의 균형을 고려하여 M=20을 선택했다고 합니다.
이번 논문은 텍스트 임베딩을 확률적 개념으로 확장하여 Text-Video Retrieval 성능을 향상시키는 방법을 제시하였습니다. 기존의 단일 텍스트 표현 방식에서 벗어나 확률적 임베딩을 도입한 점이 흥미로웠던 연구인 것 같습니다.
감사합니다.