[CVPR2021] On Semantic Similarity in Video Retrieval

해당 논문은 Semantic Similarity의 범위에 대해 논하는 논문이다. 처음 논문을 선택한 이유는 similarity의 범위에 대해 분석하고 있는 내용인지 궁금하여 선택하였다. 해당 논문에서 다루는 video retrieval은 video to caption retrieval이다.

Abstract

논문의 대표 이미지
  1. 논문에서 제시하는 문제점
    기존의 video retrieval task에서는 single caption과 하나의 query video가 쌍이 된다는 것을 가정으로 진행되었다. 그러나 이러한 가정은 모델의 검색 성능을 정확히 비교하지 못한다고 주장한다.
  2. 논문에서 제시하는 해결책
    multiple video/caption으로 진행하자
    쿼리와의 유사도 기준으로 검색된 비디오의 순위를 매기자

현재 비디오 검색 벤티마크의 단점

식1. 기존 유사도 식

기존 유사도 식의 경우 하나의 caption 당 하나의 연관 비디오를 갖는다. 즉, 어느 caption도 유사성을 갖지 않는다는 가정이 있다는 것이다. 논문에서 이러한 검색을 instance-based video retrieval (IVR) 이라고 한다. 그러나 GT가 되는 annotation들은 annotator 혹은 비디오에 포함된 캡션으로 생성된다. 즉 y value(label, caption)간의 유일성을 보장 할 수 없다는 것이다. 이러한 문제점을 짚기 위하여 논문에서는 몇가지 실험으로 정성적으로 검토하였다.

  • Dataset 분석
    데이터셋의 크기에 따라 혼잡도가 달라져 발견하고자 하는 문제점이 출연확률이 달라지므로 데이터셋의 크기에 따라 정렬 후 실험하였다고 한다. 논문에서는 large test set을 갖는 MSR-VTT, YouCook2, EPIC-KITCHENS를 실험에 사용하였다고 한다. 아래 FIgure 2 가 검색 결과의 예시히며 각 이미지에 나열된 caption 중 굵은 글씨가 evaluation때 GT로 사용되는 캡션이다. 그러나 아래 얇은 글씨의 caption역시 video와 상당한 연관이 있음을 알 수 있다.
    opening sauce bottle이 GT라면 opening vinegar/oil bottle >> cutting a tomato (연관성)이어야 한다는 것이다. 그러나 현재 존재하는 벤치마크를 수정하는 것은 비용이 너무 많이 드므로 유사도를 이용한 proxy 조취를 취해야 함을 밝힌다.
크기 정보와 데이터셋 및 video-caption 검색 결과 예시

제안: Similarity Video Retrieval (SVR)

  • 기존에 사용되는 지표
    – Recall@K:
    multiple items을 다룰 수는 있지만 임계값이 필요하다. 또한 K개를 선출하는 작업은 relevant items수가 K보다 클 수 있으므로 신중해야 한다.
    – mAP:
    query와 검색된 item 사이의 연관정도를 이진화 해야한다.
  • 정의
    기존의 방식은 0, 1로 유사도를 분류 형식으로 정의했다면, 제안하는 방식은 비교가능한 값(non-binary similarity)으로 유사도의 정도를 나타낼 수 있도록 한다.
식2. 기존식과 제안식의 비교
  • normalised Discounted Cumulative Gain (nDCG)
    nDCG는 DCG score를 normalising한 값이다. 본 논문에서는 evaluation metric 으로 Recall@k나 mAP 방식이 아닌 nDCG로 평가하였다.
식 3. DCG 계산법. query q_i에 대하여 검색된 items의 집합 Z와의 similarity scores 측정법

학습
제안하는 Semantic Similarity 계산방식은 학습과정의 distance metric 대신 사용하여 학습에도 적용할 수 있다. 또한 학습을 위한 GT 생성시 proxy measures를 사용할 수 있다. 식1에 유사 정도가 표현되지 않았던 쌍들에 대해 캡션관의 유사도를 측정하여 S’ score를 이용하는 것이다. S’ score는 논문에서 제시하길 (Bag-of-wards semantic similarity, Part-of-Speech Semantic Similarity, Synset-Aware Semantic Similarity, METEOR Similarity를 사용하였다고 한다.)

4가지 방식으로 S’ 유사도를 측정하였을 때 Caption 끼리의 유사성 정도를 표현한 그래프이다. X축은 유사도의 threshold를 y축은 유사성을 갖는 쌍의 갯수를 나타내며 유사도가 있는 caption이 존재함을 확인할 수 있다.

식4. semantic similarity를 위한 proxy 방식을 적용한 유사도 측정법
semantic similarity proxies예시
제안하는 proxy measures를 적용하였을때 성능향상

마무리하며

해당 논문은 기존 벤치마크의 문제점을 지적하였다.
해당 논문에서 중요한것 중 하나는 CVPR21에 해당 논문이 Accept 되었다는 점인듯 하다. 평가 지표의 문제점을 공식적으로 인정하면서 앞으로 해당 문제점을 반영한 평가지표가 더욱 인기를 끌 것이라고 생각된다. video to caption 검색 뿐 만 아니라, video to video 검색에서도 기존의 instance based similarity(gt가 서로 연관관계없이 유일하다)는 지양하고 semantic similarity video retrieval 지표를 더 추구할 것 이라 예측된다.

Author: 황 유진

3 thoughts on “[CVPR2021] On Semantic Similarity in Video Retrieval

  1. 결과적으로 이 논문에서 제시하는 것이 동영상 당 단일 라벨을 사용하는 것은 학습에 악영향을 끼치니 멀티라벨로 가자는 것 같은데 맞나요..? 그럼 제가 이해한바가 맞다면, 기존에 단일 라벨로 주어진 데이터셋을 멀티라벨로 변경은 어떻게 한건가요 ? 그리고 학습할때 S score 란 것을 새로 정의해서 Loss로 사용했다는 것으로 이해하면 될까요?

  2. Caption에 대한 좀 더 자세한 설명을 해주 실 수 있나요?

  3. 해당 논문은 특정 네트워크를 제안한 것이 아닌 semantic similarity에 대해 정의한 논문이 맞을까요?

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다