Author: 조 원

Posted in Paper X-Review

[AAAI 2021] BSN++: Complementary Boundary Regressor with Scale-Balanced Relation Modeling for Temporal Action Proposal Generation

오늘은 이전 리뷰했던 BSN의 다음 버전 논문인 BSN++에 대해 리뷰해보려합니다. 기존 BSN은 중간 Proposal Generation Module에서 Starting point와 Ending point를 예측 및 매칭 하는 과정에서…

Continue Reading
Posted in Paper X-Review

[ACM MM 2021] Video Similarity and Alignment Learning on Partial Video Copy Detection

Video 시장이 커지면서 저작권 이슈도 많아졌으며, Copy를 탐지할 수 있는 Video-to-Video Retrieval(이하 V2V) 연구도 많아지고 있습니다. 그러나 현존하는 V2V 연구들은 frame-level의 feature를 활용하는 것이 video-level…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2020] Labelling unlabelled videos from scratch with multi-modal self-supervision

비디오 연구와 Self-supervised Learning과는 꽤나 연결고리가 있습니다. 연구를 위한 비디오 프레임 수의 경우 적게는 백 장부터 많게는 몇 만장까지 대용량의 데이터를 포함하고 있어 Labeled 데이터를…

Continue Reading
Posted in Paper X-Review

[CVPR2021] CoLA: Weakly-Supervised Temporal Action Localization with Snippet Contrastive Learning

Weakly-supervised Temporal Action Localization 분야는 video-level의 label 만으로 untrimmed video에서 Action의 위치를 찾고 분류하는 분야입니다. 실상 Localization보다는 Detection에 가까우며 Weakly-supervised Temporal Action Detection이라고도 불리우기도 합니다….

Continue Reading
Posted in Paper X-Review

[ECCV2021] BSN: Boundary Sensitive Network for Temporal Action Proposal Generation

Temporal Action Detection 분야에서는 Object Detection에서와 유사하게 Proposal을 생성하고 Classification을 진행합니다. 이러한 Temporal Proposal 생성이 어떤식으로 되는지 확인하기위해 SOTA 였던 Temporal Action Detection 방법론들의 코드를…

Continue Reading
Posted in Paper X-Review

[CVPR2021] T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval

이전부터 컴퓨터 비전에서는 특정 Center의 의미를 부여하고 local descriptor를 할당해 global descriptor를 기술하는 VLAD 기반 방법론들이 좋은 성능을 보였었습니다. 딥러닝이 발달하기 시작하며, Center까지 학습하는 NetVLAD라는…

Continue Reading
Posted in Paper X-Review

[arXiv2021] DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification

Youtube : https://youtu.be/O6GQGia4VdE 올해 들어 transformer 구조가 기존 Computer vision을 장악했던 CNN 구조를 대체하기 시작하면서, CNN 구조를 지닌 모델들에 적용했던 방법들 또한 transformer 구조 방법론에…

Continue Reading
Posted in Paper X-Review

[CVPR 2021] Multi-shot Temporal Event Localization: a Benchmark

현재 Temporal Localization 분야에서는 한 비디오에서 Action이 나타나는 시간대를 찾고 어떤 Action인지 판단하기 위한 데이터 셋이 주를 이루고 있습니다. 그러나 이전에는 주로 한 카메라로 촬영된…

Continue Reading
Posted in Paper X-Review

[arXiv2021] Self-supervised Video Retrieval Transformer Network

오늘 리뷰할 논문은 2021년 4월 arXiv에 올라온 “Self-supervised Video Retrieval Transformer Network”라는 논문으로 줄여서 SVRTN이라고 불립니다. Alibaba에서 나온 논문으로 2019년부터 FIVR-200K 데이터 셋에서 SOTA를 달성해온…

Continue Reading
Posted in Paper X-Review

[CVPR2021] Self-supervised Video Hashing via Bidirectional Transformers

이번에 리뷰할 논문은 Self-supervised 방식으로 Video Hashing을 진행한 논문으로, 이번 CVPR 2021에 Accept된 논문입니다. 이름은 self-supervised video Hashing method based on Bidirectional Transformers (BTH)로 이전…

Continue Reading