Author: 임 근택

Posted in Paper X-Review

[CVPR 2023] VideoMAE V2 Scaling Video Masked Autoencoders with Dual Masking

Before Review 오랜만에 X-Review 입니다. ITRC 작업 때문에 바쁘다는 핑계로 논문 공부를 부족하게 했던 것 같습니다. 오랜만에 논문을 읽으려고 하니 눈에 잘 안들어오고 집중도 잘…

Continue Reading
Posted in Paper X-Review

[2022 ACCV] Boundary aware Self Supervised Learning for Video Scene Segmentation

Before Review 이번 논문은 Video Scene Segmentation으로 읽게 됐습니다. [2022 CVPR] Scene Consistency Representation Learning for Video Scene Segmentation 지난 리뷰에도 동일한 task에 대해서 다루었으니…

Continue Reading
Posted in Conference X-Review

Self-Supervised Learning Framework

Before Review 요즘 Self-Supervised 기반의 Video Representation Learning 논문을 계속 읽고 있는데 조금 부족한 부분을 느꼈 습니다. 제가 정작 기본적인 SSL framework에 대해서는 이해가 떨어지는…

Continue Reading
Posted in Paper X-Review

[2022 arXiv] Soft-Landing Strategy for Alleviating the Task Discrepency Problem in Temporal Action Localization Tasks

Before Review arXiv에 올라온 preprint 이지만 CVPR format 이며, 연세대와 포스텍의 합작 논문이라 읽어보게 되었습니다. 제가 이전에 자주 리뷰하던 Temporal Action Localization에 대한 논문입니다. 전년도에…

Continue Reading
Posted in Paper X-Review

[CVPR 2022] Probabilistic Representations for Video Contrastive Learning (Part.2)

Before Review 제가 이 논문 리뷰 part.1을 두 달전 쯤에 작성했는데 갑자기 생각이 나서 이제 마무리를 지으려고 합니다.. 아쉬운 건 코드를 공개하겠다고 했는데 공개를 안…

Continue Reading
Posted in Paper X-Review

[ICLR 2022] TADA! Temporally Adaptive Convolutions for Video Understanding

Before Review 이번 논문은 Video Understanding을 위해 제안되는 temporally adaptive convolution을 다룬 논문입니다. 모든 프레임에 대해서 고정된 weight를 사용하는 기존 Convolution 대비, 입력 값에 따라 weight가…

Continue Reading
Posted in Paper X-Review

[ICML 2022] Time Is MattEr : Temporal Self-supervision for Video transformers

Before Review 요즘 제가 Transformer 관련 논문을 많이 읽고 있습니다. 이유는 요즘 비디오 분야에서 Self-Supervised Learning + Video Transformer의 연구가 활발하게 이루어지고 있기 때문입니다. 이번년도…

Continue Reading
Posted in Paper X-Review

[ICLR 2022] How Do Vision Transformer Work?

Before Review 이번 논문 리뷰는 ViT에 대해 좀 더 깊은 분석을 진행한 논문을 읽었습니다. 흔히 알려져 있는 ViT에 대한 주장들에 대한 분석, ViT가 어떻게 작동하는지…

Continue Reading
Posted in Paper X-Review

[arXiv 2022] InternVideo : General Video Foundation Models via Generative and Discriminative Learning

Before Review Video 진영에도 GPT, BERT라고 할만한 Foundation Model이 등장한 것 같습니다. 결과만 놓고 보면 39가지의 데이터 셋을 가지고 평가하여 모든 SOTA를 갈아치웠습니다. 개인적으로는 아쉬운…

Continue Reading
Posted in Paper X-Review

[arXiv 2022] Movie2Scenes : Learning Scene Representations Using Movie Similarities

Before Review 꽤나 흥미롭고 자극적인(?) 논문을 가져왔습니다. 자극적이라고 한 이유는 저자들이 데이터셋 두개를 새롭게 제안 하였는데, 그 중 하나가 굉장히 자극적인 컨텐츠를 담고 있는 데이터셋이기…

Continue Reading