[Arxiv2022] Masked Autoencoders are Robust Data Augmentors
이번에 소개드릴 논문은 Self-supervised Learning으로 학습한 MAE를 data augmentation으로 활용해서 high-level recongnition task를 더 잘 수행하도록 학습시켜보자? 라는 방법론입니다. 컨셉 자체가 상당히 간단하여서 간단히 리뷰…
[ICML 2022] Time Is MattEr : Temporal Self-supervision for Video transformers
Before Review 요즘 제가 Transformer 관련 논문을 많이 읽고 있습니다. 이유는 요즘 비디오 분야에서 Self-Supervised Learning + Video Transformer의 연구가 활발하게 이루어지고 있기 때문입니다. 이번년도…
[ICCV 2019] Deep Hough Voting for 3D Object Detection in Point Clouds(VoteNet)
본 논문에서 제안하는 Votenet은 2d detector를 사용하여 feature 추출 시 정보 손실이 발생하는 것을 줄이고, surface만 나타나는 3d point cloud에서 object의 centroid를 더 잘 예측하기…
[NeurIPS 2020] Self-supervised Co-training for Video Representation Learning
오늘의 X-Review도 마찬가지로 Self-supervised Video Representation Learning(SSVRL) 논문으로 준비했습니다. 논문의 제목은 Self-supervised Co-training for Video Representation Learning이고, 2020년도 NeurIPS에 게재된 논문입니다. 작년 10월 경 이광진…
[WACV 2023] Contrastive Losses Are Natural Criteria for Unsupervised Video Summarization
안녕하세요. WACV 2023 페이퍼 리스트가 공개되어서 무슨 논문이 있나 슥 둘러보다가 관심가는 논문이 있어서 하나 골라왔습니다. 해당 논문은 video summarization에 대한 논문인데, “Local”정보와 “Global”정보를 함께…
[CVPR 2021 Workshop] Self-training Guided Adversarial Domain Adaptation For Thermal Imagery
Thermal 이미지에서 Semantic Segmentation을 수행할 때 RGB로 부터 유의미한 정보를 받아오는 과정에서둘 사이의 domain gap을 줄이기 위한 DA 분야의 논문들을 계속해서 읽어 가는 도중 제목이…
[ICCV 2021] Contrastive Coding for Active Learning under Class Distribution Mismatch
그동안 Hybrid Learning (Self-supervised Learning + Active Learning) 연구에 집중해서 리뷰를 했다면, 이번에는 다시 Active Learning 논문을 리뷰하려고 합니다. 해당 논문은 Active Learning에서는 크게 다루지…
[WACV 2023] Randomness is the Root of All Evil: More Reliable Evaluation of Deep Active Learning
원래는 이 논문을 리뷰하려고 했던 건 아니었으나… 이 자극적인 논문의 제목 (모든 악의 근원은 랜덤성이다…) 을 보고 홀린듯이 리뷰하게 되었습니다. 물론 제가 이걸 리뷰하는 이유…
[ICLR 2022] How Do Vision Transformer Work?
Before Review 이번 논문 리뷰는 ViT에 대해 좀 더 깊은 분석을 진행한 논문을 읽었습니다. 흔히 알려져 있는 ViT에 대한 주장들에 대한 분석, ViT가 어떻게 작동하는지…
[CVPR 2018] VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection
VoxelNet은 Apple에서 제안한 network로, hand-crafted feature가 아닌 feature extraction과 bbox prediction이 one-stage로 구성된 end-to-end학습이 가능한 deep network이다. 딥러닝 기반 LiDAR 3D object detection분야에서 milestone이 된…
안녕하세요 지연님 좋은 리뷰 감사합니다. SGM 설명해주시는 부분에서 저는 문맥상 SGM이 학습시에만 사용되서 visual feature가 context정보를 학습하도록 돕는다고 이해했는데 "SGM은…