Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[CVPR 2021] Patch-NetVLAD : Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition
Patch-NetVALD는 local descriptor와 global descriptor의 장점을 모두 결합한 방법으로 기존 netVLAD에서 변형하여 patch level feature를 사용하였다. 또한 multi-scale fusion한 patch features를 사용하여 structure, illumination과 같은…
[CVPR-2021] Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition
뜬금없이 Visual place recognition(VPR)을 읽어봤습니다. 읽을 필요는 없다고 하는데… 제가 지금 하려는 일이 물체 검색을 좀 원활하게 해보기 위해 프레임 레벨에서 패치(가칭)단위로 백그라운드를 suppression 할…
[ECCV2022]MultiMAE: Multi-modal Multi-task Masked Autoencoders
이번에 소개드릴 논문은 요새 self-supervised learning에서 핫한 Masked Autoencoder입니다. 근데 이제 Multi-modal과 Multi-task를 곁들인. 혹시 Masked Autoencoder(MAE)에 대해서 아직 잘 모르시는 분들은 저희 연구실의 미래…
[ICML 2021] An Image is Worth 16×16 Words : Transformer for image recognition at scale
Before Review Vision Transformer(ViT) 논문입니다. 요즘 비디오 분야에서도 Transformer 기반의 백본이 활발하게 연구가 되는 추세입니다. 저도 관련해서 계속 follow-up을 하고 있는데 제가 ViT에 대한 detail을…
[NIPS 2022] VideoMAE : Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training
Before Review 사실 제가 지난 리뷰에서 이미지 도메인에서의 MAE를 다뤘는데 그 이유는 바로 VideoMAE를 읽기 위함이었습니다. 그리고 또한 VideoMAE를 읽는 이유는 이번에 비디오 분야에서 개쩌는(?)…
[CVPR 2022] Masked Autoencoders Are Scalable Vision Learners
Before Review 진짜 오랜만에 X-Review 인 것 같습니다. 이번에는 비디오 논문이 아닌 이미지 논문을 읽게 되었습니다. 요즘 Masking Model 들이 많은 연구가 이루어지고 있어서 저도…
[NAACL 2021] Multimodal End-to-End Sparse Model for Emotion Recognition
이번 x-review는 2차년도 감정인식 과제 베이스라인이 되는 논문입니다. 사실 이미 이전의 담당자들이 리뷰를 작성하였으나, 저 나름대로 이해한 것을 정리하면 좋을 것 같아 작성하게 되었습니다. paper…
[BMCV 2021] PAL : Pretext-based Active Learning
최근 제가 자주 리뷰하는 논문이 Self-supervised Learning 과 Active Learning 을 결합한 프레임워크와 관련된 것이었는데요. 이번에도 비슷한 논문입니다. 다만 이번 논문은 기존 Active Learning의 기본…
[WACV 2021] Unsupervised Video Representation Learning by Bidirectional Feature Prediction
오늘 제가 X-Review에서 소개해드릴 논문은 2021년 WACV에 게재된 “Unsupervised Video Representation Learning by Bidirectional Feature Prediction” 입니다. 항상 비디오의 Weakly-supervised Temporal Action Localization task만 소개해드렸었는데,…
[IJCAI 2018]Visible Thermal Person Re-Identification via Dual-Constrained Top-Ranking
우선 Re-Identification(Re-ID)라는 task에 대한 논문은 처음 다루기 때문에 간단하게 설명을 드리자면, 사람을 식별하여 동일한 사람은 동일하게 인식하고 다른사람은 구별하는 task입니다. 이러한 task도 retrieval task 중…
안녕하세요 성준님. 좋은 리뷰 감사합니다. Definition 2.1에서 G와 G'을 정의하는 부분이 잘 이해가 가지 않아 질문드립니다. 제가 이해하기로 G는 backward…