[NAACL 2018] BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding
Before Review 이번 리뷰는 자연어처리 논문을 읽게 되었습니다. BERT라고 해서 아마 한번쯤을 들어보셨을 법한 논문을 읽게 되었는데요, 이번 캡스톤 주제중 하나인 Text-to Video 논문을 읽을라고…
[PMLR 2021] Learning Transferable Visual Models From Natural Language Supervision
image가 주어졌을 때, 그에 대한 text 를 prdict 하는 것을 목적으로 pretrained 된 모델, CLIP에 대한 리뷰입니다. 우선 CLIP은 Contrastive Language-Image Pretraining 의 약자인데요. 이…
[arXiv 2021] QAHOI: Query-Based Anchors for Human-Object Interaction Detection
Action Recognition을 위해, person과 object 간의 interaction과 관련된 논문을 찾아보던 중, Human-Object Interaction (HOI)라는 분야를 알게되어 관련 논문을 리뷰하고자합니다. Action Recognition 분야에서는 현재 scene bias한…
[ICRA 2019] Build your own hybrid thermal/EO camera for autonomous vehicle
이번 논문은 제 연구 계획에서 핵심인 센서 팩 계획에 영감을 준 논문 중 하나입니다. 해당 논문은 빔스플리트를 이용한 광학 정합을 이용한 RGB-Thermal 센서 팩을 구조를…
MPViT : Multi-Path vision Transformer for Dense Prediction
이번에 논문은 오래만이면서도 친숙한 backbone 논문입니다. 듣기로는 CVPR2022에 붙은 논문이라고 하는데, 아무튼 그렇습니다. Intro 제목에서도 대략적인 느낌을 아실 수 있으시겠지만, Dense Prediction(object detection, semantic segmentation…
[CVPR2020]Unsupervised Intra-domain Adaptation for Semantic Segmentation through Self-Supervision
합성 데이터를 이용하여 학습한 모델을 real 데이터에 적용할 때 어떤 방식을 활용하여 도메인간의 차이를 줄이는 지 알아보기 위해 읽게 된 논문입니다. CNN방식은 어노테이션 된 라벨링에…
[VISAPP2022] Transformers in Self-Supervised Monocular Depth Estimation with Unknown Camera Intrinsics
CVPR 제출논문을 RAL로 변경하고 있는 요즘…. Reference걸어야 될 거 같은 논문을 찾아다니고 있던 중 저의 심기를 건드는 논문이 등장해서 소개드리고자 합니다. 사실 이런 논문은 리뷰를…
Barlow Twins: Self-Supervised Learning via Redundancy Reduction
소개 [arXiv] Self-supervised learning은 collapsing solution 해결책으로 수렴하는 문제를 가지고 있습니다. collapsing solution의 발생 경위는 다음과 같습니다. 데이터 x를 모델의 입력으로 하여 이에 적합하게 라벨링 된…
SimCLR: A Simple Framework for Contrastive Learning of Visual Representations
MoCo에 이어 Self-Superviesd Learning 의 근본 시리즈 2번째 편입니다. 지난번에 리뷰한 MoCo 역시 Self-Supervised Learning과 관련한 논문이었는데요. 오늘 제가 리뷰하는 SimCLR를 읽고 근본 시리즈 1편이…
[CVPR 2017] Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset
Before Review 이번 논문은 Action Recognition 진영에서 가장 흔하게 사용되는 Backbone Network를 준비했습니다. 본 논문에서 제안된 I3D라는 Backbone Network는 Temporal Action Localization 진영에서도 가장 많이…
안녕하세요 우현님 답글 감사합니다. 질문해주신 Table4의 Ablation 실험에 대해서는 단일모달리티에서 caption의 유의미함을 통해 제안한 caption enhancement 구조의 타당성을 주장했는데요, caption에…