Author: 신 인택
[CVPR 2023]Finetune Like You Pretrain: Improved Finetuning of Zero-Shot Vision Models
이번에 가져온 논문은 제가 OWL_ViT에 파인튜닝 기법으로 사용해볼 FLYP 논문입니다. 기존에 존재하는 다른 파인튜닝 방법론보다 성능이 더 좋다는 것이 논문에 구체적으로 설명되어 있기도 하고 연구하고…
[ECCV 2022]Simple Open-Vocabulary Object Detection with Vision Transformers
안녕하세요 이번 논문으로는 OWL-ViT를 가져왔습니다. Open world Localization with vision transformer 라는 뜻인데 말을 보면 유추할 수 있듯이 Open world 상황에서 기존 CLIP이 classification만 가능했다면…
[ECCV 2020] End-to-End Object Detection with Transformers
안녕하세요, 이번 X-Review 로 DETR 논문을 가져왔습니다. 저번 ViT 는 Image classification 을 목적으로 Transformer를 응용하였는데요, 이번 DETR은 Object Detection을 목적으로 Transformer 를 사용합니다. 다만…
[ICLR 2021]AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
안녕하세요 이번 X-Review로 ViT를 가져왔습니다.Transformer 구조를 이미지 쪽으로 가져오기 위한 많은 과정이 있었겠지만 약 4년만에 나온 논문으로 생각보다 오랜시간이 걸렸는데요. 해당 Transformer가 나왔을 당시의 GPU적…
[NerulPS 2017] Attention is all you need
안녕하세요 제 두번째 X-review로는 Transformer 를 작성하려고 합니다.이전에 잘 작성해주신 글들이 많지만, 서로 표현하는 방법이나 생각하는 것들이 조금씩 다를 수 있으니 이후 읽을 사람에게 생각의…
[CVPR 2016]Deep Residual Learning for Image Recognition
안녕하세요 첫 X-Review로 ResNet 논문을 가져오게 되었습니다. 제가 연구실에 들어오고 처음 꼼꼼하게 읽게 된 논문입니다. 제가 읽은 논문이 많은 것은 아니지만 ResNet에서 쓰이는 skip connection이…
안녕하세요 우현님 글 읽어주셔서 감사합니다. 우선 human video는 여러 형태로 존재할 수 있지만 제가 학회에 참석하면서 본 거의 대부분의 human…