Day: November 16, 2020
[arXiv2019] ViSiL: Fine-grained Spatio-Temporal Video Similarity Learning
조 원 11/16/2020 Leave a Comment on [arXiv2019] ViSiL: Fine-grained Spatio-Temporal Video Similarity Learning
해당 논문은 video들 간의 similarity를 계산하기 위해 방법론인 ViSiL을 제안한 논문입니다. 주로 video-to-video retrieval시 video의 전체 frame에서 spatio-temporal한 정보를 추출하고 이를 aggregate하여 하나의 vector로 만들게…
[NeurIPS 2017]”Attention is all you need” – Transformer
현재 이미지 분류 분야에서 SOTA를 달성한 “AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE “(ViT)는 NLP의 “Attention is all you need”…
Particular object retrieval with integral max-pooling of CNN activations
rcvlab 11/16/2020 1 Comment on Particular object retrieval with integral max-pooling of CNN activations
NAVER Europe에서 공개한 AP loss 코드를 살펴보니, feature를 추출하는 모델이 R-MAC 인것을 확인할 수 있었습니다. 처음보는 이름의 모델이라 해당 모델의 논문을 찾아 읽어보았습니다. R-MAC을 설명하기…
![[arXiv2019] ViSiL: Fine-grained Spatio-Temporal Video Similarity Learning](http://server.rcv.sejong.ac.kr:8080/wp-content/uploads/2020/11/image-104.png)
댓글 감사합니다. 이해하신 과정이 맞습니다. Descriptor 라는 것은 '현재 입력으로 들어간 이미지/point clouds 데이터를 대표하는 global vector' 라고 생각하시면 됩니다.…