[2022-동계][권석준] URP 를 마치며
소개 안녕하세요. 저는 지능기전공학부 스마트기기공학과 재학중인 18학번 권석준입니다. 이 글을 읽고 계신 여러분들은 몇 달 전의 제가 그랬듯이 URP 프로그램에 대한 호기심, 대학원 진학 여부에…
[CORL2020] MultiPoint: Cross-spectral registration of thermal and optical aerial imagery
Code : linkPresentation : linkPaper : linkDataset : link 해당 논문은 제가 현재 진행하고 있는 Multipsectral Registration 연구 입니다. 해당 연구는 Super point의 방법을 Multispectral…
[ICCV 2017] SSD-6D: Making RGB-Based 3D Detection and 6D Pose Estimation Great Again
이번에 제가 리뷰할 논문은 2017년 ICCV에 나온 논문으로 SSD-6D라고 불립니다. 제목에서 보시면 아시겠지만, 해당논문은 2D 객체검출분야에서 많이 사용되는 SSD아키텍쳐를 응용해서 6D Pose Estimation에 활용한 논문입니다….
Emerging Properties in Self-Supervised Vision Transformers
요약 본 논문은 Vision Transformers의 특성을 self-supervised 학습 방식을 통해 보이며, 최종적으로 그들이 제안하는 새로운 self-supervised method인 self-distillation with no labels(DINO)를 소개하는 논문입니다. introduction 본…
[CVPR 2021] RefineMask: Towards High- quality Instance Segmentation with Fine-Grained Features
1. Abstract instance segmentation의 경우 (특히 대형 객체에 대해) down sampling 작업으로 인해 분할 마스크가 매우 거칠다. 해당 논문은 객체와 장면에 대해 고품질의 instance segmentation을…
[Pattern Recognition] Learning multiscale hierarchical attention for video summarization
안녕하세요. 지난번에 unsupervised video summarization에 이어서 이번에는 supervised video summarization 논문을 들고왔습니다. Introduction Video summarization에 대한 설명은 지난번 리뷰에 있으니 넘어가고, 이 논문에서 제안하는 “multiscale…
동시적인 비디오 검색 및 정렬 기법, (10-2021-0173248), 출원 완료
동시적인 비디오 검색 및 정렬 기법 (출원중, 2022.02.24 기준) 출원번호: 10-2021-0173248
[3DV2021] Attention meets Geometry: Geometry Guided Spatial-Temporal Attention for Consistent Self-Supervised Monocular Depth Estimation
저의 Depth Estimation 논문 리뷰가 다시 돌아왔습니다. ㅎㅎ RAL 논문을 작성하기 앞서 작년11월달 부터 지금까지 어떤 논문들이 나왔는지 서베이하던 도중에 그사이 3DV2021이 진행된 것을 알았고…
[2020 AAAI] Background Suppression Network for Temporal Action Localization
Before Review 이번에도 Weakly Supervised Temporal Localization 논문을 들고 왔습니다. 2020년도 AAAI에 나온 논문이고 반가운건 한국인이 저자인 논문이네요. 네이버 클로바와 연세대학교 연구진이 같이 작성한 논문인…
[arXiv 2021] CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
Abstract Multi-modal 분야의 Video-Text Retrieval 을 위한 CLIP4Clip 이라는 end-to-end 모델을 제안합니다. 본 논문의 메인 아이디어는, 기존의 image-language pretraining 모델인 CLIP 을 video-language 분야로 knowledge…
1. CTC 기반의 텍스트 인식 모델의 학습 과정에 대해 설명을 드리면 대답이 될 것 같네요! 입력된 텍스트 이미지[H x W…