Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[CVPR-2023] Source-Free Video Domain Adaptation with Spatial-Temporal-Historical Consistency Learning
“Historical”한 정보를 유지한다길래 키워드에 꽃혀서 읽은 논문입니다. Introduction 일반적으로 데이터셋을 학습할 때, 분포를 학습한다는 말을 많이 하는 것 같습니다. 학습 데이터 이외의 데이터에서 모델이 예측을…
[ICLR 2016]Particular object retrieval with integral max-pooling of CNN activations
image retrieval의 근본이라고 할 수 있는 r-mac 논문 리뷰입니다. VPR 논문을 읽고 보니 retrieval의 기본적인 방법론에 대해 정리해야겠다 싶어 2주간 해당 분야의 논문을 리뷰하고자 합니다….
[CVPR2023]Siamese Image Modeling for Self-Supervised Vision Representation Learning
소개 최근 Self-supervised Learning(SSL) 분야는 다양한 비전분야의 응용문제(downstream vision tasks)에서 좋은 퍼포먼스를 보이고 있다. 현재 SSL분야는 크게 두 가지 접근법으로 발전하고 있다: Instance Discrimination(ID), Masked…
[CVPR 2019]DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion
제가 이번에 리뷰할 논문도 6D Pose Estimation 논문으로, 현재까지 760회의 인용수를 기록하고있습니다. 그러면 리뷰를 시작하겠습니다. 본 논문도 RGB-D로부터 6D Pose를 추정하기 위해 서로 다른 두…
[ECCV 2020] EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection
본 논문에서는 3d detection task에서 LiDAR point cloud와 camera image의 multiple sensor를 사용할 때 문제와 localization, classification confidence score간 inconsistency에 대해 문제를 제기하며 end-to-end 방식의…
[ICRA2023]FG-Depth: Flow-Guided Unsupervised Monocular Depth Estimation
이번에 소개할 논문은 ICRA2023에 게재된 Self-supervised Depth Estimation 분야 논문입니다. 학회장에서 돌다가 보았던 논문 중 하나인데, 논문의 컨셉 자체가 나쁘지 않아서 읽고 리뷰하고자 합니다. Intro…
[CVPR 2021] FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation
제가 이번에 리뷰할 논문은 FFB6D라는 논문입니다. 6D Pose Estimation 논문으로, 2021년 CVPR oral paper라 합니다. Abstract 본 논문은 FFB6D(Full Flow Bidirectional fusion network for 6D…
[CVPR 2023] Proposal-based Multiple Instance Learning for Weakly-Supervised Temporal Action Localization
안녕하세요, 이번 주차 X-Review에서 제가 소개해드릴 논문은 올해 CVPR에 게재된 <Proposal-based Multiple Instance Learning for Weakly-Supervised Temporal Action Localization>입니다. 본 논문은 비디오 분야에서 Weakly-supervised Temporal…
[CVPR 2016] NetVLAD: CNN architecture for weakly supervised place recognition
Visual Place Recognition 분야의 논문을 읽어보려고 하다 Place Recognition의 베이스 논문이라고 할 수 있는 NetVLAD에 관한 이해가 우선되어야 할 것 같아 NetVLAD 논문을 읽게 되었습니다….
[ACL 2019] Multimodal Transformer for Unaligned Multimodal Language Sequences
안녕하세요. 이번에도 멀티모달 감정인식 논문입니다. 최신 논문이 아닌 2019년도 논문을 왜 들고 왔느냐 했을 때 이 논문이 multimodal transforemr 방법을 처음 제안한 논문이라고 봐도 무방하기…
1. CTC 기반의 텍스트 인식 모델의 학습 과정에 대해 설명을 드리면 대답이 될 것 같네요! 입력된 텍스트 이미지[H x W…