Category: Paper
Paper Review
[ CVPR 2022 ] X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval
안녕하세요 정의철 연구원입니다. 이번에도 Text-Video Retrieval 논문을 리뷰하고자 합니다. 이번에 소개할 방법론은 2022년 논문이지만 여러 논문에서 baseline이 되는 방법론이기에 꼭 한 번 공부해볼 필요가 있다고…
[arXiv 2024] SteeredMarigold: Steering Diffusion Towards Depth Completion of Largely Incomplete Depth Maps
안녕하세요, 59번째 x-review 입니다. 이번 논문은 arXiv 2024에 올라온 SteeredMarigold라는 논문으로, Depth estimation 모델인 Marigold를 기반으로 Depth completion을 수행한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다…
[CVPR 2020] PVN3D: A Deep Point-wise 3D Keypoints Voting Network for 6DoF Pose Estimation
안녕하세요 류지연입니다. 계속해서 6 DoF (Degree of Freedom) Pose Estimation 관련된 논문을 보고 있습니다. 오늘은 PVNet (PVNet리뷰) 에 이어서 두번째로 PVN3D 논문을 가져왔습니다. 그럼 바로…
[CVPR 2024] Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval
안녕하세요, 정의철 연구원입니다. 논문 작업으로 인해 한동안 X-review를 작성하지 못했지만, 다시 돌아와 연구 동향을 살펴보려고 합니다. 이번 리뷰에서는 Text-Video Retrieval 연구를 다루며, 향후에도 이 분야의…
[PMLR 2020]Being Bayesian, Even Just a Bit, Fixes Overconfidence in ReLU Networks
여러분은 논문의 제목을 보면서 어떤 내용일 것으로 추측되시나요? 네, 제목 그대로 bayesian 구조를 일반적인 딥러닝 네트워크에 도입함으로써, 딥러닝 네트워크에서 학습 데이터에 대한 overfitting 등으로 발생하는…
[CVPR 2019] PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation
안녕하세요 류지연입니다. 현재 기초교육을 받고 있는데 교육 기간동안 6DoF Pose Estimation 관련 논문을 여러 편 읽게 되었습니다. 그 중 처음으로 읽게 된 논문이 PVNet: Pixel-wise…
[RA-L 2025] MonoTher-Depth: Enhancing Thermal Depth Estimation via Confidence-Aware Distillation
안녕하세요, 58번째 x-review 입니다. 이번 논문은 RA-L 2025년도에 게재된 Monocular Thermal Depth Estimation에 대한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction 단안 RGB…
[ArXiv 2024] CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction
안녕하세요, 쉰 다섯번째 X-Review입니다. 이번 논문은 2024년도 ArXiv에 올라온 CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction논문입니다. 바로 시작하도록 하겠습니다. ?? 1. Introduction 도시 거리에는 광고판이나,…
[CVPR 2022] Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model
안녕하세요, 허재연입니다. 요즘에는 VLM과 OD의 결합으로 발전되고 있는 OVOD의 연구 동향을 팔로업 하고 있습니다. 제가 NLP쪽은 잘 몰라서 VLM의 prompt는 어떻게 사용하는지 항상 의문을 가지고…
[CoRL 2024] D3RoMA: Disparity Diffusion-based Depth Sensing for Material-Agnostic Robotic Manipulation
안녕하세요, 57번째 x-review 입니다. 이번 논문은 CoRL 2024년도에 게재된 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction 스테레오 카메라를 통해 구해지는 depth map은 노이즈와…
안녕하세요 인하님, 첫 댓글 환영합니다. 1. 기존에도 VLM의 reasoning 능력을 활용해서 high-level planning을 수행하고, 여기서의 어떤 bridge가 되는 정보를 low-level…