[카테고리:] Paper
Paper Review
[arXiv 2024] SteeredMarigold: Steering Diffusion Towards Depth Completion of Largely Incomplete Depth Maps
안녕하세요, 59번째 x-review 입니다. 이번 논문은 arXiv 2024에 올라온 SteeredMarigold라는 논문으로, Depth estimation 모델인 Marigold를 기반으로 Depth completion을 수행한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다…
[CVPR 2020] PVN3D: A Deep Point-wise 3D Keypoints Voting Network for 6DoF Pose Estimation
안녕하세요 류지연입니다. 계속해서 6 DoF (Degree of Freedom) Pose Estimation 관련된 논문을 보고 있습니다. 오늘은 PVNet (PVNet리뷰) 에 이어서 두번째로 PVN3D 논문을 가져왔습니다. 그럼 바로…
[CVPR 2024] Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval
안녕하세요, 정의철 연구원입니다. 논문 작업으로 인해 한동안 X-review를 작성하지 못했지만, 다시 돌아와 연구 동향을 살펴보려고 합니다. 이번 리뷰에서는 Text-Video Retrieval 연구를 다루며, 향후에도 이 분야의…
[PMLR 2020]Being Bayesian, Even Just a Bit, Fixes Overconfidence in ReLU Networks
여러분은 논문의 제목을 보면서 어떤 내용일 것으로 추측되시나요? 네, 제목 그대로 bayesian 구조를 일반적인 딥러닝 네트워크에 도입함으로써, 딥러닝 네트워크에서 학습 데이터에 대한 overfitting 등으로 발생하는…
[CVPR 2019] PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation
안녕하세요 류지연입니다. 현재 기초교육을 받고 있는데 교육 기간동안 6DoF Pose Estimation 관련 논문을 여러 편 읽게 되었습니다. 그 중 처음으로 읽게 된 논문이 PVNet: Pixel-wise…
[RA-L 2025] MonoTher-Depth: Enhancing Thermal Depth Estimation via Confidence-Aware Distillation
안녕하세요, 58번째 x-review 입니다. 이번 논문은 RA-L 2025년도에 게재된 Monocular Thermal Depth Estimation에 대한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction 단안 RGB…
[ArXiv 2024] CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction
안녕하세요, 쉰 세번째 X-Review입니다. 이번 논문은 2024년도 ArXiv에 올라온 CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction논문입니다. 바로 시작하도록 하겠습니다. 🧖🏽 1. Introduction 도시 거리에는 광고판이나,…
[CVPR 2022] Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model
안녕하세요, 허재연입니다. 요즘에는 VLM과 OD의 결합으로 발전되고 있는 OVOD의 연구 동향을 팔로업 하고 있습니다. 제가 NLP쪽은 잘 몰라서 VLM의 prompt는 어떻게 사용하는지 항상 의문을 가지고…
[CoRL 2024] D3RoMA: Disparity Diffusion-based Depth Sensing for Material-Agnostic Robotic Manipulation
안녕하세요, 57번째 x-review 입니다. 이번 논문은 CoRL 2024년도에 게재된 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction 스테레오 카메라를 통해 구해지는 depth map은 노이즈와…
[TPAMI 2025] VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization
안녕하세요, 쉰 네번째 X-Review입니다. 이번 논문은 2025년도 TPAMI에 게재된 VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization 논문입니다. 바로 시작하도록…
최신 댓글