Category: X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in Paper X-Review

[ CVPR 2022 ] X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval

안녕하세요 정의철 연구원입니다. 이번에도 Text-Video Retrieval 논문을 리뷰하고자 합니다. 이번에 소개할 방법론은 2022년 논문이지만 여러 논문에서 baseline이 되는 방법론이기에 꼭 한 번 공부해볼 필요가 있다고…

Continue Reading
Posted in Paper X-Review

[arXiv 2024] SteeredMarigold: Steering Diffusion Towards Depth Completion of Largely Incomplete Depth Maps

안녕하세요, 59번째 x-review 입니다. 이번 논문은 arXiv 2024에 올라온 SteeredMarigold라는 논문으로, Depth estimation 모델인 Marigold를 기반으로 Depth completion을 수행한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다…

Continue Reading
Posted in Paper X-Review

[CVPR 2020] PVN3D: A Deep Point-wise 3D Keypoints Voting Network for 6DoF Pose Estimation

안녕하세요 류지연입니다. 계속해서 6 DoF (Degree of Freedom) Pose Estimation 관련된 논문을 보고 있습니다. 오늘은 PVNet (PVNet리뷰) 에 이어서 두번째로 PVN3D 논문을 가져왔습니다. 그럼 바로…

Continue Reading
Posted in Paper X-Review

[CVPR 2024] Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval

안녕하세요, 정의철 연구원입니다. 논문 작업으로 인해 한동안 X-review를 작성하지 못했지만, 다시 돌아와 연구 동향을 살펴보려고 합니다. 이번 리뷰에서는 Text-Video Retrieval 연구를 다루며, 향후에도 이 분야의…

Continue Reading
Posted in Paper X-Review

[PMLR 2020]Being Bayesian, Even Just a Bit, Fixes Overconfidence in ReLU Networks

여러분은 논문의 제목을 보면서 어떤 내용일 것으로 추측되시나요? 네, 제목 그대로 bayesian 구조를 일반적인 딥러닝 네트워크에 도입함으로써, 딥러닝 네트워크에서 학습 데이터에 대한 overfitting 등으로 발생하는…

Continue Reading
Posted in X-Review

[ACL 2023] PuMer: Pruning and Merging Tokens for Efficient Vision Language Models

안녕하세요. 지난 주 논문 제출을 마치고 약 2달 만의 리뷰입니다. 금일 리뷰 하는 논문은 ACL (Association for Computational Linguistics) 학회로 아마 연구원 분들은 익숙하진 않으실…

Continue Reading
Posted in X-Review

[CVPR 2024] Text-to-3D using Gaussian Splatting

안녕하세요, 이번주는 텍스트를 통해 3D asset을 생성할 수 있는 기술인 Text-to-3D 변환 기술에 3D Gaussian Splatting을 활용한 논문을 리뷰 해보도록 하겠습니다. 아래 이미지는 이번에 리뷰하려는…

Continue Reading
Posted in Paper X-Review

[CVPR 2019] PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation

안녕하세요 류지연입니다. 현재 기초교육을 받고 있는데 교육 기간동안 6DoF Pose Estimation 관련 논문을 여러 편 읽게 되었습니다. 그 중 처음으로 읽게 된 논문이 PVNet: Pixel-wise…

Continue Reading
Posted in X-Review

[CVPR2025] Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data

안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 CVRP2025에 게재된 Vision-Language 분야에서 Compositionality를 다룬 논문입니다. 논문의 제목에서 알 수 있듯이 저자는 Synthetic Data를 통해 Compositionality를 다뤘고 최근에…

Continue Reading
Posted in Paper X-Review

[RA-L 2025] MonoTher-Depth: Enhancing Thermal Depth Estimation via Confidence-Aware Distillation

안녕하세요, 58번째 x-review 입니다. 이번 논문은 RA-L 2025년도에 게재된 Monocular Thermal Depth Estimation에 대한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction 단안 RGB…

Continue Reading