[카테고리:] X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[CVPR 2024] Text-to-3D using Gaussian Splatting
안녕하세요, 이번주는 텍스트를 통해 3D asset을 생성할 수 있는 기술인 Text-to-3D 변환 기술에 3D Gaussian Splatting을 활용한 논문을 리뷰 해보도록 하겠습니다. 아래 이미지는 이번에 리뷰하려는…
[CVPR 2019] PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation
안녕하세요 류지연입니다. 현재 기초교육을 받고 있는데 교육 기간동안 6DoF Pose Estimation 관련 논문을 여러 편 읽게 되었습니다. 그 중 처음으로 읽게 된 논문이 PVNet: Pixel-wise…
[CVPR2025] Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 CVRP2025에 게재된 Vision-Language 분야에서 Compositionality를 다룬 논문입니다. 논문의 제목에서 알 수 있듯이 저자는 Synthetic Data를 통해 Compositionality를 다뤘고 최근에…
[RA-L 2025] MonoTher-Depth: Enhancing Thermal Depth Estimation via Confidence-Aware Distillation
안녕하세요, 58번째 x-review 입니다. 이번 논문은 RA-L 2025년도에 게재된 Monocular Thermal Depth Estimation에 대한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction 단안 RGB…
[ArXiv 2024] CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction
안녕하세요, 쉰 다섯번째 X-Review입니다. 이번 논문은 2024년도 ArXiv에 올라온 CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction논문입니다. 바로 시작하도록 하겠습니다. 🧖🏽 1. Introduction 도시 거리에는 광고판이나,…
[CVPR 2022] Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model
안녕하세요, 허재연입니다. 요즘에는 VLM과 OD의 결합으로 발전되고 있는 OVOD의 연구 동향을 팔로업 하고 있습니다. 제가 NLP쪽은 잘 몰라서 VLM의 prompt는 어떻게 사용하는지 항상 의문을 가지고…
[ECCV 2024] Feature Splatting: Language-Driven Physics-Based Scene Synthesis and Editing
안녕하세요 이번주에는 미니 챌린지 도중 3D Gaussian Splatting에 추가적인 feature들을 추가로 넣어서 사용해보고자 feature splatting 논문을 읽어보았습니다. Introduction 낙엽의 움직임을 통해 보이지 않는 바람의 존재를…
[CoRL 2024] D3RoMA: Disparity Diffusion-based Depth Sensing for Material-Agnostic Robotic Manipulation
안녕하세요, 57번째 x-review 입니다. 이번 논문은 CoRL 2024년도에 게재된 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction 스테레오 카메라를 통해 구해지는 depth map은 노이즈와…
[TPAMI 2025] VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization
안녕하세요, 쉰 네번째 X-Review입니다. 이번 논문은 2025년도 TPAMI에 게재된 VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization 논문입니다. 바로 시작하도록…
[CoRL 2024] ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation
안녕하세요. 이번 리뷰도 태스크별 대규모 로봇-액션 데이터를 이용한 학습이나, 환경 모델에 기반한 강화학습없이, VLM+LVM 를 활용하여 free form language instruction이 들어왔을 때 python action code…
최신 댓글