[카테고리:] X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in X-Review

[CVPR 2024] Text-to-3D using Gaussian Splatting

안녕하세요, 이번주는 텍스트를 통해 3D asset을 생성할 수 있는 기술인 Text-to-3D 변환 기술에 3D Gaussian Splatting을 활용한 논문을 리뷰 해보도록 하겠습니다. 아래 이미지는 이번에 리뷰하려는…

Continue Reading
Posted in Paper X-Review

[CVPR 2019] PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation

안녕하세요 류지연입니다. 현재 기초교육을 받고 있는데 교육 기간동안 6DoF Pose Estimation 관련 논문을 여러 편 읽게 되었습니다. 그 중 처음으로 읽게 된 논문이 PVNet: Pixel-wise…

Continue Reading
Posted in X-Review

[CVPR2025] Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data

안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 CVRP2025에 게재된 Vision-Language 분야에서 Compositionality를 다룬 논문입니다. 논문의 제목에서 알 수 있듯이 저자는 Synthetic Data를 통해 Compositionality를 다뤘고 최근에…

Continue Reading
Posted in Paper X-Review

[RA-L 2025] MonoTher-Depth: Enhancing Thermal Depth Estimation via Confidence-Aware Distillation

안녕하세요, 58번째 x-review 입니다. 이번 논문은 RA-L 2025년도에 게재된 Monocular Thermal Depth Estimation에 대한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction 단안 RGB…

Continue Reading
Posted in Paper X-Review

[ArXiv 2024] CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction

안녕하세요, 쉰 다섯번째 X-Review입니다. 이번 논문은 2024년도 ArXiv에 올라온 CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction논문입니다. 바로 시작하도록 하겠습니다. 🧖🏽 1. Introduction 도시 거리에는 광고판이나,…

Continue Reading
Posted in Paper X-Review

[CVPR 2022] Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model

안녕하세요, 허재연입니다. 요즘에는 VLM과 OD의 결합으로 발전되고 있는 OVOD의 연구 동향을 팔로업 하고 있습니다. 제가 NLP쪽은 잘 몰라서 VLM의 prompt는 어떻게 사용하는지 항상 의문을 가지고…

Continue Reading
Posted in X-Review

[ECCV 2024] Feature Splatting: Language-Driven Physics-Based Scene Synthesis and Editing

안녕하세요 이번주에는 미니 챌린지 도중 3D Gaussian Splatting에 추가적인 feature들을 추가로 넣어서 사용해보고자 feature splatting 논문을 읽어보았습니다. Introduction 낙엽의 움직임을 통해 보이지 않는 바람의 존재를…

Continue Reading
Posted in Paper X-Review

[CoRL 2024] D3RoMA: Disparity Diffusion-based Depth Sensing for Material-Agnostic Robotic Manipulation

안녕하세요, 57번째 x-review 입니다. 이번 논문은 CoRL 2024년도에 게재된 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction 스테레오 카메라를 통해 구해지는 depth map은 노이즈와…

Continue Reading
Posted in Paper X-Review

[TPAMI 2025] VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization

안녕하세요, 쉰 네번째 X-Review입니다. 이번 논문은 2025년도 TPAMI에 게재된 VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization 논문입니다. 바로 시작하도록…

Continue Reading
Posted in X-Review

[CoRL 2024] ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation

안녕하세요. 이번 리뷰도 태스크별 대규모 로봇-액션 데이터를 이용한 학습이나, 환경 모델에 기반한 강화학습없이, VLM+LVM 를 활용하여 free form language instruction이 들어왔을 때 python action code…

Continue Reading