X-Review – Page 22 – Robotics and Computer Vision Lab

[CVPRw 2024] Strategies to Leverage Foundation Model Knowledge in Object Affordance Grounding

최근 미학습 물체 파지 과제를 위해 속성 정보를 이용하여 미학습 물체를 찾는 연구를 하고있었는데, 개인연구로 진행하던 affordance grounding에도 이러한 속성 정보를 활용한 연구가 나와 리뷰하게…

[ICLR 2025] Weakly Supervised Video Scene Graph Generation via Natural Language Supervision

안녕하세요, 허재연입니다. 지난 주에 이어서 Video SGG논문을 가져왔습니다. SGG쪽 연구를 꾸준히 하시던 저자들이 ICLR2025에 게재한 논문이고, LLM 기반의 Weakly Supervised Learning 기법을 제안한 논문이라 읽어보았습니다….

Paper

[CVPR 2023]Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation

안녕하세요. 이번에 제가 이번에 리뷰할 논문은 Mask DINO라는 논문입니다. 상반기 회고에서도 잠깐 언급했듯이, 현재는 단순하게 말씀드리면 하나의 모델로 depth estimation과 object detection을 동시에 수행할 수…

X-Review

[arXiv 2025] SceneComplete : Open-World 3D Scene Completion in Cluttered Real World Environments for Robot Manipulation

안녕하세요 이번주는 Scene Completion이라는 task를 수행하는 논문을 가져왔습니다. Scene Completion 태스크는 Scene에 대한 불완전한 정보들을 채워넣어서 최대한 현실에 가까운 복원을 하는 task라고 생각하시면 될 것…

Paper X-Review

[arXiv 2025] DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

이번 리뷰 논문은 최신 VLA 논문입니다. 현재 VLA 방법론들의 평가 방법이 난잡한 상황에서 많은 기법들이 CALVIN과 LIBERO 벤치마크를 이용해서 평가를 하는 흐름으로 보입니다. 해당 기법은…

Paper X-Review

[arXiv 2025] Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator

안녕하세요, 73번째 x-review 입니다. 이번 논문은 2025년 arXiv에 올라와 있는 Distill Any Depth라는 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction Monocular Depth Estimation(MDE)…

Paper X-Review

[NeurlPS 2024]SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale SAR Object Detection

이번 x-review 로는 SAR (합성개구레이더 (Synthetic-aperture radar))이라는 데이터를 이용한 Object detection 논문입니다. 논문 제목으로 알 수 있듯 SAR 도메인의 Detection의 대규모 벤치마크를 제안하면서 동시에 어떻게…

X-Review

[ICCV 2025] Everything is a Video: Unifying Modalities through Next-Frame Prediction

ICCV 2025 억셉 리스트가 공개되었고, 제목에 이끌려 읽게된 논문에 대해 리뷰해보겠습니다. 오늘 알아볼 논문은, 멀티모달 러닝 태스크입니다. 다양한 모달리티를 어떻게 학습하면 좋을까? 에 대한 연구는…

Paper X-Review

[2025 TCSVT] MonoDiffusion: Self-Supervised Monocular Depth Estimation Using Diffusion Model

이번에 소개드릴 논문은 self-supervised monocular depth estimation 쪽 논문입니다. 해당 task로 논문을 쓰고 있어서 당분간 주기적으로 해당 분야의 최신 논문 리뷰를 작성할 것 같네요. self-supervised…

Conference Paper X-Review

[CoRL 2024] 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations

오랜만에 robot policy learning 논문을 가지고 왔습니다. 해당 기법은 3D Diffusion Policy와 유사하게 3차원 공간 정보를 활용하여 human demonstration에 대해 diffusion을 이용하여 모방하는 방법을 이용합니다….

Category: X-Review

[CVPRw 2024] Strategies to Leverage Foundation Model Knowledge in Object Affordance Grounding

[ICLR 2025] Weakly Supervised Video Scene Graph Generation via Natural Language Supervision

[CVPR 2023]Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation

[arXiv 2025] SceneComplete : Open-World 3D Scene Completion in Cluttered Real World Environments for Robot Manipulation

[arXiv 2025] DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

[arXiv 2025] Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator

[NeurlPS 2024]SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale SAR Object Detection

[ICCV 2025] Everything is a Video: Unifying Modalities through Next-Frame Prediction

[2025 TCSVT] MonoDiffusion: Self-Supervised Monocular Depth Estimation Using Diffusion Model

[CoRL 2024] 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations

Conference Deadline

NEW POST

New Comment