[NeurIPS 2025] Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training
안녕하세요, 이번주는 sim-and-real co-training에 대한 연구들 리뷰해보려고 합니다. 사실 합성 데이터는 현실에서 얻는 데이터와 visual, sensor, dynamics gap이 존재합니다. 따라서 제아무리 풍부한 합성 데이터로 학습을…
[AAAI 2026] Object-Centric Framework for Video Moment Retrieval
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 Video Moment Retrieval task를 다룬 논문입니다. 연차보고서 작성 관련하여 Scene Graph Generation(SGG)를 활용한 task 및 프로젝트를 찾아보고 있는데, 눈에 띄어…
[RSS 2025]NaVILA: Legged Robot Vision-Language-Action Model for Navigation
안녕하세요. 오늘 리뷰할 논문은 NaVILA: Legged Robot Vision-Language-Action Model for Navigation이라는 논문입니다.여러 후속 논문들에서 이 논문을 자주 사이테이션하거나 베이스라인으로 잡고 있길래한번 읽어봐야겠다 싶어서 찾아서 읽어보게…
[ICCV 2025] Bidirectional Likelihood Estimation withMulti-Modal Large Language Models for Text-Video Retrieval
1. Introduction Text-Video Retrieval은 주어진 텍스트에 대응되는 비디오, 혹은 비디오에 대응되는 텍스트를 검색하는 태스크입니다. 기존에는 CLIP이나 BERT 기반의 dual-encoder 구조가 주로 사용되었으며, 계산 효율은 높았지만…
[RSS 2023] Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
안녕하세요 최인하입니다. 이번에는 Diffusion Policy에 대해서 리뷰하겠습니다. 항상 해야지 해야지 했었던 논문인데, 이해하는데 background가 필요했던 논문이라 오래걸렸던 것 같습니다. 아직까지 완전히 이해한건 아닌 것 같지만…
[arxiv 2025] Motus: A Unified Latent Action World Model
이번 리뷰는 논문 작업이 끝난 후 다음 연구 주제인 Long-horizon Task와 Failure Detection 분야를 서칭하던 중, 자극적인 제목에 끌려 보게되었습니다. Latent Action, World Model 을…
[CVPR 2023] R2Former: Unified Retrieval and Reranking Transformer for Place Recognition
안녕하세요. 첫번째 X-review네요.바로 시작하겠습니다. 1. Introduction VPR에서는 주로 two stage로 retrival을 진행하는데, 먼저 global retrival과 reranking을 진행합니다. 지금까지의 논문들은 먼저 global retrival로 top N개의 이미지를…
[IROS 2025] GSPR: Multimodal Place Recognition using 3D Gaussian Splatting for Autonomous Driving
본 논문은 최근 핫한 토픽은 3D Gaussian Splatting 을 Place Recognition (PR) 분야에 접목한 논문입니다. 기존 PR 모델들이 피처 레벨에서의 추상적인 퓨전에 집중했다면, 본 논문은…
[RSS 2023] Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
안녕하세요, 저번 주에는 VLA 모델의 대표작 중 하나인 SmolVLA에 대해서 리뷰를 했었습니다. 해당 논문에서 Baseline으로 언급된 것이 Vision Action(VA) 기반의 ACT였고, 이에 대해서 흥미가 생겨서…
[Arxiv 2025] VOST-SGG: VLM-Aided One-Stage Spatio-Temporal Scene Graph Generation
안녕하세요, 허재연입니다. 오늘도 Video Scene Graph Generation 논문을 가져 왔습니다. 포멧과 공개 시기를 미루어 보아 CVPR2026에 제출된 논문이 아닐까 하네요. 지금까지의 방법론들과는 다르게 VLM의 정보를…
댓글 감사합니다. 영규님 저 또한 그렇게 생각이듭니다. 하지만 학습때는 열화상이미지를 노이즈로 변환해서 학습하게 되고 dual classifier-free guidance 학습방식으로 통해서 정확하게…