Posted in X-Review

[CVPR 2023] Open-vocabulary Attribute Detection

안녕하세요. 저의 첫 번째 X-Review에서는 요즘 서베이 중인 OVAD 논문을 다루어보고자 합니다. 해당 논문은 OVAD 태스크를 처음으로 제시한 논문입니다. 1. Introduction 컴퓨터 비전의 주요 목표…

Continue Reading
Posted in Paper X-Review

[2025 NIPS] KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction

1. Introduction 이 연구는 롱컨텍스트 트랜스포머가 실제 서비스에서 점점 더 많이 쓰이면서 긴 컨텍스트를 처리할 때 발생하는 비용(메모리·연산)을 어떻게 줄일지에 초점을 둡니다. 장문 문서 분석이나…

Continue Reading
Posted in X-Review

[arXiv 2025] GaMO- Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D Reconstruction

안녕하세요 손우진입니다. 이번주에도 graphics 논문을 리뷰 해보려고합니다. 요즘은 열화상 이미지와 RGB 이미지를 3DGS novel-view-synthetics 로 두 카메라를 픽셀 level에서 alignment를 맞추는 작업을 하고 있는데요. 로봇팔을…

Continue Reading
Posted in X-Review

[NeurIPS 2025] Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training

안녕하세요, 이번주는 sim-and-real co-training에 대한 연구들 리뷰해보려고 합니다. 사실 합성 데이터는 현실에서 얻는 데이터와 visual, sensor, dynamics gap이 존재합니다. 따라서 제아무리 풍부한 합성 데이터로 학습을…

Continue Reading
Posted in Paper X-Review

[AAAI 2026] Object-Centric Framework for Video Moment Retrieval

안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 Video Moment Retrieval task를 다룬 논문입니다. 연차보고서 작성 관련하여 Scene Graph Generation(SGG)를 활용한 task 및 프로젝트를 찾아보고 있는데, 눈에 띄어…

Continue Reading
Posted in X-Review

[RSS 2025]NaVILA: Legged Robot Vision-Language-Action Model for Navigation

안녕하세요. 오늘 리뷰할 논문은 NaVILA: Legged Robot Vision-Language-Action Model for Navigation이라는 논문입니다.여러 후속 논문들에서 이 논문을 자주 사이테이션하거나 베이스라인으로 잡고 있길래한번 읽어봐야겠다 싶어서 찾아서 읽어보게…

Continue Reading
Posted in X-Review

[ICCV 2025] Bidirectional Likelihood Estimation withMulti-Modal Large Language Models for Text-Video Retrieval

1. Introduction Text-Video Retrieval은 주어진 텍스트에 대응되는 비디오, 혹은 비디오에 대응되는 텍스트를 검색하는 태스크입니다. 기존에는 CLIP이나 BERT 기반의 dual-encoder 구조가 주로 사용되었으며, 계산 효율은 높았지만…

Continue Reading
Posted in X-Review

[RSS 2023] Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

안녕하세요 최인하입니다. 이번에는 Diffusion Policy에 대해서 리뷰하겠습니다. 항상 해야지 해야지 했었던 논문인데, 이해하는데 background가 필요했던 논문이라 오래걸렸던 것 같습니다. 아직까지 완전히 이해한건 아닌 것 같지만…

Continue Reading
Posted in X-Review

[arxiv 2025] Motus: A Unified Latent Action World Model

이번 리뷰는 논문 작업이 끝난 후 다음 연구 주제인 Long-horizon Task와 Failure Detection 분야를 서칭하던 중, 자극적인 제목에 끌려 보게되었습니다. Latent Action, World Model 을…

Continue Reading
Posted in Paper X-Review

[CVPR 2023] R2Former: Unified Retrieval and Reranking Transformer for Place Recognition

안녕하세요. 첫번째 X-review네요.바로 시작하겠습니다. 1. Introduction VPR에서는 주로 two stage로 retrival을 진행하는데, 먼저 global retrival과 reranking을 진행합니다. 지금까지의 논문들은 먼저 global retrival로 top N개의 이미지를…

Continue Reading