[CVPR 2023] Open-vocabulary Attribute Detection
안녕하세요. 저의 첫 번째 X-Review에서는 요즘 서베이 중인 OVAD 논문을 다루어보고자 합니다. 해당 논문은 OVAD 태스크를 처음으로 제시한 논문입니다. 1. Introduction 컴퓨터 비전의 주요 목표…
[2025 NIPS] KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction
1. Introduction 이 연구는 롱컨텍스트 트랜스포머가 실제 서비스에서 점점 더 많이 쓰이면서 긴 컨텍스트를 처리할 때 발생하는 비용(메모리·연산)을 어떻게 줄일지에 초점을 둡니다. 장문 문서 분석이나…
[arXiv 2025] GaMO- Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D Reconstruction
안녕하세요 손우진입니다. 이번주에도 graphics 논문을 리뷰 해보려고합니다. 요즘은 열화상 이미지와 RGB 이미지를 3DGS novel-view-synthetics 로 두 카메라를 픽셀 level에서 alignment를 맞추는 작업을 하고 있는데요. 로봇팔을…
[NeurIPS 2025] Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training
안녕하세요, 이번주는 sim-and-real co-training에 대한 연구들 리뷰해보려고 합니다. 사실 합성 데이터는 현실에서 얻는 데이터와 visual, sensor, dynamics gap이 존재합니다. 따라서 제아무리 풍부한 합성 데이터로 학습을…
[AAAI 2026] Object-Centric Framework for Video Moment Retrieval
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 Video Moment Retrieval task를 다룬 논문입니다. 연차보고서 작성 관련하여 Scene Graph Generation(SGG)를 활용한 task 및 프로젝트를 찾아보고 있는데, 눈에 띄어…
[RSS 2025]NaVILA: Legged Robot Vision-Language-Action Model for Navigation
안녕하세요. 오늘 리뷰할 논문은 NaVILA: Legged Robot Vision-Language-Action Model for Navigation이라는 논문입니다.여러 후속 논문들에서 이 논문을 자주 사이테이션하거나 베이스라인으로 잡고 있길래한번 읽어봐야겠다 싶어서 찾아서 읽어보게…
[ICCV 2025] Bidirectional Likelihood Estimation withMulti-Modal Large Language Models for Text-Video Retrieval
1. Introduction Text-Video Retrieval은 주어진 텍스트에 대응되는 비디오, 혹은 비디오에 대응되는 텍스트를 검색하는 태스크입니다. 기존에는 CLIP이나 BERT 기반의 dual-encoder 구조가 주로 사용되었으며, 계산 효율은 높았지만…
[RSS 2023] Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
안녕하세요 최인하입니다. 이번에는 Diffusion Policy에 대해서 리뷰하겠습니다. 항상 해야지 해야지 했었던 논문인데, 이해하는데 background가 필요했던 논문이라 오래걸렸던 것 같습니다. 아직까지 완전히 이해한건 아닌 것 같지만…
[arxiv 2025] Motus: A Unified Latent Action World Model
이번 리뷰는 논문 작업이 끝난 후 다음 연구 주제인 Long-horizon Task와 Failure Detection 분야를 서칭하던 중, 자극적인 제목에 끌려 보게되었습니다. Latent Action, World Model 을…
[CVPR 2023] R2Former: Unified Retrieval and Reranking Transformer for Place Recognition
안녕하세요. 첫번째 X-review네요.바로 시작하겠습니다. 1. Introduction VPR에서는 주로 two stage로 retrival을 진행하는데, 먼저 global retrival과 reranking을 진행합니다. 지금까지의 논문들은 먼저 global retrival로 top N개의 이미지를…
질문 감사합니다. 우선 action encoder로 사용한 RenderNet을 찾아보니, 일관성 있는 캐릭터와 고품질 이미지를 생성하고 제어할 수 있는 강력한 AI 이미지…