[arXiv 2025] WorldMM:Dynamic MultiModal Memory Agent for Long Video Understanding
안녕하세요, 두 번 째 x-review로 WorldMM을 가지고 왔습니다. 저희 논문 작업에서 벤치마크를 만들면, 그걸 테스트할 여러 LVU methods 중 하나가 WorldMM인데, 처음에 아키텍처를 봤을 때…
[CVPR 2023] Open-vocabulary Attribute Detection
안녕하세요. 저의 첫 번째 X-Review에서는 요즘 서베이 중인 OVAD 논문을 다루어보고자 합니다. 해당 논문은 OVAD 태스크를 처음으로 제시한 논문입니다. 1. Introduction 컴퓨터 비전의 주요 목표…
[2025 NIPS] KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction
1. Introduction 이 연구는 롱컨텍스트 트랜스포머가 실제 서비스에서 점점 더 많이 쓰이면서 긴 컨텍스트를 처리할 때 발생하는 비용(메모리·연산)을 어떻게 줄일지에 초점을 둡니다. 장문 문서 분석이나…
[arXiv 2025] GaMO- Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D Reconstruction
안녕하세요 손우진입니다. 이번주에도 graphics 논문을 리뷰 해보려고합니다. 요즘은 열화상 이미지와 RGB 이미지를 3DGS novel-view-synthetics 로 두 카메라를 픽셀 level에서 alignment를 맞추는 작업을 하고 있는데요. 로봇팔을…
[NeurIPS 2025] Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training
안녕하세요, 이번주는 sim-and-real co-training에 대한 연구들 리뷰해보려고 합니다. 사실 합성 데이터는 현실에서 얻는 데이터와 visual, sensor, dynamics gap이 존재합니다. 따라서 제아무리 풍부한 합성 데이터로 학습을…
[AAAI 2026] Object-Centric Framework for Video Moment Retrieval
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 Video Moment Retrieval task를 다룬 논문입니다. 연차보고서 작성 관련하여 Scene Graph Generation(SGG)를 활용한 task 및 프로젝트를 찾아보고 있는데, 눈에 띄어…
[RSS 2025]NaVILA: Legged Robot Vision-Language-Action Model for Navigation
안녕하세요. 오늘 리뷰할 논문은 NaVILA: Legged Robot Vision-Language-Action Model for Navigation이라는 논문입니다.여러 후속 논문들에서 이 논문을 자주 사이테이션하거나 베이스라인으로 잡고 있길래한번 읽어봐야겠다 싶어서 찾아서 읽어보게…
[ICCV 2025] Bidirectional Likelihood Estimation withMulti-Modal Large Language Models for Text-Video Retrieval
1. Introduction Text-Video Retrieval은 주어진 텍스트에 대응되는 비디오, 혹은 비디오에 대응되는 텍스트를 검색하는 태스크입니다. 기존에는 CLIP이나 BERT 기반의 dual-encoder 구조가 주로 사용되었으며, 계산 효율은 높았지만…
[RSS 2023] Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
안녕하세요 최인하입니다. 이번에는 Diffusion Policy에 대해서 리뷰하겠습니다. 항상 해야지 해야지 했었던 논문인데, 이해하는데 background가 필요했던 논문이라 오래걸렸던 것 같습니다. 아직까지 완전히 이해한건 아닌 것 같지만…
[arxiv 2025] Motus: A Unified Latent Action World Model
이번 리뷰는 논문 작업이 끝난 후 다음 연구 주제인 Long-horizon Task와 Failure Detection 분야를 서칭하던 중, 자극적인 제목에 끌려 보게되었습니다. Latent Action, World Model 을…
안녕하세요 리뷰 읽어주셔서 감사합니다. 말씀해주신대로 프롬프트로 수행하는 방식으로 모달리티별로 정해진 탬플릿이 있는것은 아닙니다 혹시 프롬프트 생성에 활용된 탬플릿이 궁금하시면 논문의…