Category: Paper

Paper Review

Posted in Paper X-Review

[arXiv2025]VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

# 들어가며 오늘 소개드린 논문은 video understanding 수행에 있어서 multi-agent를 사용하는 방법을 소개하는 논문입니다. 논문에 따르면 기존 방식은 추론 과정에서 초기 계획이 변하지 않는 fixed…

Continue Reading
Posted in Paper X-Review

[CVPR 2022] Contrasitive Test Time Adaptation

안녕하세요 이번에 리뷰할 논문은 2022년에 CVPR에 개제된 Contrasitive Test Time Adaptation 이라는 논문입니다.Test Time Adaptation 이라는 Test time에 실제 그 도메인에 맞게끔 모델 자체가 스스로…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] GR00T N1: An Open Foundation Model for GeneralistHumanoid Robots

안녕하세요 오늘은 VLA 모델 중 하나인 GR00T N1 논문에 대해서 설명드리도록 하겠습니다. GR00T 같은 경우에는 기존에 있던 VLA들과 차별점을 둔 VLA의 구조 자체도 정의하긴 했지만…

Continue Reading
Posted in Paper X-Review

[ICCV 2025] LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents

안녕하세요 이번에 소개할 논문은 롱비디오 이해에서 단일 MLLM으로 추론 하는 한계를 지적하고 이를 multi-agent 협업 구조로 보완하는 LVAgent 프레임워크를 제안한 논문입니다. 그럼 바로 리뷰 시작하겠습니다….

Continue Reading
Posted in Paper X-Review

[arXiv 2025] WorldMM:Dynamic MultiModal Memory Agent for Long Video Understanding

안녕하세요, 두 번 째 x-review로 WorldMM을 가지고 왔습니다. 저희 논문 작업에서 벤치마크를 만들면, 그걸 테스트할 여러 LVU methods 중 하나가 WorldMM인데, 처음에 아키텍처를 봤을 때…

Continue Reading
Posted in Paper X-Review

[2025 NIPS] KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction

1. Introduction 이 연구는 롱컨텍스트 트랜스포머가 실제 서비스에서 점점 더 많이 쓰이면서 긴 컨텍스트를 처리할 때 발생하는 비용(메모리·연산)을 어떻게 줄일지에 초점을 둡니다. 장문 문서 분석이나…

Continue Reading
Posted in Paper X-Review

[AAAI 2026] Object-Centric Framework for Video Moment Retrieval

안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 Video Moment Retrieval task를 다룬 논문입니다. 연차보고서 작성 관련하여 Scene Graph Generation(SGG)를 활용한 task 및 프로젝트를 찾아보고 있는데, 눈에 띄어…

Continue Reading
Posted in Paper X-Review

[CVPR 2023] R2Former: Unified Retrieval and Reranking Transformer for Place Recognition

안녕하세요. 첫번째 X-review네요.바로 시작하겠습니다. 1. Introduction VPR에서는 주로 two stage로 retrival을 진행하는데, 먼저 global retrival과 reranking을 진행합니다. 지금까지의 논문들은 먼저 global retrival로 top N개의 이미지를…

Continue Reading
Posted in Paper X-Review

[IROS 2025] GSPR: Multimodal Place Recognition using 3D Gaussian Splatting for Autonomous Driving

본 논문은 최근 핫한 토픽은 3D Gaussian Splatting 을 Place Recognition (PR) 분야에 접목한 논문입니다. 기존 PR 모델들이 피처 레벨에서의 추상적인 퓨전에 집중했다면, 본 논문은…

Continue Reading
Posted in Paper X-Review

[RSS 2023] Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

안녕하세요, 저번 주에는 VLA 모델의 대표작 중 하나인 SmolVLA에 대해서 리뷰를 했었습니다. 해당 논문에서 Baseline으로 언급된 것이 Vision Action(VA) 기반의 ACT였고, 이에 대해서 흥미가 생겨서…

Continue Reading