Category: Paper
Paper Review
[arXiv 2025] GR00T N1: An Open Foundation Model for GeneralistHumanoid Robots
안녕하세요 오늘은 VLA 모델 중 하나인 GR00T N1 논문에 대해서 설명드리도록 하겠습니다. GR00T 같은 경우에는 기존에 있던 VLA들과 차별점을 둔 VLA의 구조 자체도 정의하긴 했지만…
[ICCV 2025] LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents
안녕하세요 이번에 소개할 논문은 롱비디오 이해에서 단일 MLLM으로 추론 하는 한계를 지적하고 이를 multi-agent 협업 구조로 보완하는 LVAgent 프레임워크를 제안한 논문입니다. 그럼 바로 리뷰 시작하겠습니다….
[arXiv 2025] WorldMM:Dynamic MultiModal Memory Agent for Long Video Understanding
안녕하세요, 두 번 째 x-review로 WorldMM을 가지고 왔습니다. 저희 논문 작업에서 벤치마크를 만들면, 그걸 테스트할 여러 LVU methods 중 하나가 WorldMM인데, 처음에 아키텍처를 봤을 때…
[2025 NIPS] KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction
1. Introduction 이 연구는 롱컨텍스트 트랜스포머가 실제 서비스에서 점점 더 많이 쓰이면서 긴 컨텍스트를 처리할 때 발생하는 비용(메모리·연산)을 어떻게 줄일지에 초점을 둡니다. 장문 문서 분석이나…
[AAAI 2026] Object-Centric Framework for Video Moment Retrieval
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 Video Moment Retrieval task를 다룬 논문입니다. 연차보고서 작성 관련하여 Scene Graph Generation(SGG)를 활용한 task 및 프로젝트를 찾아보고 있는데, 눈에 띄어…
[CVPR 2023] R2Former: Unified Retrieval and Reranking Transformer for Place Recognition
안녕하세요. 첫번째 X-review네요.바로 시작하겠습니다. 1. Introduction VPR에서는 주로 two stage로 retrival을 진행하는데, 먼저 global retrival과 reranking을 진행합니다. 지금까지의 논문들은 먼저 global retrival로 top N개의 이미지를…
[IROS 2025] GSPR: Multimodal Place Recognition using 3D Gaussian Splatting for Autonomous Driving
본 논문은 최근 핫한 토픽은 3D Gaussian Splatting 을 Place Recognition (PR) 분야에 접목한 논문입니다. 기존 PR 모델들이 피처 레벨에서의 추상적인 퓨전에 집중했다면, 본 논문은…
[RSS 2023] Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
안녕하세요, 저번 주에는 VLA 모델의 대표작 중 하나인 SmolVLA에 대해서 리뷰를 했었습니다. 해당 논문에서 Baseline으로 언급된 것이 Vision Action(VA) 기반의 ACT였고, 이에 대해서 흥미가 생겨서…
[Arxiv 2025] VOST-SGG: VLM-Aided One-Stage Spatio-Temporal Scene Graph Generation
안녕하세요, 허재연입니다. 오늘도 Video Scene Graph Generation 논문을 가져 왔습니다. 포멧과 공개 시기를 미루어 보아 CVPR2026에 제출된 논문이 아닐까 하네요. 지금까지의 방법론들과는 다르게 VLM의 정보를…
[arxiv 2025] GigaWorld-0: World Models as Data Engine to Empower Embodied AI – Part 1… GigaWorld-0-Video
이번 리뷰 논문은 요즘 로봇 러닝 분야에서 눈에 띄는 성과를 보이고 있는 GigaAI에서 출판한 논문입니다. GigaAI에서 수행 중인 연구 중에서 가장 대단한 연구라고 생각하는 기법을…
질문 감사합니다. 우선 action encoder로 사용한 RenderNet을 찾아보니, 일관성 있는 캐릭터와 고품질 이미지를 생성하고 제어할 수 있는 강력한 AI 이미지…