Category: Paper

Paper Review

Posted in Paper X-Review

[arXiv 2025] DREAMGEN: Unlocking Generalization in Robot Learning through Video World Model

안녕하세요 오늘은 로봇 데이터에 관한 논문을 가지고 왔습니다. NVIDIA에서 제시한 DreamGen이라는 방법론입니다. VLA를 보면 볼 수록 아무래도 데이터의 갯수가 많지 않다보니까 특정 데이터에 편향되는 모습을…

Continue Reading
Posted in Paper X-Review

[CVPR2025] Self-Supervised Spatial Correspondence Across Modalities

안녕하세요, 2025 CVPR에 붙은 현재 인용 수 1인 따끈따끈한 논문을 소개해볼까합니다. 해당 논문이 풀고하는 문제는 GT가 없는 상황에서의 matching입니다.위 그림을 보시면 알겠지만, multi-spectral뿐만 아니라, photo-Sketch처럼…

Continue Reading
Posted in Paper X-Review

[TMLR 2026] A Survey of Token Compression for Efficient Multimodal Large Language Models (1)

안녕하세요. 오늘의 X-Review는 MLLM에서의 이미지, 비디오, 오디오 관련 token compression 서베이 논문을 소개해드리고자합니다. 저번주 Audio-Visual Question Answering task에 대한 논문을 제출한 뒤, 졸업 전까지 VLM을…

Continue Reading
Posted in Paper X-Review

[RA-L 2022]Socially CompliAnt Navigation Dataset (SCAND) A Large-Scale Dataset of Demonstrations for Social Navigation

안녕하세요. 이번에 리뷰할 논문은 RAL 2022년에 올라온 Socially CompliAnt Navigation Dataset (SCAND) A Large-Scale Dataset of Demonstrations for Social Navigation 이라는 데이터셋 논문입니다. 바로 리뷰…

Continue Reading
Posted in Paper X-Review

[AAAI 2026] VideoChat-A1: Thinking with Long Videos byChain-of-Shot Reasoning

안녕하세요! 이번에 소개할 논문은  Long Video Understanding에서 긴 비디오를 효과적으로 이해하기 어려운 문제를 해결하기 위해 shot단위의 점진적인 추론 방식인 Chain-of-Shot 프레임워크(VideoChat-A1)를 제안한 연구입니다이 논문은 기존…

Continue Reading
Posted in Paper X-Review

[arXiv2025]LongVideoAgent: Multi-Agent Reasoning with Long Videos

왜 제안되었나? Crucially, most prior systems are non-agentic models: they process a static, pre-encoded or down-sampled video. 기존의 연구들은 미리 설계된(pre-encoded) 아키텍쳐로 분석을 수행하였다. 이러한…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry

안녕하세요 이번에 리뷰할 논문은 아카이브에 올라온지 2달된 LoGoPlanner Localization Grounded Navigation Policy with Metric-aware Visual Geometry라는 논문 입니다.지금까지는 image goal, language prompt 기반의 navigation 논문들을…

Continue Reading
Posted in Paper X-Review

[CVPR 2025] Apollo: An Exploration of Video Understanding in Large Multimodal Models

안녕하세요, 3번째 x-review는 Apollo라는 논문입니다. (논문 기준) 현재까지 video-LLM 연구의 문제점을 짚고, 저자 자신들의 모델을 제안하는 구성이기 때문에 LVU task에 익숙하지 않으신 분들도 꽤(?) 재밌게…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2023] DAC-DETR: Divide the Attention Layers and Conquer

안녕하세요, 허재연입니다. 오늘은 DETR 관련 논문을 들고왔습니다. 요즘 비전 쪽 모델 보면 DETR 구조를 기반으로 변형된 모델들이 굉장히 많고, 다양한 분야의 task에서 DETR 구조를 도입하고…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2025] VideoAgent2: Enhancing the LLM-Based Agent System for Long-Form VideoUnderstanding by Uncertainty-Aware CoT

안녕하세요이번에 소개할 논문은 Long Video Understanding에서 기존 LLM에이전트들이 tool사용 과정에서 발생하는 불확실성과 그로인해 누적되는 오류 문제를 지적하고 이것을 해결하기위해 uncertainty-aware CoT와 plan-adjust기반의 추론 구조를 제안한…

Continue Reading