Category: X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in Paper X-Review

[AAAI 2026] VideoChat-A1: Thinking with Long Videos byChain-of-Shot Reasoning

안녕하세요! 이번에 소개할 논문은  Long Video Understanding에서 긴 비디오를 효과적으로 이해하기 어려운 문제를 해결하기 위해 shot단위의 점진적인 추론 방식인 Chain-of-Shot 프레임워크(VideoChat-A1)를 제안한 연구입니다이 논문은 기존…

Continue Reading
Posted in Paper X-Review

[arXiv2025]LongVideoAgent: Multi-Agent Reasoning with Long Videos

왜 제안되었나? Crucially, most prior systems are non-agentic models: they process a static, pre-encoded or down-sampled video. 기존의 연구들은 미리 설계된(pre-encoded) 아키텍쳐로 분석을 수행하였다. 이러한…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry

안녕하세요 이번에 리뷰할 논문은 아카이브에 올라온지 2달된 LoGoPlanner Localization Grounded Navigation Policy with Metric-aware Visual Geometry라는 논문 입니다.지금까지는 image goal, language prompt 기반의 navigation 논문들을…

Continue Reading
Posted in Paper X-Review

[CVPR 2025] Apollo: An Exploration of Video Understanding in Large Multimodal Models

안녕하세요, 3번째 x-review는 Apollo라는 논문입니다. (논문 기준) 현재까지 video-LLM 연구의 문제점을 짚고, 저자 자신들의 모델을 제안하는 구성이기 때문에 LVU task에 익숙하지 않으신 분들도 꽤(?) 재밌게…

Continue Reading
Posted in X-Review

[arXiv 2025]Phystoolbench: Benchmarking physical tool understanding for mllms

해당 논문은 작년 10월에 아카이브에 공개된 논문으로, MLLMs에 대한 도구 이해 능력을 평가하였다는 점에서 궁금하여 읽게 되었습니다. 어디에 제출하였는지는 잘 모르겠지만, 난이도에 대하여 단계적으로 구분한…

Continue Reading
Posted in X-Review

[ICCV 2025] STORM: Token-Efficient Long Video Understanding for Multimodal LLMs

안녕하세요 이번에 소개할 논문은 NVDIA에서 발표한 논문으로 롱비디오 이해에 있어 Mamba 기반 모델로 토큰 압축을 적용하여 시간 모델링을 보완하고 성능과 효율을 동시에 향상시킨 논문입니다. 1….

Continue Reading
Posted in X-Review

[CVPR 2025] Co-op:Correspondence-based Novel Object Pose Estimation

안녕하세요 손우진입니다. 오늘은 단일 RGB 기반의 6D Pose Esitmation 논문을 리뷰해볼까 합니다. 아무래도 6D 측정을 위해서라면 Depth가 필요한데요 하지만 Depth 없이 이미지기반의 6D 포즈 예측은…

Continue Reading
Posted in X-Review

[Arxiv 2026] Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking

Qwen3-VL을 바탕으로 Universal Multimodal Retrieval and Ranking 연구를 리뷰해보려고 합니다. 0. Universal Multimodal Retrieval 본 논문이 다루는 태스크는 저자들이 Universal Multimodal Retrieval이라 부르는 설정입니다. 이는…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2023] DAC-DETR: Divide the Attention Layers and Conquer

안녕하세요, 허재연입니다. 오늘은 DETR 관련 논문을 들고왔습니다. 요즘 비전 쪽 모델 보면 DETR 구조를 기반으로 변형된 모델들이 굉장히 많고, 다양한 분야의 task에서 DETR 구조를 도입하고…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2025] VideoAgent2: Enhancing the LLM-Based Agent System for Long-Form VideoUnderstanding by Uncertainty-Aware CoT

안녕하세요이번에 소개할 논문은 Long Video Understanding에서 기존 LLM에이전트들이 tool사용 과정에서 발생하는 불확실성과 그로인해 누적되는 오류 문제를 지적하고 이것을 해결하기위해 uncertainty-aware CoT와 plan-adjust기반의 추론 구조를 제안한…

Continue Reading