Posted in Paper X-Review

[arXiv 2025] LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry

안녕하세요 이번에 리뷰할 논문은 아카이브에 올라온지 2달된 LoGoPlanner Localization Grounded Navigation Policy with Metric-aware Visual Geometry라는 논문 입니다.지금까지는 image goal, language prompt 기반의 navigation 논문들을…

Continue Reading
Posted in Paper X-Review

[CVPR 2025] Apollo: An Exploration of Video Understanding in Large Multimodal Models

안녕하세요, 3번째 x-review는 Apollo라는 논문입니다. (논문 기준) 현재까지 video-LLM 연구의 문제점을 짚고, 저자 자신들의 모델을 제안하는 구성이기 때문에 LVU task에 익숙하지 않으신 분들도 꽤(?) 재밌게…

Continue Reading
Posted in X-Review

[arXiv 2025]Phystoolbench: Benchmarking physical tool understanding for mllms

해당 논문은 작년 10월에 아카이브에 공개된 논문으로, MLLMs에 대한 도구 이해 능력을 평가하였다는 점에서 궁금하여 읽게 되었습니다. 어디에 제출하였는지는 잘 모르겠지만, 난이도에 대하여 단계적으로 구분한…

Continue Reading
Posted in X-Review

[ICCV 2025] STORM: Token-Efficient Long Video Understanding for Multimodal LLMs

안녕하세요 이번에 소개할 논문은 NVDIA에서 발표한 논문으로 롱비디오 이해에 있어 Mamba 기반 모델로 토큰 압축을 적용하여 시간 모델링을 보완하고 성능과 효율을 동시에 향상시킨 논문입니다. 1….

Continue Reading
Posted in X-Review

[CVPR 2025] Co-op:Correspondence-based Novel Object Pose Estimation

안녕하세요 손우진입니다. 오늘은 단일 RGB 기반의 6D Pose Esitmation 논문을 리뷰해볼까 합니다. 아무래도 6D 측정을 위해서라면 Depth가 필요한데요 하지만 Depth 없이 이미지기반의 6D 포즈 예측은…

Continue Reading
Posted in X-Review

[Arxiv 2026] Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking

Qwen3-VL을 바탕으로 Universal Multimodal Retrieval and Ranking 연구를 리뷰해보려고 합니다. 0. Universal Multimodal Retrieval 본 논문이 다루는 태스크는 저자들이 Universal Multimodal Retrieval이라 부르는 설정입니다. 이는…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2023] DAC-DETR: Divide the Attention Layers and Conquer

안녕하세요, 허재연입니다. 오늘은 DETR 관련 논문을 들고왔습니다. 요즘 비전 쪽 모델 보면 DETR 구조를 기반으로 변형된 모델들이 굉장히 많고, 다양한 분야의 task에서 DETR 구조를 도입하고…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2025] VideoAgent2: Enhancing the LLM-Based Agent System for Long-Form VideoUnderstanding by Uncertainty-Aware CoT

안녕하세요이번에 소개할 논문은 Long Video Understanding에서 기존 LLM에이전트들이 tool사용 과정에서 발생하는 불확실성과 그로인해 누적되는 오류 문제를 지적하고 이것을 해결하기위해 uncertainty-aware CoT와 plan-adjust기반의 추론 구조를 제안한…

Continue Reading
Posted in X-Review

[arXiv 2026] Sim-and-Human Co-training for Data-Efficient and Generalizable Robotic Manipulation

안녕하세요, 이번주도 다른 도메인에서 취득한 데이터를 조합하며 효과적으로 visuomotor policy를 학습하는 기법에 대해 리뷰하려고 합니다. 지난 리뷰 연구가 수학적으로 모델링해 loss를 설계하는 방식이었다면, 이번 연구는…

Continue Reading
Posted in Paper X-Review

[arXiv2025]VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

# 들어가며 오늘 소개드린 논문은 video understanding 수행에 있어서 multi-agent를 사용하는 방법을 소개하는 논문입니다. 논문에 따르면 기존 방식은 추론 과정에서 초기 계획이 변하지 않는 fixed…

Continue Reading