Recent Posts
[ICCV2025] SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts
Intro 최근 비전-언어 네비게이션(Vision-and-Language Navigation) 분야는 다양한 태스크로 분화되었습니다. 저자들은 이를 언어 지시어의 세밀함(Granularity)에 따라 크게 두 가지로 분류합니다. 이들은 겉보기에 다른 목표를 가진 것처럼…
[NeurIPS2025]AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding
짧은 논문 소개 본 연구는 MLLM(Multimodal Large Language Model)을 활용하여 긴 영상에 대한 질의응답 테스크 정확도를 개선하는 RAG 프레임워크를 제시한 것입니다. 연구에서는 기존 RAG 연구가…
[CVPR 2025 Oral] Temporally Consistent Object-Centric Learning by Contrasting Slots
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 CVPR 2025에서 Oral presentation으로 선정됐던 논문으로, video data를 활용한 self-supervised object centric learning 기법을 다룹니다. 제 개인 연구에서 어떻게 하면…
[NeurIPS 2025] Video-R1: Reinforcing Video Reasoning in MLLMs
0. Background (RL & GRPO) 언어모델에서의 강화학습(RL)은 정답만 맞히는 모델이 아니라 “풀이 과정이 논리적으로 타당한지”까지 고려하도록 설계하는 학습 방식이라고 합니다. 단순히 정답 여부로 평가받는 것이…
[arXiv 2025] AV-Master: Dual-Path Comprehensive Perception Makes Better Audio-Visual Question Answering
안녕하세요. 오늘의 X-Review는 Audio Visual Question Answering 방법론 논문입니다. 25년 10월 아카이브에 공개되었으며, 현재 실험중인 상황에서 최근 제안된 AVQA 방법론들을 읽는 중인데 정리 목적으로 글을…
What are World Models..?
안녕하세요, 이번주는 World Model에 관한 제 나름의 정리글을 작성하려고 합니다. 최근 world model이 급부상 하면서 다양한 연구에 활용되는 경향을 확인할 수 있었는데요, 제가 관심을 가지는…
[ICCV2025] Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities
Intro 최근 Vision-and-Language Navigation (VLN) 분야는 괄목할 만한 성장을 이루었지만, 여전히 시뮬레이션 모델과 실제 로봇 배포 환경 사이에는 큰 격차가 존재합니다. 기존 연구들은 로봇의 움직임과…
[CVPR 2024] Koala: Key frame-conditioned long video-LLM
안녕하세요 이번에 소개할 논문은 Long Video QA 문제를 다루는 video LLM 연구입니다. 이 방법론은 이미 학습된 video LLM이 더 긴 비디오 길이에도 잘 동작하도록 adaptation…
[IROS 2025] VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model
안녕하세요. 이번 리뷰는 Long-horizon human demo video를 인풋으로 받아, VLM 기반으로 sub-task decomposition을 수행하고, 이를 LMP(Language Model Program) code generation 방식과 연결지어 low-level primitive action까지…
[AAAI 2025] V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning
안녕하세요 황찬미입니다!오늘도 비디오 요약 관련 최신 논문을 살펴보려고 합니다!! 그럼 바로 리뷰 시작하겠습니다 [Intro] 비디오 요약 연구는 오래됐지만 두가지의 큰 장애물이 있습니다. 먼저 데이터가 너무…
안녕하세요 예은님 댓글 감사합니다. 일단 ViNG이 classification을 채택한 이유는 거리의 불확실성과 이동 가능성의 확률적 특성을 반영하기 위해서라고 보시면 정확합니다. 여기서…