Recent Posts

Posted in Paper X-Review

[CVPR 2025] Video Summarization with Large Language Models

안녕하세요 LLM을 사용하여 비디오 요약을 해결한 논문을 살펴보려고 합니다!리뷰 시작하겠습니다. <Intro> 기존 기술은 visual features(시각적 단서)와 temporal dynamics(시간적 특징)에 의존하는데 이 비전 정보 중심의 방법들은…

Continue Reading
Posted in Conference Paper X-Review

[ICCV 2025] Toward Better Out-painting: Improving the Image Composition with Initialization Policy Model

이번 리뷰 논문은 Foreground Conditioned Out-painting (FCO)라는 기법에 대한 논문 입니다. FCO는 fig 3과 같이 전경 (fig 3 – Cond.Image)과 text prompt가 주어졌을 때, 전경은…

Continue Reading
Posted in X-Review

[ICCV 2025] How Can Objects Help Video-Language Understanding?

안녕하세요. 이번에 소개할 논문은 명시적 객체 표현이 Video-Language Understanding에서 실제로 도움이 되는지, 그리고 도움이 된다면 어떤 방식으로 통합하는 것이 가장 효율적인지를 다루는 연구입니다. 즉, 모델이…

Continue Reading
Posted in Conference X-Review

[ICCV2025] SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts

Intro 최근 비전-언어 네비게이션(Vision-and-Language Navigation) 분야는 다양한 태스크로 분화되었습니다. 저자들은 이를 언어 지시어의 세밀함(Granularity)에 따라 크게 두 가지로 분류합니다. 이들은 겉보기에 다른 목표를 가진 것처럼…

Continue Reading
Posted in X-Review

[NeurIPS2025]AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding

짧은 논문 소개 본 연구는 MLLM(Multimodal Large Language Model)을 활용하여 긴 영상에 대한 질의응답 테스크 정확도를 개선하는 RAG 프레임워크를 제시한 것입니다. 연구에서는 기존 RAG 연구가…

Continue Reading
Posted in X-Review

[CVPR 2025 Oral] Temporally Consistent Object-Centric Learning by Contrasting Slots

안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 CVPR 2025에서 Oral presentation으로 선정됐던 논문으로, video data를 활용한 self-supervised object centric learning 기법을 다룹니다. 제 개인 연구에서 어떻게 하면…

Continue Reading
Posted in X-Review

[NeurIPS 2025] Video-R1: Reinforcing Video Reasoning in MLLMs

0. Background (RL & GRPO) 언어모델에서의 강화학습(RL)은 정답만 맞히는 모델이 아니라 “풀이 과정이 논리적으로 타당한지”까지 고려하도록 설계하는 학습 방식이라고 합니다. 단순히 정답 여부로 평가받는 것이…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] AV-Master: Dual-Path Comprehensive Perception Makes Better Audio-Visual Question Answering

안녕하세요. 오늘의 X-Review는 Audio Visual Question Answering 방법론 논문입니다. 25년 10월 아카이브에 공개되었으며, 현재 실험중인 상황에서 최근 제안된 AVQA 방법론들을 읽는 중인데 정리 목적으로 글을…

Continue Reading
Posted in X-Review

What are World Models..?

안녕하세요, 이번주는 World Model에 관한 제 나름의 정리글을 작성하려고 합니다. 최근 world model이 급부상 하면서 다양한 연구에 활용되는 경향을 확인할 수 있었는데요, 제가 관심을 가지는…

Continue Reading
Posted in Conference X-Review

[ICCV2025] Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities

Intro 최근 Vision-and-Language Navigation (VLN) 분야는 괄목할 만한 성장을 이루었지만, 여전히 시뮬레이션 모델과 실제 로봇 배포 환경 사이에는 큰 격차가 존재합니다. 기존 연구들은 로봇의 움직임과…

Continue Reading