What are World Models..?
안녕하세요, 이번주는 World Model에 관한 제 나름의 정리글을 작성하려고 합니다. 최근 world model이 급부상 하면서 다양한 연구에 활용되는 경향을 확인할 수 있었는데요, 제가 관심을 가지는…
[ICCV2025] Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities
Intro 최근 Vision-and-Language Navigation (VLN) 분야는 괄목할 만한 성장을 이루었지만, 여전히 시뮬레이션 모델과 실제 로봇 배포 환경 사이에는 큰 격차가 존재합니다. 기존 연구들은 로봇의 움직임과…
[CVPR 2024] Koala: Key frame-conditioned long video-LLM
안녕하세요 이번에 소개할 논문은 Long Video QA 문제를 다루는 video LLM 연구입니다. 이 방법론은 이미 학습된 video LLM이 더 긴 비디오 길이에도 잘 동작하도록 adaptation…
[IROS 2025] VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model
안녕하세요. 이번 리뷰는 Long-horizon human demo video를 인풋으로 받아, VLM 기반으로 sub-task decomposition을 수행하고, 이를 LMP(Language Model Program) code generation 방식과 연결지어 low-level primitive action까지…
[AAAI 2025] V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning
안녕하세요 황찬미입니다!오늘도 비디오 요약 관련 최신 논문을 살펴보려고 합니다!! 그럼 바로 리뷰 시작하겠습니다 [Intro] 비디오 요약 연구는 오래됐지만 두가지의 큰 장애물이 있습니다. 먼저 데이터가 너무…
[arXiv 2025]Rethinking Intermediate Representation for VLM-based Robot Manipulation
제가 이번에 리뷰할 논문은 11월 24일 공개된 따끈따끈한 논문입니다. 어디에 제출한 지 아직 정보를 확인할 수 없지만, Voxposer, Rekep, OmniManip 등 관심을 가지고 있는 연구들과…
[arXiv 2025] EgoDemoGen: Novel Egocentric Demonstration Generation Enables Viewpoint-Robust Manipulation
안녕하세요, 최근 비디오 생성모델을 통한 로봇 학습 데이터 증강 파이프라인에 관심을 가지고 있는데, Giga AI에서 며칠전 공개된 embodied AI 데이터용 비디오 생성 모델이 발표와 동시에…
[Arxiv 2025] DeepSeek-OCR: Contexts Optical Compression
RAG 과정에서 텍스트와 이미지의 연관성을 어떻게 다루고 있는지 얘기하던 중, 졸업생 이광진 연구원이 DeepSeek-OCR이라는 텍스트를 비전으로 압축(?)한다는 개념을 소개해줘서 DeepSeek-OCR 논문을 읽게 되었습니다 1. Background…
[RSS 2022]ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints
안녕하세요. 이번에 소개드릴 논문도 UC 버클리 Sergey Levine 교수님 연구실에서 2022년에 발표한 ViKiNG: Vision-Based Navigation with Kilometers-Scale Generalization이라는 논문입니다. 어쩌다보니 리뷰를 해당 연구실에서 낸 논문만…
[CVPR 2020] Counterfactual Samples Synthesizing for Robust Visual Question Answering
안녕하세요. 이번 X-Review에선 20년도 CVPR에 게재된 VQA 논문을 소개해드리고자합니다. 나온지 시간이 꽤 된 논문이지만 지금 개인 연구에 적용한 아이디어와 거의 동일하여 리뷰하게 되었습니다. 간단하게는 Visual…
안녕하세요 영규님 좋은글 감사합니다. 전체적으로 배운내용을 정리하면서 작성하신 것 같은데, 제가 모르는 분야지만 어느정도 이해가 되게 잘 정리해 주신 것…