Category: Paper
Paper Review
[arxiv 2026]Less Is More : Scalable Visual Navigation from Limited Data
안녕하세요. 이번에 들고온 논문은 한달전에 아카이브에 올라온 Less Is More: Scalable Visual Navigation from Limited Data라는 논문입니다. 간단하게 컨셉만 말씀드리고 넘어가면 무작정 많은 cross-embodiment 데이터를…
[WACV 2026] ReFineVQA: Iterative Refinement of Video Description via Feedback Generation for Video Question Answering
안녕하세요 오늘은 RefineVQA논문을 리뷰하겠습니다.이 논문은 VideoQA에서 질문에 맞는 비디오 설명을 반복적으로 보완해 더 정확한 답을 생성하도록 하는 방법을 제안한 연구입니다! 리뷰 시작하겠습니다. Intro 이 논문은…
[ICCV 2025]Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs
Video Large Language Models(Video-LMMs)는 시공간 토큰(spatiotemporal tokens)을 활용해서 강력한 비디오 이해 능력을 가지게 되었지만 토큰 개수가 많아질수록 연산량이 2차적으로 증가한다는 문제점을 가지고 있었습니다. 이에 저자들은…
[AAAI 2024] SA2VP: Spatially Aligned-and-Adapted Visual Prompt
안녕하세요 4번째 X-review입니다. 이번에는 새로운 결의 논문을 가져왔는데요. Visual Prompt Tuning입니다. Visual Prompt Tuning(이하 VPT)에 대해 조금 더 자세히 설명을 해보자면 LLM에서 prompt를 이용해 전체적인…
[WACV 2023] MixVPR: Feature Mixing for Visual Place Recognition
안녕하세요 3번째 X-review네요. 아마 당분간은 쭉 VPR(visual place recognition)쪽 논문 리뷰를 들고오지 않을까 싶습니다. 오늘 소개드릴 논문은 MixVPR입니다. 간략하게 소개를 드리자면 무거운 transformer 연산 없이도,…
[arXiv 2025] WorldVLA: Towards Autoregressive Action WorldModel
안녕하세요 오늘은 WorldVLA에 대해서 설명드리도록 하겠습니다. 최근 들어서 계속 VLA 관련 논문들을 읽고 있는데 세계에 대한 일반화? 능력에 대한 부분이 상당히 필요한 것 같다고 느꼈습니다….
[CVPR 2025]CityWalker Learning Embodied Urban Navigation from Web-Scale Videos
안녕하세요 이번에 리뷰할 논문은 CVPR 2025년에 올라온 CityWalker Learning Embodied Urban Navigation from Web-Scale Videos 라는 논문입니다. 바로 리뷰 시작하도록 하겠습니다. introduction 동적 도시 환경에서의…
[arXiv2026]Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality
오늘 소개드린 논문은 LLM의 evalutation에 대한 분석과 분석 방법을 다룬 논문입니다. 일반적인 벤치마크는 정확도를 기준으로 평가합니다. 하지만 이는 LLM이 실제로 그 정보에 대한 지식이 없는지(empty…
[Arxiv 2026] Agentic Very Long Video Understanding
안녕하세요.이번에 리뷰해볼 논문은 long video understanding에서 1시간 가량의 롱이 아닌 최대 50시간 정도의 베리롱!! VU를 다룬 논문입니다. 그럼 리뷰 시작하겠습니다. Intro 이 논문에서는 “very long…
[EMLLP 2023] Grounding Visual Illusions in Language: Do Vision-Language Models Perceive Illusions Like Humans?
안녕하세요 이번에 들고온 논문은 VLM 들도 사람과 비슷하게 착시를 겪는지? 를 분석한 논문입니다. 그럼 리뷰 시작하겠습니다. Abstract Vision-Language Models 즉 VLMs 들은 인간이 생성한 방대한…
안녕하세요 우진님, 좋은 질문 감사합니다. 이쪽 분야를 접한 이유는 저희 팀 기업 과제가 task가 SAR object detection이고, 과제 팔로우업을 겸해서…