Paper – Page 6 – Robotics and Computer Vision Lab

[CVPR 2022] High-Resolution Image Synthesis with Latent Diffusion Models

안녕하세요! 이번에 리뷰할 논문은 Stable Diffusion의 근간이 되는 Latent Diffusion Model(LDM)논문입니다! 최근에 디퓨전 모델을 서베이 하면서 거슬러 거슬러 올라가 stable diffusion의 토대인 모델을 읽어보게 되었는데요….

Paper X-Review

[arXiv2023]VideoChat🦜: Chat-Centric Video Understanding

무언가를 이해한다는것은 어떻게 정의할 수 있을까요? 저는 특정 콘텐츠에 대한 이해는 이해 주체의 관점에 따른다고 생각해왔습니다. 이러한 제 관점에 알맞은 논문을 발견하게 되어 리뷰를 하게…

Paper X-Review

[ECCV 2024] ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling

안녕하세요. 이번에 리뷰할 논문은 Google Research에서 ECCV 2024에 발표한 논문으로, VLM의 문장 생성 능력을 활용해 attribute recognition을 해결하고자 한 논문입니다. 속성과 같이 객체의 fine-grained한 특성을…

Paper X-Review

[SOSP 2023] Efficient Memory Management for Large Language Model Serving with PagedAttention

안녕하세요. 이번에 들고온 논문은 LLM 을 서빙할때 KV cache 메모리 관리의 비효율을 어떻게 해결할 것인지를 다룬 논문입니다. 저희 연구실 사람들이 이런 메모리 관리 측면의 OS…

Paper X-Review

[arxiv 2026]Less Is More : Scalable Visual Navigation from Limited Data

안녕하세요. 이번에 들고온 논문은 한달전에 아카이브에 올라온 Less Is More: Scalable Visual Navigation from Limited Data라는 논문입니다. 간단하게 컨셉만 말씀드리고 넘어가면 무작정 많은 cross-embodiment 데이터를…

Paper X-Review

[WACV 2026] ReFineVQA: Iterative Refinement of Video Description via Feedback Generation for Video Question Answering

안녕하세요 오늘은 RefineVQA논문을 리뷰하겠습니다.이 논문은 VideoQA에서 질문에 맞는 비디오 설명을 반복적으로 보완해 더 정확한 답을 생성하도록 하는 방법을 제안한 연구입니다! 리뷰 시작하겠습니다. Intro 이 논문은…

Paper X-Review

[ICCV 2025]Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs

Video Large Language Models(Video-LMMs)는 시공간 토큰(spatiotemporal tokens)을 활용해서 강력한 비디오 이해 능력을 가지게 되었지만 토큰 개수가 많아질수록 연산량이 2차적으로 증가한다는 문제점을 가지고 있었습니다. 이에 저자들은…

Paper X-Review

[AAAI 2024] SA2VP: Spatially Aligned-and-Adapted Visual Prompt

안녕하세요 4번째 X-review입니다. 이번에는 새로운 결의 논문을 가져왔는데요. Visual Prompt Tuning입니다. Visual Prompt Tuning(이하 VPT)에 대해 조금 더 자세히 설명을 해보자면 LLM에서 prompt를 이용해 전체적인…

Paper X-Review

[WACV 2023] MixVPR: Feature Mixing for Visual Place Recognition

안녕하세요 3번째 X-review네요. 아마 당분간은 쭉 VPR(visual place recognition)쪽 논문 리뷰를 들고오지 않을까 싶습니다. 오늘 소개드릴 논문은 MixVPR입니다. 간략하게 소개를 드리자면 무거운 transformer 연산 없이도,…

Paper X-Review

[arXiv 2025] WorldVLA: Towards Autoregressive Action WorldModel

안녕하세요 오늘은 WorldVLA에 대해서 설명드리도록 하겠습니다. 최근 들어서 계속 VLA 관련 논문들을 읽고 있는데 세계에 대한 일반화? 능력에 대한 부분이 상당히 필요한 것 같다고 느꼈습니다….

Category: Paper

[CVPR 2022] High-Resolution Image Synthesis with Latent Diffusion Models

[arXiv2023]VideoChat🦜: Chat-Centric Video Understanding

[ECCV 2024] ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling

[SOSP 2023] Efficient Memory Management for Large Language Model Serving with PagedAttention

[arxiv 2026]Less Is More : Scalable Visual Navigation from Limited Data

[WACV 2026] ReFineVQA: Iterative Refinement of Video Description via Feedback Generation for Video Question Answering

[ICCV 2025]Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs

[AAAI 2024] SA2VP: Spatially Aligned-and-Adapted Visual Prompt

[WACV 2023] MixVPR: Feature Mixing for Visual Place Recognition

[arXiv 2025] WorldVLA: Towards Autoregressive Action WorldModel

Conference Deadline

NEW POST

New Comment