Paper – Robotics and Computer Vision Lab

[AAAI 2026] SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection

안녕하세요, 오늘 리뷰할 논문은 AAAI 2026 Oral 논문인 SM3Det 입니다. LVU 논문 작업 이후 다시 저희 팀 기업 과제 팔로우업과 창의학기제를 겸해서 SAR Object Detection…

[ICRL 2026] HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model

안녕하세요. 오늘은 HybridVLA에 대해서 소개드리겠습니다. VLA를 많이 알아보고 있는 편임에도 불구하고 계속 새로운 모델이 나오고 있는데, 검색을 하면서 발견하여서 어떤 부분이 다를까? diffusion과 autoregressive? 내용에…

Paper X-Review

[ICCV 2025] Is CLIP ideal? No. Can we fix it? Yes!

안녕하세요 이번에 가져온 논문은 다들 알고는 있는 CLIP 의 잠재 공간이 복잡한 시각-텍스트 상호작용을 못한다는 것을 밝히고 해결까지한 논문입니다. 처음 읽게된 이유는 흥미로운 제목과 요즘…

Paper X-Review

[AAAI 2026]UrbanNav: Learning Language-Guided Urban Navigation from Web-Scale Human Trajectories

안녕하세요 제가 이번에 리뷰할 논문은 UrbanNAV라는 논문입니다. 저번에 CityWalker라는 논문을 리뷰하고 세미나를 했던 적이 있는데 UrbanNav 저자들은 이 Citywalker 논문을 베이스로 잡아서 기존 Citywalker에서 저자들이…

Paper X-Review

[CVPR 2022] High-Resolution Image Synthesis with Latent Diffusion Models

안녕하세요! 이번에 리뷰할 논문은 Stable Diffusion의 근간이 되는 Latent Diffusion Model(LDM)논문입니다! 최근에 디퓨전 모델을 서베이 하면서 거슬러 거슬러 올라가 stable diffusion의 토대인 모델을 읽어보게 되었는데요….

Paper X-Review

[arXiv2023]VideoChat🦜: Chat-Centric Video Understanding

무언가를 이해한다는것은 어떻게 정의할 수 있을까요? 저는 특정 콘텐츠에 대한 이해는 이해 주체의 관점에 따른다고 생각해왔습니다. 이러한 제 관점에 알맞은 논문을 발견하게 되어 리뷰를 하게…

Paper X-Review

[ECCV 2024] ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling

안녕하세요. 이번에 리뷰할 논문은 Google Research에서 ECCV 2024에 발표한 논문으로, VLM의 문장 생성 능력을 활용해 attribute recognition을 해결하고자 한 논문입니다. 속성과 같이 객체의 fine-grained한 특성을…

Paper X-Review

[SOSP 2023] Efficient Memory Management for Large Language Model Serving with PagedAttention

안녕하세요. 이번에 들고온 논문은 LLM 을 서빙할때 KV cache 메모리 관리의 비효율을 어떻게 해결할 것인지를 다룬 논문입니다. 저희 연구실 사람들이 이런 메모리 관리 측면의 OS…

Paper X-Review

[arxiv 2026]Less Is More : Scalable Visual Navigation from Limited Data

안녕하세요. 이번에 들고온 논문은 한달전에 아카이브에 올라온 Less Is More: Scalable Visual Navigation from Limited Data라는 논문입니다. 간단하게 컨셉만 말씀드리고 넘어가면 무작정 많은 cross-embodiment 데이터를…

Paper X-Review

[WACV 2026] ReFineVQA: Iterative Refinement of Video Description via Feedback Generation for Video Question Answering

안녕하세요 오늘은 RefineVQA논문을 리뷰하겠습니다.이 논문은 VideoQA에서 질문에 맞는 비디오 설명을 반복적으로 보완해 더 정확한 답을 생성하도록 하는 방법을 제안한 연구입니다! 리뷰 시작하겠습니다. Intro 이 논문은…

Category: Paper

[AAAI 2026] SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection

[ICRL 2026] HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model

[ICCV 2025] Is CLIP ideal? No. Can we fix it? Yes!

[AAAI 2026]UrbanNav: Learning Language-Guided Urban Navigation from Web-Scale Human Trajectories

[CVPR 2022] High-Resolution Image Synthesis with Latent Diffusion Models

[arXiv2023]VideoChat🦜: Chat-Centric Video Understanding

[ECCV 2024] ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling

[SOSP 2023] Efficient Memory Management for Large Language Model Serving with PagedAttention

[arxiv 2026]Less Is More : Scalable Visual Navigation from Limited Data

[WACV 2026] ReFineVQA: Iterative Refinement of Video Description via Feedback Generation for Video Question Answering

Conference Deadline

NEW POST

New Comment