X-Review – Page 5 – Robotics and Computer Vision Lab

[CVPR 2026] WeDetect: Fast Open-Vocabulary Object Detection as Retrieval

안녕하세요. 오늘 소개할 논문은 중국의 대표 메신저 기업 WeChat에서 CVPR 2026에 개제한 논문으로, OVOD를 vision-language의 fusion 없이 단순한 retrieval 문제로 재정의한 논문입니다. 1. Introduction 컴퓨터…

X-Review

[CVPR 2026] Back to Basics: Let Denoising Generative Models Denoise

안녕하세요. 이번 x-review는 최근 이미지 생성 분야에서 큰 주목을 받고 있는 논문인 “Back to Basics: Let Denoising Generative Models Denoise”입니다. MIT의 Tianhong Li와 Kaiming He가…

X-Review

[ICLR 2026] REI-BENCH: Can Embodied Agents Understand Vague Human Instructions in Task Planning?

안녕하세요. 이번에는 REI-BENCH: Can Embodied Agents Understand Vague Human Instructions in Task Planning?이라는 논문을 읽어보게 되었습니다. 쉽게 말하면, 로봇이 사람이 애매하게 말한 지시를 얼마나 잘…

X-Review

[ ICLR 2024 ] ANTGPT: CAN LARGE LANGUAGE MODELS HELP LONG-TERM ACTION ANTICIPATION FROM VIDEOS?

안녕하세요. 오늘 리뷰할 논문은 ICLR 2024에 발표된 AntGPT입니다. AntGPT는 영상을 입력 받아 영상 이후에 나올 사람의 행동을 예측하는 long-term action anticipation(이하 LTA) 문제에 대규모 언어…

Paper X-Review

[CVPR 2026]SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation

안녕하세요. 이번에 리뷰로 가져온 논문은 CVPR 2026에 올라온 SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation라는 논문이고 oral 페이퍼입니다. 이 논문은 제목 그대로 socially-aware…

X-Review

[ICCV 2025] Principles of Visual Tokens for Efficient Video Understanding

안녕하세요. 이번에 소개할 논문은 Video Understanding에서의 token pruning을 다룬 논문입니다. 이 논문은 video token의 성질을 분석해, 모든 token이 같은 가치를 가지는 것이 아니라 소수의 핵심…

X-Review

[arXiv 2026] ActiveMimic: Egocentric Video Pretraining with Active Perception

안녕하세요, 이번주 리뷰는 egocentric video pretraining에 대한 연구입니다. 최근 egocentric human video의 pretraining을 다루는 연구들이 늘어나고, 대부분 cam의 움직임을 노이즈로 다루는데, 오히려 해당 부분을 살리는…

X-Review

[CVPR 2025] FineLIP: Extending CLIP’s Reach via Fine-Grained Alignment with Longer Text Inputs

Abstract CLIP이 다양한 분야에서 성공적으로 적용이 되고있으나, 기존의 CLIP은 77 token이라는 한정된 숫자의 text를 처리할 수 있으며, 디테일한 시각·언어 정보를 파악하는 데는 어려움이 있다고 알려져있습니다….

X-Review

[Arxiv 2026] Revisiting Compositionality in Dual-Encoder Vision-Language Models: The Role of Inference

지난주에 리뷰한 [ICLR 2026] CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally 와 비슷한 계열의 의문을 제기한 페이퍼를 한번 리뷰해보겠습니다 Venue: Arxiv 2026 Authors:…

X-Review

[CVPR 2026] PoseGAM: Robust Unseen Object Pose Estimation via Geometry-AwareMulti-View Reasoning

안녕하세요 손우진입니다. 이번에 리뷰할 논문은 6D pose estimation 입니다. 그동안 thermal이나 VLA, 멀티센서 쪽을 주로 봤는데, 오랜만에 unseen object pose estimation 논문을 가져와봤습니다. 제목은 PoseGAM:…

Category: X-Review

[CVPR 2026] WeDetect: Fast Open-Vocabulary Object Detection as Retrieval

[CVPR 2026] Back to Basics: Let Denoising Generative Models Denoise

[ICLR 2026] REI-BENCH: Can Embodied Agents Understand Vague Human Instructions in Task Planning?

[ ICLR 2024 ] ANTGPT: CAN LARGE LANGUAGE MODELS HELP LONG-TERM ACTION ANTICIPATION FROM VIDEOS?

[CVPR 2026]SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation

[ICCV 2025] Principles of Visual Tokens for Efficient Video Understanding

[arXiv 2026] ActiveMimic: Egocentric Video Pretraining with Active Perception

[CVPR 2025] FineLIP: Extending CLIP’s Reach via Fine-Grained Alignment with Longer Text Inputs

[Arxiv 2026] Revisiting Compositionality in Dual-Encoder Vision-Language Models: The Role of Inference

[CVPR 2026] PoseGAM: Robust Unseen Object Pose Estimation via Geometry-AwareMulti-View Reasoning

Conference Deadline

NEW POST

New Comment