X-Review – Page 9 – Robotics and Computer Vision Lab

[CVPR 2026 (Highlight)] V^2-SAM: Marrying SAM2 with Multi-Prompt Experts for Cross-View Object Correspondence

Abstract Cross-view object correspondence는 서로 다른 뷰에서 대응되는 물체를 인식하는 연구로, 시점 및 외관 변화가 심하여 단순히 SAM2와 같은 foundation 모델을 적용하는 것으로는 해결이 어렵습니다….

X-Review

[CVPR 2026] TherA : Thermal-Aware Visual-Language Prompting for Controllable RGB-to-Thermal Infrared Translation

안녕하세요 손우진 입니다. 이번에 제가 리뷰할 논문은 RGB 이미지로 부터 열화상을 생성하는 논문입니다. 저는 지금 껏 RGB이미지로 열화상을 만드는건 현실적으로 불가능하다고 생각했습니다. 열화상 이미지는 동일한…

X-Review

[AAAI 2025] Does VLM Classification Benefit from LLM Description Semantics?

1. Introduction CLIP을 비롯한 이후의 다양한 VLM 모델들은 이미지와 텍스트를 공유된 임베딩 공간에 정렬하여 시각 정보와 언어 정보 간의 상관관계를 향상시켜 오고 있습니다. VLM은 이미지를…

Paper X-Review

[ICLR 2026] VisionTrim: Unified Vision Token Compression forTraining-Free MLLM Acceleration

안녕하세요 이번에 들고온 논문도 VLM 에서의 token pruning 논문입니다. 바로 리뷰 시작하겠습니다. Abstract MLLMs 의 token pruning 논문들에서 단골로 등장하는 말인 입력 단에서의 visual token개수가…

X-Review

[RSS 2025] DEXOP: A Device for Robotic Transfer of Dexterous Human Manipulation

안녕하세요. 이번에 가져온 논문은 저번에 리뷰한 DexUMI와 비슷한 논문인 DEXOP입니다. 이 논문도 로봇 없이 Dexterous mnipulation을 로봇에게 어떻게 학습시킬까? 라는 큰 질문으로 시작된 논문입니다. DexUMI와…

X-Review

[ICLR 2024] Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition

오늘은 흔히 SelaVPR(Seamless Adaptation)로 불리는 VPR 방법론을 들고 왔습니다. DINOv2를 VPR에 쓰기 시작한 시기에 나와서 효과적으로 Foundation model을 VPR에 활용하는법을 제시한 논문입니다. 저자는 역시 Lu…

X-Review

[CVPR 2026] Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs

Abstract Vocabulary-free fine-grained image recognition은 사람이 사전에 정의한 라벨 집합이 없어도, 동일한 meta-class 내부에서 시각적으로 유사한 세부 카테고리를 구분하는 것을 목표로 합니다. 기존 연구들은 사전에…

X-Review

[ICLR 2023] Mastering Diverse Domains through World Models

안녕하세요. 오랜만에 World Model로 다시 돌아왔습니다. 이전에 Dreamder V1을 리뷰해봤는데요. Dreamder V3의 경우, 그 구조를 유지하면서도 굉장히 다양한 도메인에서 높은 성능을 유지하였습니다. 그럼 시작해보겠습니다. <Introduction>…

X-Review

[TPAMI 2023] GCNet: Graph Completion Network for Incomplete Multimodal Learning in Conversation

안녕하세요. 최근 MER2026 Challenge의 Track 1, MER-Cross: Interlocutor Emotion을 살펴보다가 흥미로운 문제를 발견했습니다. 기존 multimodal emotion recognition은 보통 영상 속 사람이 “어떤 감정을 표현하고 있는가”를…

Paper X-Review

[CVPR 2026] SARMAE : Masked Autoencoder for SAR Representation Learning

안녕하세요, 이번에 리뷰할 논문은 SAR 이미지를 위한 자기주도 사전학습법을 제안한 논문입니다. 현재 창의학기제와 기업과제가 모두 SAR Object Detection이기 때문에 논문에서의 인사이트가 도움이 될 만한 부분이…

Category: X-Review

[CVPR 2026 (Highlight)] V^2-SAM: Marrying SAM2 with Multi-Prompt Experts for Cross-View Object Correspondence

[CVPR 2026] TherA : Thermal-Aware Visual-Language Prompting for Controllable RGB-to-Thermal Infrared Translation

[AAAI 2025] Does VLM Classification Benefit from LLM Description Semantics?

[ICLR 2026] VisionTrim: Unified Vision Token Compression forTraining-Free MLLM Acceleration

[RSS 2025] DEXOP: A Device for Robotic Transfer of Dexterous Human Manipulation

[ICLR 2024] Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition

[CVPR 2026] Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs

[ICLR 2023] Mastering Diverse Domains through World Models

[TPAMI 2023] GCNet: Graph Completion Network for Incomplete Multimodal Learning in Conversation

[CVPR 2026] SARMAE : Masked Autoencoder for SAR Representation Learning

Conference Deadline

NEW POST

New Comment