Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[AAAI 2025] Does VLM Classification Benefit from LLM Description Semantics?
1. Introduction CLIP을 비롯한 이후의 다양한 VLM 모델들은 이미지와 텍스트를 공유된 임베딩 공간에 정렬하여 시각 정보와 언어 정보 간의 상관관계를 향상시켜 오고 있습니다. VLM은 이미지를…
[ICLR 2026] VisionTrim: Unified Vision Token Compression forTraining-Free MLLM Acceleration
안녕하세요 이번에 들고온 논문도 VLM 에서의 token pruning 논문입니다. 바로 리뷰 시작하겠습니다. Abstract MLLMs 의 token pruning 논문들에서 단골로 등장하는 말인 입력 단에서의 visual token개수가…
[RSS 2025] DEXOP: A Device for Robotic Transfer of Dexterous Human Manipulation
안녕하세요. 이번에 가져온 논문은 저번에 리뷰한 DexUMI와 비슷한 논문인 DEXOP입니다. 이 논문도 로봇 없이 Dexterous mnipulation을 로봇에게 어떻게 학습시킬까? 라는 큰 질문으로 시작된 논문입니다. DexUMI와…
[ICLR 2024] Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition
오늘은 흔히 SelaVPR(Seamless Adaptation)로 불리는 VPR 방법론을 들고 왔습니다. DINOv2를 VPR에 쓰기 시작한 시기에 나와서 효과적으로 Foundation model을 VPR에 활용하는법을 제시한 논문입니다. 저자는 역시 Lu…
[CVPR 2026] Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs
Abstract Vocabulary-free fine-grained image recognition은 사람이 사전에 정의한 라벨 집합이 없어도, 동일한 meta-class 내부에서 시각적으로 유사한 세부 카테고리를 구분하는 것을 목표로 합니다. 기존 연구들은 사전에…
[ICLR 2023] Mastering Diverse Domains through World Models
안녕하세요. 오랜만에 World Model로 다시 돌아왔습니다. 이전에 Dreamder V1을 리뷰해봤는데요. Dreamder V3의 경우, 그 구조를 유지하면서도 굉장히 다양한 도메인에서 높은 성능을 유지하였습니다. 그럼 시작해보겠습니다. <Introduction>…
[TPAMI 2023] GCNet: Graph Completion Network for Incomplete Multimodal Learning in Conversation
안녕하세요. 최근 MER2026 Challenge의 Track 1, MER-Cross: Interlocutor Emotion을 살펴보다가 흥미로운 문제를 발견했습니다. 기존 multimodal emotion recognition은 보통 영상 속 사람이 “어떤 감정을 표현하고 있는가”를…
[CVPR 2026] SARMAE : Masked Autoencoder for SAR Representation Learning
안녕하세요, 이번에 리뷰할 논문은 SAR 이미지를 위한 자기주도 사전학습법을 제안한 논문입니다. 현재 창의학기제와 기업과제가 모두 SAR Object Detection이기 때문에 논문에서의 인사이트가 도움이 될 만한 부분이…
[IROS 2025]FlowNav: Combining Flow Matching and Depth Priors for Efficient Navigation
안녕하세요 이번에 리뷰로 가져온 논문은 IROS 2024에 올라온 FlowNav: Combining Flow Matching and Depth Priors for Efficient Navigation이라는 논문입니다. 이 논문은 기존 NoMaD처럼 diffusion policy를…
[RSS 2025] V-HOP, Visuo-Haptic 6D Object Pose Tracking
안녕하세요 손우진입니다. 이번에 소개드릴 논문은 6D 정보와 Tactile 센서를 활용하여 물체를 조작하는 논문에 대해서 소개드리려 합니다. 특히 로봇이 물체를 잡고 있는 상황에서 발생하는 가림 문제를…
안녕하세요 우진님, 좋은 질문 감사합니다. 이쪽 분야를 접한 이유는 저희 팀 기업 과제가 task가 SAR object detection이고, 과제 팔로우업을 겸해서…