[RSS 2025] DEXOP: A Device for Robotic Transfer of Dexterous Human Manipulation
안녕하세요. 이번에 가져온 논문은 저번에 리뷰한 DexUMI와 비슷한 논문인 DEXOP입니다. 이 논문도 로봇 없이 Dexterous mnipulation을 로봇에게 어떻게 학습시킬까? 라는 큰 질문으로 시작된 논문입니다. DexUMI와…
[ICLR 2024] Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition
오늘은 흔히 SelaVPR(Seamless Adaptation)로 불리는 VPR 방법론을 들고 왔습니다. DINOv2를 VPR에 쓰기 시작한 시기에 나와서 효과적으로 Foundation model을 VPR에 활용하는법을 제시한 논문입니다. 저자는 역시 Lu…
[CVPR 2026] Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs
Abstract Vocabulary-free fine-grained image recognition은 사람이 사전에 정의한 라벨 집합이 없어도, 동일한 meta-class 내부에서 시각적으로 유사한 세부 카테고리를 구분하는 것을 목표로 합니다. 기존 연구들은 사전에…
[ICLR 2023] Mastering Diverse Domains through World Models
안녕하세요. 오랜만에 World Model로 다시 돌아왔습니다. 이전에 Dreamder V1을 리뷰해봤는데요. Dreamder V3의 경우, 그 구조를 유지하면서도 굉장히 다양한 도메인에서 높은 성능을 유지하였습니다. 그럼 시작해보겠습니다. <Introduction>…
[TPAMI 2023] GCNet: Graph Completion Network for Incomplete Multimodal Learning in Conversation
안녕하세요. 최근 MER2026 Challenge의 Track 1, MER-Cross: Interlocutor Emotion을 살펴보다가 흥미로운 문제를 발견했습니다. 기존 multimodal emotion recognition은 보통 영상 속 사람이 “어떤 감정을 표현하고 있는가”를…
[CVPR 2026] SARMAE : Masked Autoencoder for SAR Representation Learning
안녕하세요, 이번에 리뷰할 논문은 SAR 이미지를 위한 자기주도 사전학습법을 제안한 논문입니다. 현재 창의학기제와 기업과제가 모두 SAR Object Detection이기 때문에 논문에서의 인사이트가 도움이 될 만한 부분이…
[IROS 2025]FlowNav: Combining Flow Matching and Depth Priors for Efficient Navigation
안녕하세요 이번에 리뷰로 가져온 논문은 IROS 2024에 올라온 FlowNav: Combining Flow Matching and Depth Priors for Efficient Navigation이라는 논문입니다. 이 논문은 기존 NoMaD처럼 diffusion policy를…
[RSS 2025] V-HOP, Visuo-Haptic 6D Object Pose Tracking
안녕하세요 손우진입니다. 이번에 소개드릴 논문은 6D 정보와 Tactile 센서를 활용하여 물체를 조작하는 논문에 대해서 소개드리려 합니다. 특히 로봇이 물체를 잡고 있는 상황에서 발생하는 가림 문제를…
[Arxiv 2026]PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation
이번 리뷰 논문은 Fei-Fei Li 교수님 연구실에서 나온 논문이며, VoxPoser, ReCap 저자인 Wenlong Huang이 1저자인 페이퍼 입니다. 해당 저자는 이전 논문부터 VA, VLA와는 다른 흐름의…
[arXiv2026] Does Your Reasoning Model Implicitly Know When to Stop Thinking?
thinking은 large reasoning model(LRM)이 답변을 할 때, 추론의 과정을 나열하게 하여 응답의 정확도를 높이는 추론 기법입니다. 그러나 너무 장황하게 늘어놓는다거나 기존의 내용을 반복하는등의 문제가 발생하곤…
댓글 감사합니다. 영규님 저 또한 그렇게 생각이듭니다. 하지만 학습때는 열화상이미지를 노이즈로 변환해서 학습하게 되고 dual classifier-free guidance 학습방식으로 통해서 정확하게…