Category: Conference

Conference Reivew

Posted in Conference X-Review

[CVPR 2025]Compositional Caching for Training-free Open-vocabulary Attribute Detection

제가 이번에 리뷰할 논문은 속성을 활용하여 물체를 인지하는 Attribute detection이라는 연구입니다. 제가 담당하고 있는 파지 과제에서 속성정보를 활용하여 유의미한 물체를 인식하는 연구를 진행하고있는데, 서베이를 하다…

Continue Reading
Posted in Conference X-Review

[NeurIPS2025] MoGe-2: Accurate Monocular Geometry with Metric Scale and Sharp Details

Intro 본 논문의 task는 단안 영상을 입력으로 받아 깊이를 추정하는 task로 DepthAnything 시리즈나 marigold와 같은 foundation model에 관한 논문입니다. 저자들은 이상적인 Depth foundation 모델이 갖춰야…

Continue Reading
Posted in Conference X-Review

[EMNLP 2025] X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning

해당 논문은 텍스트-비디오 검색 연구에서도 LLM 및 CoT가 도입된 것 같아 읽어보게되었습니다. 1. Introduction 이 논문은 기존 텍스트-비디오 검색 시스템이 “왜 이 비디오가 검색되었는지” 를…

Continue Reading
Posted in Conference Paper X-Review

[ICCV 2025] Toward Better Out-painting: Improving the Image Composition with Initialization Policy Model

이번 리뷰 논문은 Foreground Conditioned Out-painting (FCO)라는 기법에 대한 논문 입니다. FCO는 fig 3과 같이 전경 (fig 3 – Cond.Image)과 text prompt가 주어졌을 때, 전경은…

Continue Reading
Posted in Conference X-Review

[ICCV2025] SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts

Intro 최근 비전-언어 네비게이션(Vision-and-Language Navigation) 분야는 다양한 태스크로 분화되었습니다. 저자들은 이를 언어 지시어의 세밀함(Granularity)에 따라 크게 두 가지로 분류합니다. 이들은 겉보기에 다른 목표를 가진 것처럼…

Continue Reading
Posted in Conference X-Review

[ICCV2025] Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities

Intro 최근 Vision-and-Language Navigation (VLN) 분야는 괄목할 만한 성장을 이루었지만, 여전히 시뮬레이션 모델과 실제 로봇 배포 환경 사이에는 큰 격차가 존재합니다. 기존 연구들은 로봇의 움직임과…

Continue Reading
Posted in Conference X-Review

[CVPR 2022] Vision Transformer with Deformable Attention

오늘은 Deformable Attention Transformer 를 주제로 리뷰를 작성하고자 합니다. 현재 진행중인 실험에서 deformable attention 컨셉을 사용중이기에, 해당 논문을 읽어보게 되었습니다.바로 리뷰 시작하겠습니다. 1. Introduction 널리…

Continue Reading
Posted in Conference X-Review

[CoRL 2025(Oral)] SAVOR: Skill Affordance Learning from Visuo-Haptic Perception for Robot-Assisted Bite Acquisition

제가 이번에 리뷰할 논문은, affordance에 대하여 “How” 관점에 조금 더 집중한 연구입니다. CoRL 2025의 oral 논문으로, 음식을 먹여주는 보조-로봇 문제로 한정되어있으나 다른 작업으로 충분히 확장이…

Continue Reading
Posted in Conference Paper X-Review

[CoRL 2025] Learning from 10 Demos: Generalisable and Sample-Efficient Policy Learning with Oriented Affordance Frames

이번 리뷰 논문은 IL이 가진 문제점, 장기적인 작업에 따른 일반화와 강건함을 가지기 위해서는 대량의 시연 데이터가 필요하다는 단점을 극복하기 위한 방법을 제시합니다. 적은 시연 데이터…

Continue Reading
Posted in Conference X-Review

[ICRA 2025] RT-Affordance: Affordances are Versatile Intermediate Representations for Robot Manipulation

구글 딥마인드에서 ICRA 2025에 게재한 방법론으로 affordance가 실제 로봇 작업에서 어떻게 활용 가능할 지 연구한 논문입니다. Abstract 해당 연구는 로봇 조작의 일반화를 위한 intermediate policy…

Continue Reading