[RSS 2026] Mimic Intent, Not Just Trajectories
안녕하세요. 이번 논문 리뷰는 RSS 2026′ MINT (Mimic Intent, Not Just Trajectories) 인데요, action chunk를 주파수 도메인에서 분해해서 intent(전역적인 행동 의도)와 execution(세부 실행 디테일)을 명시적으로…
[CVPR 2026]AffordGen: Generating Diverse Demonstrations for Generalizable Object Manipulation with Affordance Correspondence
Abstract 최근 로봇 조작에서 imitation learning을 활용한 연구들이 성공을 이루고 있으나, 제한적인 데이터 다양성으로 인해 기하학적 변형에는 제약이 있습니다. 해당 논문은 3D 생성 모델과 VFMs를…
[CVPR 2026] STRNet: Visual Navigation with Spatio-Temporal Representation through Dynamic Graph Aggregation
안녕하세요. 이번에 리뷰로 가져온 논문은 CVPR 2026 Highlight로 선정된 STRNet: Visual Navigation with Spatio-Temporal Representation through Dynamic Graph Aggregation라는 논문입니다. NoMaD, ViNT, NaviBridger 같은 기존…
GR00T : An Open Foundation Model for Generalist Humanoid Robots
안녕하세요, 이번주 X-review는 NVIDIA의 가장 간판 프로젝트 중 하나인 GR00T에 대해 작성하려고 합니다. 기존 로봇 파운데이션 모델들이 주로 단일 팔, 병렬 그리퍼, tabletop manipulation 중심으로…
프롬프트 엔지니어링: 추론 기법에서 에이전트 실행과 평가까지
안녕하세요. 프롬프트 엔지니어링:프롬프트에서 컨텍스트, 하네스까지를 통해서 수업의 절반부분을 다뤘는데요. 후반 수업에서는 추론 기법과 에이전트를 실행하고 이를 어떻게 평가하는지에 대한 방법을 배웠습니다. 이번주를 기점으로 수업이 마무리되어서…
[Arxiv 2024] Pooling And Attention: What Are Effective Designs For LLM-Based Embedding Models?
오늘은 생성형 모델인 LLM을 임베딩 모델로 변환하는 것과 관련된 페이퍼를 리뷰해보겠습니다. Venue: Arxiv 2024Authors: Yixuan Tang, Yi YangAffiliation: The Hong Kong University of Science and TechnologyTitle: Pooling…
[CVPR 2024] CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition
안녕하세요. 이번 리뷰는 CricaVPR(CRoss Image Correlation-Aware)입니다. 저자는 현재 VPR에서 혼자 SOTA를 찍고 부수고를 스스로 반복하는 Lu Feug입니다. CricaVPR은 그 중에서도 가장 많은 인용수를 달성한 논문입니다….
[CoRL 2025] DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation
안녕하세요 이번에 리뷰할 논문은 CoRL 2025 oral paper인 DexUMI입니다. DexUMI는 로봇 없이 로봇 데이터를 취득한다는 UMI(Universal Manipulation Interface)의 철학을 Dexterous Hand에 적용시킨 논문이라고 생각합니다. 하지만…
[CoRL 2022] Inner Monologue: Embodied Reasoning through Planning with Language Models
안녕하세요. SayCan에 이어서 또 다른 유명한 LLM을 이용한 논문인 Inner Monologue 입니다. 사람이 독백을 하면서 생각을 정리하는 것처럼 LLM도 이를 이용해 action 성능을 향상시켜보겠다는 논문으로…
[arXiv 2026]Selective Perception for Robot:Task-Aware Attention in Multimodal VLA
안녕하세요 손우진입니다. 이번에 제가 리뷰할 논문은 로봇 관련 논문입니다. 매번 6D pose나 pose refinement와 같은 물체 perception 관련해서 리뷰를 많이 했는데요, 시대가 시대인 만큼 로봇을…
댓글 감사합니다. 영규님 저 또한 그렇게 생각이듭니다. 하지만 학습때는 열화상이미지를 노이즈로 변환해서 학습하게 되고 dual classifier-free guidance 학습방식으로 통해서 정확하게…