Posted in Paper X-Review

[arXiv 2026]Bridging the Indoor-Outdoor Gap Vision-Centric Instruction-Guided Embodied Navigation

안녕하세요. 이번에 리뷰할 논문은 중국의 알리바바 그룹 AMAP랩에서 작성한 Bridging the Indoor-Outdoor Gap: Vision-Centric Instruction-Guided Embodied Navigation이라는 논문 입니다. 실제 로봇 배달이나 라스트마일 시나리오를 생각해보면…

Continue Reading
Posted in Paper X-Review

[RSS 2024] MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting

こんにちは! 오늘은 기존의 VLA랑은 좀 다른 VLA 분야를 가져와봤습니다. 제가 평소에 보던 VLA는 action head 가 붙어있는 VLA였는데, 제가 우편물 잡기 Task를 수행하면서 보니 로봇…

Continue Reading
Posted in X-Review

[ICLR 2026] Self-Improving Vision-Language-Action Models with Data Generation via Residual RL

안녕하세요, 이번주 X-review는 data generator로써 RL을 활용하며 VLA에 대한 SFT를 진행하며, 제목처럼 self improving 하는 policy 학습법을 다룬 연구입니다. Recovery behavior를 위한 generalist 데이터셋 구성에…

Continue Reading
Posted in X-Review

[CVPR 2024] MAFA: Managing False Negatives for Vision-Language Pre-training

1. Introduction Vision-Language Pre-training(VLP)은 대규모 웹 크롤링 이미지-텍스트 데이터셋을 바탕으로 학습되는 대표적인 멀티모달 사전학습 방식입니다. 보통은 self-supervised learning 형태로 학습되며, masked language modeling(MLM), image-text contrastive(ITC),…

Continue Reading
Posted in X-Review

[CVPR 2026] EgoXtreme: A Dataset for Robust Object Pose Estimation in Egocentric Views under Extreme Conditions

안녕하세요 손우진입니다. 오늘 리뷰할 논문은 따끈따끈한 2026 CVPR ACCEPT된 6D 데이터셋 논문입니다. 극한환경(저조도, 연무환경, 극한의 동적)에서의 데이터셋이고 이를 6D 평가 함으로써 현재 6D 데이터셋의 한계와…

Continue Reading
Posted in Paper X-Review

[ICCV 2023] Adding Conditional Control to Text-to-Image Diffusion Models

안녕하세요!오늘은 지난주에 이어 stable diffusion 기반 이미지 생성에서 구조적인 조건을 효과적으로 반영할 수 있게 해주는 대표적인 네트워크인 ControlNet에 대해 리뷰해보겠습니다! 그럼 리뷰 바로 시작하겠습니다! Intro…

Continue Reading
Posted in X-Review

[ICRA 2026] Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning

안녕하세요 최인하입니다. 이번주 리뷰도 저번주와 비슷하게 Robot learning에 사용되는 Demonstration Data의 Quality에 관련된 논문을 가져왔습니다. Behavior Cloning 방식의 등장으로 robot learning 방식에서도 Data driven 방식이…

Continue Reading
Posted in X-Review

[CVPR 2026]Affostruction: 3D Affordance Grounding with Generative Reconstruction

제가 이번에 리뷰할 논문은 CVPR 2026에 accpet된 것으로 보이는 논문입니다. 이미지나 텍스트 프롬프트가 입력되었을 때, 3D asset을 생성하는 TRELLIS(CVPR 2026 Spotlight)연구를 기반으로 하고있으며, 해당 논문은…

Continue Reading
Posted in X-Review

[Arxiv 2026] RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval

최근 TVR 페이퍼 모두 MLLM을 쓰는 추세인가 봅니다. 오늘은 2월에 올라온 Arxiv 페이퍼로, reranker를 개선시킨 Text-Video Retrieval 페이퍼를 리뷰해보겠습니다 Venue: arxiv 2026 Authors: Tyler Skow, Alexander…

Continue Reading
Posted in X-Review

[CoRL 2025] Steering Your Diffusion Policy with Latent Space Reinforcement Learning

논문 정보 저자: Andrew Wagenmaker1, Mitsuhiko Nakamoto1, Yunchu Zhang2, Seohong Park1, Waleed Yagoub2, Anusha Nagabandi3, Abhishek Gupta2, Sergey Levine1* 1: UC Berkeley, 2: University of Washington, 3: Amazon 링크: https://arxiv.org/abs/2506.15799 프로젝트페이지: https://diffusion-steering.github.io/ 안녕하세요. 이번 논문…

Continue Reading