Author: 김 영규
GR00T : An Open Foundation Model for Generalist Humanoid Robots
안녕하세요, 이번주 X-review는 NVIDIA의 가장 간판 프로젝트 중 하나인 GR00T에 대해 작성하려고 합니다. 기존 로봇 파운데이션 모델들이 주로 단일 팔, 병렬 그리퍼, tabletop manipulation 중심으로…
[arXiv 2026] PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance
안녕하세요, 이번주는 작은 모델임에도 불구하고 대용량 학습 데이터로 학습한 큰 모델 대비 강인하고 성능 좋은 모델을 다룬 연구에 대해서 리뷰해보려고 합니다. 얼마 전 VLA-Adapter라는 연구도…
[arXiv 2026] Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models
안녕하세요, 이번주는 RSS 2026에 submit된 Co-training 연구를 리뷰해보려고 합니다. 시뮬레이션 데이터는 현실 데이터와 함께 co-training되면서 low-cost로 VLA training을 풍부하게 해주는데, 대부분의 co-training 연구들은 SFT 방식으로…
[ICLR 2026] Emergent Dexterity via Diverse Resets and Large-Scale Reinforcement Learning
안녕하세요, 이번주는 Large-Scale RL에 대해 다루어보려고 합니다. RL을 통해 policy를 학습하게되면 너무 optimal한 행동에 fitting되고 여러 상황에 대응하기는 좀 힘들 뿐 만 아니라 reward shaping이…
[ICLR 2026] Self-Improving Vision-Language-Action Models with Data Generation via Residual RL
안녕하세요, 이번주 X-review는 data generator로써 RL을 활용하며 VLA에 대한 SFT를 진행하며, 제목처럼 self improving 하는 policy 학습법을 다룬 연구입니다. Recovery behavior를 위한 generalist 데이터셋 구성에…
[arXiv 2026] Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning
안녕하세요 이번 x-review는 VLA에서 continual learning을 다룬 논문을 리뷰해보려고 합니다. 제목에서 알 수 있듯 사전학습된 VLA는 생각보다 forgetting에 강하고, 조금의 replay 만으로도 forgetting이 없어지거나 오히려…
[arXiv 2026] How to Peel with a Knife : Aligning Fine-Grained Manipulation with Human Preference
안녕하세요, 이번주 X-review는 fine-grained manipulation에 관련한 내용으로 작성해보려고 합니다. 최근 robot learning 패러다임에는 기존의 로봇데이터로만 학습하는것에 그치지 않고 human video와 같은 다른 소스를 통한 학습이나…
[arXiv 2026] Observing and Controlling Features in Vision-Language-Action Models
안녕하세요, 이번주는 VLA의 action steering이 되는가?에 대한 분석을 담은 연구를 리뷰해보려고 합니다. LLM 쪽에선 action steering이 활발하지만, VLA 쪽에서는 멀티모달 입력이나 closed-loop로 실제 로봇이 상호작용…
[arXiv 2026] Rethinking the Practicality of Vision-language-action Model: A Comprehensive Benchmark and An Improved Baseline
안녕하세요, 이번 주 x-review는 Open-Helix 팀에서 VLA 모델을 ‘성능이 어떠냐’ 보다 ‘현실에 올릴 수 있는가’의 관점에서 다룬 논문을 소개하려고 합니다. 저자들은 로봇을 현실에 배치하려면 general한…
[arXiv 2026] EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data
안녕하세요, 이번주는 NVIDIA에서 최근에 발표한 연구에 대해 리뷰해보려고 합니다. 최근 로봇 데이터가 아닌 다른 도메인의 데이터가 어떻게 학습에 사용될까?에 대한 궁금증이 늘 있는데, 해당 연구에서…
안녕하세요 우진님, 좋은 질문 감사합니다. 이쪽 분야를 접한 이유는 저희 팀 기업 과제가 task가 SAR object detection이고, 과제 팔로우업을 겸해서…