Author: 김 영규

Posted in X-Review

[arXiv 2026] Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning

안녕하세요 이번 x-review는 VLA에서 continual learning을 다룬 논문을 리뷰해보려고 합니다. 제목에서 알 수 있듯 사전학습된 VLA는 생각보다 forgetting에 강하고, 조금의 replay 만으로도 forgetting이 없어지거나 오히려…

Continue Reading
Posted in X-Review

[arXiv 2026] How to Peel with a Knife : Aligning Fine-Grained Manipulation with Human Preference

안녕하세요, 이번주 X-review는 fine-grained manipulation에 관련한 내용으로 작성해보려고 합니다. 최근 robot learning 패러다임에는 기존의 로봇데이터로만 학습하는것에 그치지 않고 human video와 같은 다른 소스를 통한 학습이나…

Continue Reading
Posted in X-Review

[arXiv 2026] Observing and Controlling Features in Vision-Language-Action Models

안녕하세요, 이번주는 VLA의 action steering이 되는가?에 대한 분석을 담은 연구를 리뷰해보려고 합니다. LLM 쪽에선 action steering이 활발하지만, VLA 쪽에서는 멀티모달 입력이나 closed-loop로 실제 로봇이 상호작용…

Continue Reading
Posted in X-Review

[arXiv 2026] Rethinking the Practicality of Vision-language-action Model: A Comprehensive Benchmark and An Improved Baseline

안녕하세요, 이번 주 x-review는 Open-Helix 팀에서 VLA 모델을 ‘성능이 어떠냐’ 보다 ‘현실에 올릴 수 있는가’의 관점에서 다룬 논문을 소개하려고 합니다. 저자들은 로봇을 현실에 배치하려면 general한…

Continue Reading
Posted in X-Review

[arXiv 2026] EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data

안녕하세요, 이번주는 NVIDIA에서 최근에 발표한 연구에 대해 리뷰해보려고 합니다. 최근 로봇 데이터가 아닌 다른 도메인의 데이터가 어떻게 학습에 사용될까?에 대한 궁금증이 늘 있는데, 해당 연구에서…

Continue Reading
Posted in X-Diary

KRoC 2026 참관기

올해 KRoC는 2025년에 비해 프로그램의 양과 밀도 모두 증가한 것을 확인할 수 있었습니다. 작년에는 정말 아무것도 모르고 경험만 하러 갔지만 이번에는 최소한의 의도를 가지고 포스터도…

Continue Reading
Posted in X-Review

[arXiv 2026] Sim-and-Human Co-training for Data-Efficient and Generalizable Robotic Manipulation

안녕하세요, 이번주도 다른 도메인에서 취득한 데이터를 조합하며 효과적으로 visuomotor policy를 학습하는 기법에 대해 리뷰하려고 합니다. 지난 리뷰 연구가 수학적으로 모델링해 loss를 설계하는 방식이었다면, 이번 연구는…

Continue Reading
Posted in X-Review

[NeurIPS 2025] Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training

안녕하세요, 이번주는 sim-and-real co-training에 대한 연구들 리뷰해보려고 합니다. 사실 합성 데이터는 현실에서 얻는 데이터와 visual, sensor, dynamics gap이 존재합니다. 따라서 제아무리 풍부한 합성 데이터로 학습을…

Continue Reading
Posted in X-Review

[arXiv 2026] Sim2real Image Translation Enables Viewpoint Robust Policies from Fixed-Camera Datasets

안녕하세요 이번주 x-review 에서는 VLA가 시점 변화에 강건하지 못한 점을 sim 데이터로 해결하되, 그 사이에서 생기는 sim2real gap을 효과적으로 줄이는 연구에 대한 논문을 리뷰해보려고 합니다….

Continue Reading
Posted in X-Review

[arXiv 2025] IGen: Scalable Data Generation for Robot Learning from Open-World Images

안녕하세요, 이번주는 로봇을 위한 합성데이터 생성 방법론을 제안한 논문을 리뷰해보려고 합니다. 최근의 비디오 생성 모델에 대항해 VFM, VLM 등을 활용해 비디오 생성 모델 만큼 확장성…

Continue Reading