Author: 김 태주

Posted in Paper X-Review

[ArXiv 2025] VLA-0: Building State-of-the-Art VLAs with Zero Modification

이번 리뷰 논문은 NVIDIA에서 나온 따끈한 VLA 논문입니다. 최근 VLA의 연구들이 활성화되면서 구조에 대한 변화나 특화된 표현 방법을 사용하는 방법들이 제시되고 있는 추세입니다. 해당 논문은…

Continue Reading
Posted in Conference Paper X-Review

[CoRL 2025] Learning from 10 Demos: Generalisable and Sample-Efficient Policy Learning with Oriented Affordance Frames

이번 리뷰 논문은 IL이 가진 문제점, 장기적인 작업에 따른 일반화와 강건함을 가지기 위해서는 대량의 시연 데이터가 필요하다는 단점을 극복하기 위한 방법을 제시합니다. 적은 시연 데이터…

Continue Reading
Posted in X-Review

[arXiv 2025] OpenHelix: An Open-source Dual-System VLA Model for Robotic Manipulation

이번 리뷰 논문은 VLA 논문으로 가장 핫한 트렌드인 Dual-system VLA에 대한 꼼꼼한 분석을 하고 분석 결과를 토대로 SOTA를 달성한 기법 입니다. 지속적으로 분석과 공유를 할…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

이번 리뷰 논문은 최신 VLA 논문입니다. 현재 VLA 방법론들의 평가 방법이 난잡한 상황에서 많은 기법들이 CALVIN과 LIBERO 벤치마크를 이용해서 평가를 하는 흐름으로 보입니다. 해당 기법은…

Continue Reading
Posted in X-Diary

2025년 상반기를 마무리하며

저에게 이번 상반기를 한마디로 요약하자면 physical ai 시대로 변해가는 흐름을 대응하는 첫 시즌이였다고 볼 수 있습니다. 그렇기에 이중적인 의미에서 숨이 벅차는 상반기였다고 생각합니다. 제 글을…

Continue Reading
Posted in Conference Paper X-Review

[CoRL 2024] 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations

오랜만에 robot policy learning 논문을 가지고 왔습니다. 해당 기법은 3D Diffusion Policy와 유사하게 3차원 공간 정보를 활용하여 human demonstration에 대해 diffusion을 이용하여 모방하는 방법을 이용합니다….

Continue Reading
Posted in Conference Paper X-Review

[IROS 2024] ShapeGrasp: Zero-Shot Task-Oriented Grasping with Large Language Models through Geometric Decomposition

이번 리뷰 논문은 VLM과 LLM을 이용하여 파지에 적합한 영역을 zero-shot으로 찾아내는 방법을 제시한 기법입니다. 특이한 점은 vision을 보지 못하는 텍스트 기반의 LLM을 활용합니다. (아마 시기적으로…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

이번 리뷰 논문은 Physical Intelligence의 25.5.28에 새롭게 공개한 VLA 후속 논문입니다. 해당 논문은 최근 박성준 연구원이 세미나에서 발표했던 LLM의 Priming Effect 현상을 Physical Intelligence에서도 인식하고 해결하기…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware

이번 리뷰 논문은 로봇 러닝 측면에서 하고 싶었던 방향을 구현한 기법으로, 실제 로봇이 없이 그리고 동적인 시뮬레이션에 대한 구축 없이 학습 데이터를 생성하는 방법을 제시한…

Continue Reading
Posted in Conference News Paper X-Review

[CVPR 2025] Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

이번 리뷰 논문은 DUST3R이라는 dense feature matching 기법으로 획을 그은 DUST3R라는 연구의 2장 이상의 영상들로 재구성을 수행했을 때의 시간 문제를 해소하기 위해서 제안된 기법입니다. 해당…

Continue Reading