Author: 김 태주
[arXiv 2025] OpenHelix: An Open-source Dual-System VLA Model for Robotic Manipulation
이번 리뷰 논문은 VLA 논문으로 가장 핫한 트렌드인 Dual-system VLA에 대한 꼼꼼한 분석을 하고 분석 결과를 토대로 SOTA를 달성한 기법 입니다. 지속적으로 분석과 공유를 할…
[arXiv 2025] DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge
이번 리뷰 논문은 최신 VLA 논문입니다. 현재 VLA 방법론들의 평가 방법이 난잡한 상황에서 많은 기법들이 CALVIN과 LIBERO 벤치마크를 이용해서 평가를 하는 흐름으로 보입니다. 해당 기법은…
2025년 상반기를 마무리하며
저에게 이번 상반기를 한마디로 요약하자면 physical ai 시대로 변해가는 흐름을 대응하는 첫 시즌이였다고 볼 수 있습니다. 그렇기에 이중적인 의미에서 숨이 벅차는 상반기였다고 생각합니다. 제 글을…
[CoRL 2024] 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations
오랜만에 robot policy learning 논문을 가지고 왔습니다. 해당 기법은 3D Diffusion Policy와 유사하게 3차원 공간 정보를 활용하여 human demonstration에 대해 diffusion을 이용하여 모방하는 방법을 이용합니다….
[IROS 2024] ShapeGrasp: Zero-Shot Task-Oriented Grasping with Large Language Models through Geometric Decomposition
이번 리뷰 논문은 VLM과 LLM을 이용하여 파지에 적합한 영역을 zero-shot으로 찾아내는 방법을 제시한 기법입니다. 특이한 점은 vision을 보지 못하는 텍스트 기반의 LLM을 활용합니다. (아마 시기적으로…
[arXiv 2025] Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better
이번 리뷰 논문은 Physical Intelligence의 25.5.28에 새롭게 공개한 VLA 후속 논문입니다. 해당 논문은 최근 박성준 연구원이 세미나에서 발표했던 LLM의 Priming Effect 현상을 Physical Intelligence에서도 인식하고 해결하기…
[arXiv 2025] Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware
이번 리뷰 논문은 로봇 러닝 측면에서 하고 싶었던 방향을 구현한 기법으로, 실제 로봇이 없이 그리고 동적인 시뮬레이션에 대한 구축 없이 학습 데이터를 생성하는 방법을 제시한…
[CVPR 2025] Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass
이번 리뷰 논문은 DUST3R이라는 dense feature matching 기법으로 획을 그은 DUST3R라는 연구의 2장 이상의 영상들로 재구성을 수행했을 때의 시간 문제를 해소하기 위해서 제안된 기법입니다. 해당…
[arXiv 2025] π0.5: a Vision-Language-Action Model with Open-World Generalization
이번 리뷰 논문은 Physical AI를 선도 하는 그룹인 Physical intelligence의 최신 VLA 논문으로 π0의 후속 논문입니다. 굉장히 fancy한 접근과 파격적인 실험 결과를 보여준 논문입니다. 아래의…
[arXiv 2025] FAST: Efficient Action Tokenization for Vision-Language-Action Models
이번에 들고 온 논문은 로봇 분야를 선도하고 있는 그룹은 Physical intelligence에서 공개한 VLA 모델 중 하나인 pi-zero의 후속 논문 FAST입니다. high-frequency를 가진 action을 효율적으로 학습하기…
안녕하세요 우현님 좋은 논문 리뷰 남겨주셔서 감사합니다! Segmentation Branch가 굉장히 간단하게 구성되어 있음에도 좋은 성능을 보인다는게 흥미로웠습니다. 저는 pixel embedding…