Author: 김 태주
[arXiv 2025] DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge
이번 리뷰 논문은 최신 VLA 논문입니다. 현재 VLA 방법론들의 평가 방법이 난잡한 상황에서 많은 기법들이 CALVIN과 LIBERO 벤치마크를 이용해서 평가를 하는 흐름으로 보입니다. 해당 기법은…
2025년 상반기를 마무리하며
저에게 이번 상반기를 한마디로 요약하자면 physical ai 시대로 변해가는 흐름을 대응하는 첫 시즌이였다고 볼 수 있습니다. 그렇기에 이중적인 의미에서 숨이 벅차는 상반기였다고 생각합니다. 제 글을…
[CoRL 2024] 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations
오랜만에 robot policy learning 논문을 가지고 왔습니다. 해당 기법은 3D Diffusion Policy와 유사하게 3차원 공간 정보를 활용하여 human demonstration에 대해 diffusion을 이용하여 모방하는 방법을 이용합니다….
[IROS 2024] ShapeGrasp: Zero-Shot Task-Oriented Grasping with Large Language Models through Geometric Decomposition
이번 리뷰 논문은 VLM과 LLM을 이용하여 파지에 적합한 영역을 zero-shot으로 찾아내는 방법을 제시한 기법입니다. 특이한 점은 vision을 보지 못하는 텍스트 기반의 LLM을 활용합니다. (아마 시기적으로…
[arXiv 2025] Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better
이번 리뷰 논문은 Physical Intelligence의 25.5.28에 새롭게 공개한 VLA 후속 논문입니다. 해당 논문은 최근 박성준 연구원이 세미나에서 발표했던 LLM의 Priming Effect 현상을 Physical Intelligence에서도 인식하고 해결하기…
[arXiv 2025] Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware
이번 리뷰 논문은 로봇 러닝 측면에서 하고 싶었던 방향을 구현한 기법으로, 실제 로봇이 없이 그리고 동적인 시뮬레이션에 대한 구축 없이 학습 데이터를 생성하는 방법을 제시한…
[CVPR 2025] Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass
이번 리뷰 논문은 DUST3R이라는 dense feature matching 기법으로 획을 그은 DUST3R라는 연구의 2장 이상의 영상들로 재구성을 수행했을 때의 시간 문제를 해소하기 위해서 제안된 기법입니다. 해당…
[arXiv 2025] π0.5: a Vision-Language-Action Model with Open-World Generalization
이번 리뷰 논문은 Physical AI를 선도 하는 그룹인 Physical intelligence의 최신 VLA 논문으로 π0의 후속 논문입니다. 굉장히 fancy한 접근과 파격적인 실험 결과를 보여준 논문입니다. 아래의…
[arXiv 2025] FAST: Efficient Action Tokenization for Vision-Language-Action Models
이번에 들고 온 논문은 로봇 분야를 선도하고 있는 그룹은 Physical intelligence에서 공개한 VLA 모델 중 하나인 pi-zero의 후속 논문 FAST입니다. high-frequency를 가진 action을 효율적으로 학습하기…
[arXiv 2025] Cooking Task Planning using LLM and Verified by Graph Network
이번 리뷰 논문의 유뷰트 보고 요리하는 로봇에 대해서 다루고자 합니다. 분야 관련 게시물들을 보다가 발견한 기사에서 해당 논문에 대해서 다루는 것을 보고 읽게 되었습니다. 기법은…
안녕하세요 우현님 답글 감사합니다. 제가 아는 기준에서는 상위 6개의 클래스로 저신뢰 데이터를 일부 필터링하고 reannotate 한거로 알고 있습니다. 뭐 동일…