Q1. 여기서 궁금한게 보통 vla 모델들의 입력으로 비디오 시퀀스가 아닌 단일 frame 이미지가 일반적으로 사용되나요? 현재 figure 예시처럼 ‘put the…
Q1. 2가지 타입에서 평가한다고 하셨는데, 2) Large Vision Model에 대한 정량적 혹은 정성적 결과는 따로 없는 지 궁금합니다. A1. 처음부터…
Q1. 기존 dual-system VLA에서 MLLM이 시각적 정보(localization이나 dynamic한 변화)를 downstream에 잘 전달하지 못하는 것으로 이해했습니다. 관련해서 Fig. 5에 드러난 실험이…
1. pi-zero는 살펴보지 못했지만, GROOT-N1의 경우 DiT에서 state와 noisy한 action을 입력으로 받고, 여기에 VLM의 output으로 얻은 ViT 기반 이미지 토큰과,…
포기하지 않는 강한 집념 만이 작은 차이를 만든다.
Q1. 연속적인 행동 값을 정해진 정수 범위로 정규한다는 것이 궁금합니다. A1. 정확한 구현 방법에 대해서는 코드가 공개된 시점에서 밝혀질 것…