Q1. 연속적인 행동 값을 정해진 정수 범위로 정규한다는 것이 궁금합니다. A1. 정확한 구현 방법에 대해서는 코드가 공개된 시점에서 밝혀질 것…
Q1. 여기서 궁금한게 보통 vla 모델들의 입력으로 비디오 시퀀스가 아닌 단일 frame 이미지가 일반적으로 사용되나요? 현재 figure 예시처럼 ‘put the…
Q1. 2가지 타입에서 평가한다고 하셨는데, 2) Large Vision Model에 대한 정량적 혹은 정성적 결과는 따로 없는 지 궁금합니다. A1. 처음부터…
Q1. 기존 dual-system VLA에서 MLLM이 시각적 정보(localization이나 dynamic한 변화)를 downstream에 잘 전달하지 못하는 것으로 이해했습니다. 관련해서 Fig. 5에 드러난 실험이…
포기하지 않는 강한 집념 만이 작은 차이를 만든다.
Q1. 액션을 텍스트로 반환하는 능력 자체는 논문에 있는 3가지 스킬로 어느정도 구현이 됐다고 생각하고, 이 논문의 핵심중에 하나인 것 같습니다.…