[ArXiv 2025] VLA-0: Building State-of-the-Art VLAs with Zero Modification

이번 리뷰 논문은 NVIDIA에서 나온 따끈한 VLA 논문입니다. 최근 VLA의 연구들이 활성화되면서 구조에 대한 변화나 특화된 표현 방법을 사용하는 방법들이 제시되고 있는 추세입니다. 해당 논문은 이러한 흐름에 반하여 VLM 구조 수정 없이 로봇 행동을 직접 예측하도록 프롬프팅하는 단순한 접근 방법으로 LIBERO에서 SOTA를 달성한 재밌는 논문 입니다. 진짜… 통상적으로 맞다면 꽤나 큰 반향을 일으킬 것 같습니다.

Intro

최근 LLM에서 VLM로, 그리고 VLA로 기술이 발전하면서 로봇이 시각 정보와 언어 지시를 이해하고 행동으로 실행하는 연구들이 활발하게 진행되고 있습니다. 기존 VLA 연구들은 아래와 크게 같이 3가지 계열로 분류가 가능합니다.

Discrete Token VLAs: 해당 방식은 fig 2의 왼쪽 2번째 구조를 가지고 있으며, RT-2나 OpenVLA와 같은 초기 모델에서 널리 사용된 전략입니다. 연속적인 로봇의 행동 값을 여러 구간(bin)으로 나누어 discretize한 뒤, 각 구간을 VLM의 vocabulary에 있는 특정 토큰(새롭거나 사용 빈도가 낮은 토큰)에 할당합니다. 모델은 텍스트를 생성할 때와 동일한 손실 함수를 사용하여 이 액션 토큰을 예측하도록 훈련됩니다. 하지만 이 접근법은 두 가지 주요 한계를 가집니다. 첫째, 세밀한 제어를 위해 수천 개의 구간이 필요할 수 있는데, 이는 텍스트 어휘 공간과 충돌을 일으켜 행동의 resolution를 제한합니다. 둘째, 기존 언어 이해를 위해 사전 학습된 VLM의 어휘를 행동 표현에 재사용함으로써 모델의 언어적 성능을 저하시킬 수 있습니다.

+ 아마, Discrete Token VLAs와 차이가 와 닿지 않을 수 있습니다. 이전 기법들은 별도의 action token을 할당하고 이에 따른 tokenizer를 이용해서 action을 deconding하는 방법을 사용합니다. 즉, action 전용 처리가 있는 거죠. 근데 해당 기법은 action 전용이 있는 것 자체가 VLM의 기존 지식을 헤친다. 그러니깐 별도 토큰 안쓰고, 기존 VLM이 VQA 학습 하는 방식을 변경 없이 그대로 이용하는 겁니다.

Generative Action Head VLAs: 해당 방식은 fig 2의 첫번째 구조를 가졌으며, π0나 SmolVLA와 같이 VLM 위에 별도의 action generation head를 추가하는 것입니다. 이 구조에서 VLM은 latent vector를 예측하도록 미세 조정되고, 이 벡터는 diffusion model과 같은 별도의 생성 모델을 통해 최종 행동으로 디코딩합니다. 이 방식은 행동 표현의 정확도를 높일 수 있지만, 새로운 신경망을 추가하고 훈련시켜야 하므로 모델 전체의 복잡성이 증가합니다. 또한, 사전 학습되지 않은 액션 헤드를 추가하는 과정에서 VLM 고유의 언어 기반language grounding 능력이 저하될 수 있다는 단점이 있습니다.

Custom Architecture VLAs: 마지막으로, OpenVLA-OFT나 π-FAST처럼 아키텍처 자체를 크게 수정하거나 행동 예측에 특화된 custom tokenizer를 도입하는 방식입니다. 예를 들어, OpenVLA-OFT는 특화된 ACT 헤드를 추가하고, π-FAST는 DCT을 이용한 독자적인 action tokenizer를 사용합니다. 이러한 방법들은 효과적일 수 있으나, 아키텍처와 훈련 파이프라인 모두에서 상당한 복잡성을 야기합니다.

이러한 복잡한 흐름 속에서 VLA-0는 fig 1과 같이 “왜 행동을 그냥 텍스트로 표현하면 안 되는가?”라는 근본적인 질문을 던집니다. VLA-0는 새로운 토큰, 어휘 수정, 아키텍처 변경 없이 VLM의 고유한 텍스트 생성 능력을 활용하여 로봇의 행동 좌표나 관절 각도를 숫자 문자열로 직접 생성합니다.

별다른 변화 없이 VLA-0는 공인된 VLA 벤치마크인 LIBERO에서 SOTA를 달성했으며, 더 놀랍게도 large-scale datasets으로 학습된 기법보다도 더 좋은 성능을 보였습니다. 다음 섹션에서는 저자가 이를 어떻게 구현했는지 다뤄 보도록 하겠습니다.

Method

VLA-0는 진짜 단순하게 VLM의 변경이나 추가적인 추가 구조 없이 로봇 행동을 문자열로 뱉도록 하는 것이 핵심입니다. 역시나 VLA-0의 성공은 단지 아키텍처의 단순함에서만 오는 것은 아닙니다. 근데 그 방법도 꽤나 단순합니다. 먼저, 앞서 언급한 바와 같이 VLA-0는 기반이 되는 VLM의 능력을 최대한 그대로 보존하는 것을 원칙으로 하며, 저자는 Qwen-VL-2.5 (3B)를 기반으로 사용했습니다. 저자는 해당 VLM을 기반으로 실험을 진행했으며, VLA-0의 높은 성능은 다음 세 가지 핵심 기법; Action Decoding, Masked Action Augmentation, Ensemble Prediction에 의해 달성됩니다.

VLA-0의 전반적인 구조는 fig 3과 같으며, Input은 VLM의 입력 구조를 따르며, 이는 System Prompt, Image, Task Instruct로 구성됩니다. System Prompt는 VLM이 목표하는 수준을 달성하기 위한 지침들을 명시하빈다. Fine-tunning 동안에는 데이터에 따라, H, D, B가 선택되는 아래와 같은 프롬프트를 사용합니다.

System Prompt.

Analyze the input image and predict robot actions for the next H timesteps. Each action has D dimensions. Output a single sequence of H × D integers (0 - B each), representing the H timesteps sequentially. Provide only space-separated numbers. Nothing else.

+ Time-step H, Action dimensions D (e.g. 동작에 필요한 joint 수, end-effect space라면 ee pose~6D가 필요함), Fixed action range B (액션을 표현하는 정해진 범위의 최대 값, 정수 표현)

Action Decoding. VLA-0는 fig 3의 ouput action과 같이 로봇의 행동을 텍스트로 출력합니다. 이를 위해 먼저 연속적인 행동 값(e.g. 로봇 팔의 좌표)을 정해진 정수 범위(e.g. [0, 1000])로 정규화합니다. 그 후, VLM이 각 행동 차원에 해당하는 정수들을 공백으로 구분된 하나의 긴 문자열로 생성하도록 프롬프팅합니다. 이 방식은 Discrete Token VLA와 달리 모델의 어휘를 변경하지 않으면서도 필요에 따라 resolution을 자유롭게 조절할 수 있는 유연성을 제공합니다.

Masked Action Augmentation. VLM은 이전 토큰을 기반으로 다음 토큰을 예측하는 auto-regressive 방식으로 텍스트를 생성합니다. 이때 모델이 단순히 이전에 생성된 숫자들의 패턴을 따라가는 것을 방지하기 위해, 훈련 과정에서 target action string의 일부 문자를 무작위로 masking합니다. 이 기법은 모델이 단순히 숫자 시퀀스를 자동 완성하는 것이 아니라, 주어진 시각 정보와 언어 지시를 바탕으로 깊이 추론하여 행동을 예측하도록 강제하는 역할을 합니다.

Ensemble Prediction. 추론 시에는 Action-Chunking Transformer (ACT)에서 소개된 앙상블 기법을 적용하여 행동의 안정성을 높입니다. 현재 시점 t의 최종 행동을 결정하기 위해, 모델은 여러 시점에서 예측된 값들을 종합합니다. 구체적으로는, 현재 시점 t에서 예측한 시퀀스의 첫 번째 행동, 한 스텝 이전인 t-1시점에서 예측한 시퀀스의 두 번째 행동, 그리고 t-n+1시점에서 예측한 시퀀스의 n번째 행동까지를 모두 가져와 평균을 냅니다. 이를 통해 단일 예측에 의존할 때보다 훨씬 안정적이고 정확한 행동을 생성합니다.

Training Details. VLA-0은 VLM을 full fine-tunning을 수행하여 학습을 진행합니다. 학습에는 vocabulary에 대한 standard cross-entropy loss를 이용하여 target action string을 생성하도록 유도됩니다. 최적화에는 Adam optimizer를 이용하며, batch size=192, learning rate 5e-6, 64 epochs 동안 학습하며, A100 8장에서 32시간 동안 학습을 진행했다고 합니다.

Experiment

Setup. Real-world에서는 SO-100 로봇을 LeRobot framework를 사용하여 평가를 진행합니다. 적용된 task는 reorienting a block, pushing an apple, picking and placing a banana, and picking and placing a cupcake를 수행합니다. 각 task에서는 훈련을 위해 100개의 demo를 수집하여 평가를 진행합니다. Simulation에서는 VLA 평가에 널리 활용되는 벤치마크인 LIBERO를 활용합니다. LIBERO는 Spatial, Object, Goal, Long 구성이며, 각각 10개의 task로 구성되어 있으며, 각 task는 50개의 에피소드를 걸쳐 평가 됩니다.

시뮬레이션. 시뮬레이션 환경에서는 VLA 모델들을 비교하는 데 널리 사용되는 벤치마크인 LIBERO 벤치마크 [14]를 사용합니다. LIBERO는 Spatial, Object, Goal, Long의 네 가지 스위트로 구성되어 있습니다. 각 스위트는 특정 차원에 따른 시스템의 성능을 평가하도록 설계되었습니다. 각 스위트에는 10개의 작업이 포함되어 있으며, 각 작업은 50개의 에피소드에 걸쳐 테스트됩니다.

Simulation Results

LIBERO에서의 전반적인 성능은 tab 1에서 확인 가능합니다. 
먼저, tab 1의 상단 묶음에서 보이는 바와 같이 VLA-0는 large-scale action datasets로 사전 훈련되지 않은 모든 기존 방법론들을 압도했습니다. π0.5-KI, OpenVLA-OFT, SmolVLA 등 기존 SOTA 모델들보다 모든 LIBERO 부문에서 더 높은 작업 성공률을 기록하며 평균적으로 1.4% 더 높은 성능을 달성했습니다.
더욱 놀라운 점은, VLA-0가 대규모 행동 데이터 사전 훈련이라는 이점 없이도, 사전 훈련을 거친 기존 방법론들을 능가했다는 사실입니다. π-0, GROOT-N1, π-Fast, Open-VLA, Octo, MolmoAct 등 대규모 데이터셋으로 학습된 모델들보다도 더 나은 성능을 보여주었습니다. 이는 VLA-0의 단순한 접근 방식과 학습 방식이 효과적임을 증명합니다.

Real-World Results

저자는 실제 환경에서의 평가를 진행하기 위해서 open-source robot arm SO-100을 이용했으며, 해당 하드웨어로 수집된 대용량 행동 데이터 셋으로 사전 학습된 SmolVLA과 fig 4에서 보이는 바와 같이 비교 실험을 진행합니다. 실험 결과 VLA-0는 SmolVLA보다 평균적으로 10% 결과를 보여줍니다. VLA-0는 task당 100개의 demo만을 이용하여 훈련되었음에도 불구하고 압도했다는 점이 매우 놀라운 결과로 볼 수 있습니다,

Ablation Study

Action Ensembling. 앙상블을 비활성화했을 때 성공률이 2.7% 하락하여 가장 큰 영향을 미치는 요소임을 볼 수 있음
Masked Action Augmentation. 해당 방식 또한, 일관된 성능 향상을 보이며, 제거하는 경우에는 1.2% 감소
Action Resolution. LIBERO에서는 [0, 1000]으로도 충분한 결과를 보임. 250으로 낮추면 1.5% 감소하지만, 4000으로 높여도 추가적인 성능 향상은 보이지 않음
Image Tiling. 여러 이미지를 입력할 때, 여러 영상을 타일링하여 한번에 넣거나, 별도로 넣는 경우에도 0.2% 성능 차이를 보이며, 큰 영향을 주지 않는다고 저자가 정리하네요.


최근 트렌드 중에서 VLA가 VLM의 기존 지식을 제대로 활용하지 못하거나, 헤칠 우려가 있다는 시사점을 비추고 있긴 했습니다만… 해당 기법처럼 그냥 text로만 예측해도 충분함!이 이렇게 큰 효과가 있을 것이라고는 생각하지 못했습니다… 쩝… 이거 VLM 코어 기술을 가진 공룡 기업들이 더 중요해졌네요…

Author: 김 태주

Leave a Reply

Your email address will not be published. Required fields are marked *