[ArXiv 2025] VLA-0: Building State-of-the-Art VLAs with Zero Modification

이번 리뷰 논문은 NVIDIA에서 나온 따끈한 VLA 논문입니다. 최근 VLA의 연구들이 활성화되면서 구조에 대한 변화나 특화된 표현 방법을 사용하는 방법들이 제시되고 있는 추세입니다. 해당 논문은 이러한 흐름에 반하여 VLM 구조 수정 없이 로봇 행동을 직접 예측하도록 프롬프팅하는 단순한 접근 방법으로 LIBERO에서 SOTA를 달성한 재밌는 논문 입니다. 진짜… 통상적으로 맞다면 꽤나 큰 반향을 일으킬 것 같습니다.

Intro

최근 LLM에서 VLM로, 그리고 VLA로 기술이 발전하면서 로봇이 시각 정보와 언어 지시를 이해하고 행동으로 실행하는 연구들이 활발하게 진행되고 있습니다. 기존 VLA 연구들은 아래와 크게 같이 3가지 계열로 분류가 가능합니다.

Discrete Token VLAs: 해당 방식은 fig 2의 왼쪽 2번째 구조를 가지고 있으며, RT-2나 OpenVLA와 같은 초기 모델에서 널리 사용된 전략입니다. 연속적인 로봇의 행동 값을 여러 구간(bin)으로 나누어 discretize한 뒤, 각 구간을 VLM의 vocabulary에 있는 특정 토큰(새롭거나 사용 빈도가 낮은 토큰)에 할당합니다. 모델은 텍스트를 생성할 때와 동일한 손실 함수를 사용하여 이 액션 토큰을 예측하도록 훈련됩니다. 하지만 이 접근법은 두 가지 주요 한계를 가집니다. 첫째, 세밀한 제어를 위해 수천 개의 구간이 필요할 수 있는데, 이는 텍스트 어휘 공간과 충돌을 일으켜 행동의 resolution를 제한합니다. 둘째, 기존 언어 이해를 위해 사전 학습된 VLM의 어휘를 행동 표현에 재사용함으로써 모델의 언어적 성능을 저하시킬 수 있습니다.

+ 아마, Discrete Token VLAs와 차이가 와 닿지 않을 수 있습니다. 이전 기법들은 별도의 action token을 할당하고 이에 따른 tokenizer를 이용해서 action을 deconding하는 방법을 사용합니다. 즉, action 전용 처리가 있는 거죠. 근데 해당 기법은 action 전용이 있는 것 자체가 VLM의 기존 지식을 헤친다. 그러니깐 별도 토큰 안쓰고, 기존 VLM이 VQA 학습 하는 방식을 변경 없이 그대로 이용하는 겁니다.

Generative Action Head VLAs: 해당 방식은 fig 2의 첫번째 구조를 가졌으며, π0나 SmolVLA와 같이 VLM 위에 별도의 action generation head를 추가하는 것입니다. 이 구조에서 VLM은 latent vector를 예측하도록 미세 조정되고, 이 벡터는 diffusion model과 같은 별도의 생성 모델을 통해 최종 행동으로 디코딩합니다. 이 방식은 행동 표현의 정확도를 높일 수 있지만, 새로운 신경망을 추가하고 훈련시켜야 하므로 모델 전체의 복잡성이 증가합니다. 또한, 사전 학습되지 않은 액션 헤드를 추가하는 과정에서 VLM 고유의 언어 기반language grounding 능력이 저하될 수 있다는 단점이 있습니다.

Custom Architecture VLAs: 마지막으로, OpenVLA-OFT나 π-FAST처럼 아키텍처 자체를 크게 수정하거나 행동 예측에 특화된 custom tokenizer를 도입하는 방식입니다. 예를 들어, OpenVLA-OFT는 특화된 ACT 헤드를 추가하고, π-FAST는 DCT을 이용한 독자적인 action tokenizer를 사용합니다. 이러한 방법들은 효과적일 수 있으나, 아키텍처와 훈련 파이프라인 모두에서 상당한 복잡성을 야기합니다.

이러한 복잡한 흐름 속에서 VLA-0는 fig 1과 같이 “왜 행동을 그냥 텍스트로 표현하면 안 되는가?”라는 근본적인 질문을 던집니다. VLA-0는 새로운 토큰, 어휘 수정, 아키텍처 변경 없이 VLM의 고유한 텍스트 생성 능력을 활용하여 로봇의 행동 좌표나 관절 각도를 숫자 문자열로 직접 생성합니다.

별다른 변화 없이 VLA-0는 공인된 VLA 벤치마크인 LIBERO에서 SOTA를 달성했으며, 더 놀랍게도 large-scale datasets으로 학습된 기법보다도 더 좋은 성능을 보였습니다. 다음 섹션에서는 저자가 이를 어떻게 구현했는지 다뤄 보도록 하겠습니다.

Method

VLA-0는 진짜 단순하게 VLM의 변경이나 추가적인 추가 구조 없이 로봇 행동을 문자열로 뱉도록 하는 것이 핵심입니다. 역시나 VLA-0의 성공은 단지 아키텍처의 단순함에서만 오는 것은 아닙니다. 근데 그 방법도 꽤나 단순합니다. 먼저, 앞서 언급한 바와 같이 VLA-0는 기반이 되는 VLM의 능력을 최대한 그대로 보존하는 것을 원칙으로 하며, 저자는 Qwen-VL-2.5 (3B)를 기반으로 사용했습니다. 저자는 해당 VLM을 기반으로 실험을 진행했으며, VLA-0의 높은 성능은 다음 세 가지 핵심 기법; Action Decoding, Masked Action Augmentation, Ensemble Prediction에 의해 달성됩니다.

VLA-0의 전반적인 구조는 fig 3과 같으며, Input은 VLM의 입력 구조를 따르며, 이는 System Prompt, Image, Task Instruct로 구성됩니다. System Prompt는 VLM이 목표하는 수준을 달성하기 위한 지침들을 명시하빈다. Fine-tunning 동안에는 데이터에 따라, H, D, B가 선택되는 아래와 같은 프롬프트를 사용합니다.

System Prompt.

Analyze the input image and predict robot actions for the next H timesteps. Each action has D dimensions. Output a single sequence of H × D integers (0 - B each), representing the H timesteps sequentially. Provide only space-separated numbers. Nothing else.

+ Time-step H, Action dimensions D (e.g. 동작에 필요한 joint 수, end-effect space라면 ee pose~6D가 필요함), Fixed action range B (액션을 표현하는 정해진 범위의 최대 값, 정수 표현)

Action Decoding. VLA-0는 fig 3의 ouput action과 같이 로봇의 행동을 텍스트로 출력합니다. 이를 위해 먼저 연속적인 행동 값(e.g. 로봇 팔의 좌표)을 정해진 정수 범위(e.g. [0, 1000])로 정규화합니다. 그 후, VLM이 각 행동 차원에 해당하는 정수들을 공백으로 구분된 하나의 긴 문자열로 생성하도록 프롬프팅합니다. 이 방식은 Discrete Token VLA와 달리 모델의 어휘를 변경하지 않으면서도 필요에 따라 resolution을 자유롭게 조절할 수 있는 유연성을 제공합니다.

Masked Action Augmentation. VLM은 이전 토큰을 기반으로 다음 토큰을 예측하는 auto-regressive 방식으로 텍스트를 생성합니다. 이때 모델이 단순히 이전에 생성된 숫자들의 패턴을 따라가는 것을 방지하기 위해, 훈련 과정에서 target action string의 일부 문자를 무작위로 masking합니다. 이 기법은 모델이 단순히 숫자 시퀀스를 자동 완성하는 것이 아니라, 주어진 시각 정보와 언어 지시를 바탕으로 깊이 추론하여 행동을 예측하도록 강제하는 역할을 합니다.

Ensemble Prediction. 추론 시에는 Action-Chunking Transformer (ACT)에서 소개된 앙상블 기법을 적용하여 행동의 안정성을 높입니다. 현재 시점 t의 최종 행동을 결정하기 위해, 모델은 여러 시점에서 예측된 값들을 종합합니다. 구체적으로는, 현재 시점 t에서 예측한 시퀀스의 첫 번째 행동, 한 스텝 이전인 t-1시점에서 예측한 시퀀스의 두 번째 행동, 그리고 t-n+1시점에서 예측한 시퀀스의 n번째 행동까지를 모두 가져와 평균을 냅니다. 이를 통해 단일 예측에 의존할 때보다 훨씬 안정적이고 정확한 행동을 생성합니다.

Training Details. VLA-0은 VLM을 full fine-tunning을 수행하여 학습을 진행합니다. 학습에는 vocabulary에 대한 standard cross-entropy loss를 이용하여 target action string을 생성하도록 유도됩니다. 최적화에는 Adam optimizer를 이용하며, batch size=192, learning rate 5e-6, 64 epochs 동안 학습하며, A100 8장에서 32시간 동안 학습을 진행했다고 합니다.

Experiment

Setup. Real-world에서는 SO-100 로봇을 LeRobot framework를 사용하여 평가를 진행합니다. 적용된 task는 reorienting a block, pushing an apple, picking and placing a banana, and picking and placing a cupcake를 수행합니다. 각 task에서는 훈련을 위해 100개의 demo를 수집하여 평가를 진행합니다. Simulation에서는 VLA 평가에 널리 활용되는 벤치마크인 LIBERO를 활용합니다. LIBERO는 Spatial, Object, Goal, Long 구성이며, 각각 10개의 task로 구성되어 있으며, 각 task는 50개의 에피소드를 걸쳐 평가 됩니다.

시뮬레이션. 시뮬레이션 환경에서는 VLA 모델들을 비교하는 데 널리 사용되는 벤치마크인 LIBERO 벤치마크 [14]를 사용합니다. LIBERO는 Spatial, Object, Goal, Long의 네 가지 스위트로 구성되어 있습니다. 각 스위트는 특정 차원에 따른 시스템의 성능을 평가하도록 설계되었습니다. 각 스위트에는 10개의 작업이 포함되어 있으며, 각 작업은 50개의 에피소드에 걸쳐 테스트됩니다.

Simulation Results

LIBERO에서의 전반적인 성능은 tab 1에서 확인 가능합니다. 
먼저, tab 1의 상단 묶음에서 보이는 바와 같이 VLA-0는 large-scale action datasets로 사전 훈련되지 않은 모든 기존 방법론들을 압도했습니다. π0.5-KI, OpenVLA-OFT, SmolVLA 등 기존 SOTA 모델들보다 모든 LIBERO 부문에서 더 높은 작업 성공률을 기록하며 평균적으로 1.4% 더 높은 성능을 달성했습니다.
더욱 놀라운 점은, VLA-0가 대규모 행동 데이터 사전 훈련이라는 이점 없이도, 사전 훈련을 거친 기존 방법론들을 능가했다는 사실입니다. π-0, GROOT-N1, π-Fast, Open-VLA, Octo, MolmoAct 등 대규모 데이터셋으로 학습된 모델들보다도 더 나은 성능을 보여주었습니다. 이는 VLA-0의 단순한 접근 방식과 학습 방식이 효과적임을 증명합니다.

Real-World Results

저자는 실제 환경에서의 평가를 진행하기 위해서 open-source robot arm SO-100을 이용했으며, 해당 하드웨어로 수집된 대용량 행동 데이터 셋으로 사전 학습된 SmolVLA과 fig 4에서 보이는 바와 같이 비교 실험을 진행합니다. 실험 결과 VLA-0는 SmolVLA보다 평균적으로 10% 결과를 보여줍니다. VLA-0는 task당 100개의 demo만을 이용하여 훈련되었음에도 불구하고 압도했다는 점이 매우 놀라운 결과로 볼 수 있습니다,

Ablation Study

Action Ensembling. 앙상블을 비활성화했을 때 성공률이 2.7% 하락하여 가장 큰 영향을 미치는 요소임을 볼 수 있음
Masked Action Augmentation. 해당 방식 또한, 일관된 성능 향상을 보이며, 제거하는 경우에는 1.2% 감소
Action Resolution. LIBERO에서는 [0, 1000]으로도 충분한 결과를 보임. 250으로 낮추면 1.5% 감소하지만, 4000으로 높여도 추가적인 성능 향상은 보이지 않음
Image Tiling. 여러 이미지를 입력할 때, 여러 영상을 타일링하여 한번에 넣거나, 별도로 넣는 경우에도 0.2% 성능 차이를 보이며, 큰 영향을 주지 않는다고 저자가 정리하네요.


최근 트렌드 중에서 VLA가 VLM의 기존 지식을 제대로 활용하지 못하거나, 헤칠 우려가 있다는 시사점을 비추고 있긴 했습니다만… 해당 기법처럼 그냥 text로만 예측해도 충분함!이 이렇게 큰 효과가 있을 것이라고는 생각하지 못했습니다… 쩝… 이거 VLM 코어 기술을 가진 공룡 기업들이 더 중요해졌네요…

Author: 김 태주

7 thoughts on “[ArXiv 2025] VLA-0: Building State-of-the-Art VLAs with Zero Modification

  1. 좋은 리뷰 감사합니다. 요즘 매우 핫한 VLA 분야이지만 논문으로는 접해본 적이 거의 없어 좀 새로운거같습니다..ㅎ
    FIG.3 전체 구조와 관련하여 간단한 질문이 있는데요, VLM의 입력으로 prompt(system, user) 와 함께 stereo image 가 들어가는 것으로 보여집니다. 여기서 궁금한게 보통 vla 모델들의 입력으로 비디오 시퀀스가 아닌 단일 frame 이미지가 일반적으로 사용되나요? 현재 figure 예시처럼 ‘put the cupcake in the bowl’ 과 같이 간단한 prompt 라면 괜찮을거 같은데 long-term 하게 좀 길어지면 단일로 충분할까? 라는 생각이 문득 들어서요.

    감사합니다.

    1. Q1. 여기서 궁금한게 보통 vla 모델들의 입력으로 비디오 시퀀스가 아닌 단일 frame 이미지가 일반적으로 사용되나요? 현재 figure 예시처럼 ‘put the cupcake in the bowl’ 과 같이 간단한 prompt 라면 괜찮을거 같은데 long-term 하게 좀 길어지면 단일로 충분할까? 라는 생각이 문득 들어서요.

      A1. 대체로 단일-멀티뷰 frame을 쓰는 경우가 대다수 입니다. 비디오를 입력으로 받으면 실제 액션 추론 속도가 현저히 떨어질 수 밖에 없습니다.

      Q2. 현재 figure 예시처럼 ‘put the cupcake in the bowl’ 과 같이 간단한 prompt 라면 괜찮을거 같은데 long-term 하게 좀 길어지면 단일로 충분할까?

      A2. 무슨 질문인지 이해가 안가는데….

  2. 태주님 좋은 리뷰 감사합니다.

    연속적인 행동 값을 정해진 정수 범위로 정규한다는 것이 궁금합니다. 로봇 팔이 닿는 범위인 workspace를 0~1000으로 정규화한다는 것은 어찌보면 로봇 베이스로부터 떨어진 거리를 상대적으로 표현하겠다는 것으로 이해하였습니다. 베이스를 중심으로 리치가 최대가 되는 것을 1000으로 하는 좌표로 설정하는것인지, grid 방식처럼 0~1000을 할당하여 위치를 표현하는 것인지 궁금합니다. (전자의 방식이 맞을 것 같은데, output 예시를 보면 어떠한 축에 대한 0~1000의 값을 반환하는 것이 아닌 것 같아서 후자의 방식인지 궁금합니다.)

    또한, 해당 연구를 통해 VLM의 큰 틀을 변형하지 않고도 VLA로 확장이 가능함을 보였다고 생각합니다. 이는 어찌보면 VLM이 물리적 정보도 어느정도 이해하고 있음을 보였다고 생각이 드는데, 이에 대한 태주님의 의견이 궁금합니다.

    1. Q1. 연속적인 행동 값을 정해진 정수 범위로 정규한다는 것이 궁금합니다.
      A1. 정확한 구현 방법에 대해서는 코드가 공개된 시점에서 밝혀질 것 같습니다. System Prompt로 추측한다면 모터 별로 최대 최소 변화값을 정규화한 것으로 추측됩니다.

      Q2. 해당 연구를 통해 VLM의 큰 틀을 변형하지 않고도 VLA로 확장이 가능함을 보였다고 생각합니다. 이는 어찌보면 VLM이 물리적 정보도 어느정도 이해하고 있음을 보였다고 생각이 드는데, 이에 대한 태주님의 의견이 궁금합니다.
      A2. 저도 해당 방법론을 보고 VLM이 물리적인 정보를 생각보다 많이 이해하고 있는 것 같다는 생각이 들었습니다. 물론 학습을 추가적으로 진행하기 때문에 단적으로 판단하기에는 위험할 수 있습니다만… 저희가 생각했던
      것보다 VLM이 물리적인 정보를 이해할 잠재력을 가진 것은 확실합니다.

  3. 안녕하세요 태주님 리뷰 감사합니다.

    VLM의 지식을 어떻게 잘 전이해야하나?에 대해서 간단하지만 엄청난 결과를 보여준 연구인 것 같습니다. 제목도 잘 지은 것 같습니다. 기존에 워낙 잘 학습됐으니, 복잡한 구조를 붙여서 대규모 데이터로 학습시키는것 보다 최대한 있는걸 잘 쓰자!의 방법으로 이해했습니다. 읽다보니 여태까지 왜 이런 논문이 안 나왔을까? 싶기도 하네요. 또 읽으면서 로봇을 위한 VLM에 힘쓰는 Gemini Robotics도 떠올랐습니다.질문이 있는데요,

    Q1. 액션을 텍스트로 반환하는 능력 자체는 논문에 있는 3가지 스킬로 어느정도 구현이 됐다고 생각하고, 이 논문의 핵심중에 하나인 것 같습니다. 다만 action resoultion이 문제가 있을것 같다.. 생각하면서 읽었는데 ablation을 보니 1000정도면 적당하다는 것을 확인할 수 있었습니다. 이에 관해서 Libero 시뮬레이터 환경이나 task의 단순함 때문인지, VLM의 action decoding 성능의 한계라고 생각하시는지 의견이 궁급합니다.

    Q2. 이어지는 질문인 것 같은데, gemini robotics도 vlm을 활용하지만 뒤에 복잡한 구조가 있고 vlm은 공간적이거나 long horizon의 처리능력 위주로 성능 향상을 시도하고 있는것으로 알고있습니다. 단순 궁금증인데 더 큰 , embodied reasoning을 잘 학습한 VLM에 해당 finetuning을 시도하면 어떨지 궁금합니다. 올바른 액션을 디코딩 하는 능력이 결국 텍스트를 잘 뽑아내는 능력인지..? Physics 이해 능력인지..?에 대한 저자의 의견이 있었는지 궁금합니다.

    1. Q1. 액션을 텍스트로 반환하는 능력 자체는 논문에 있는 3가지 스킬로 어느정도 구현이 됐다고 생각하고, 이 논문의 핵심중에 하나인 것 같습니다. 다만 action resoultion이 문제가 있을것 같다.. 생각하면서 읽었는데 ablation을 보니 1000정도면 적당하다는 것을 확인할 수 있었습니다. 이에 관해서 Libero 시뮬레이터 환경이나 task의 단순함 때문인지, VLM의 action decoding 성능의 한계라고 생각하시는지 의견이 궁급합니다.

      A1. 제 생각에는 table top 환경인 LIBERO라서 그런거라고 생각해요. 로봇 팔이 하늘 위로 팔을 치켜들거나 뒤쪽으로 물건을 전달할 필요가 없으니깐 1000 정도로 만족한 거라고 생각이 듭니다.

      Q2. 이어지는 질문인 것 같은데, gemini robotics도 vlm을 활용하지만 뒤에 복잡한 구조가 있고 vlm은 공간적이거나 long horizon의 처리능력 위주로 성능 향상을 시도하고 있는것으로 알고있습니다. 단순 궁금증인데 더 큰 , embodied reasoning을 잘 학습한 VLM에 해당 finetuning을 시도하면 어떨지 궁금합니다. 올바른 액션을 디코딩 하는 능력이 결국 텍스트를 잘 뽑아내는 능력인지..? Physics 이해 능력인지..?에 대한 저자의 의견이 있었는지 궁금합니다.

      A2. 질문이 2개인 것 같습니다. embodied reasoning을 학습한 VLM이 해당 방식으로 fine-tunning을 한다면 어떨까요? 란 질문과 “액션을 디코딩 하는 능력이 결국 텍스트를 잘 뽑아내는 능력인지..? Physics 이해 능력인지..?에 대한 저자의 의견이 있었는지 궁금합니다.” 이렇게 2가지 같아요.

      첫번째 질문에 답변하면… 엄청 성능이 좋지 않을까요.. 그리고 그때부터는 못따라잡지 않을까 싶습니다. 만약에 저게 맞다면 LLM 개발하던 공룡 기업한테 다시 밥그릇 뺏기는 겁니다… 하하

      두번째 질문에 답변하면… 저자가 핵심적으로 주장하는 바가 “기존 방법론들의 MLLM에 대한 수정은 기존 지식을 헤친다. 그렇기 때문에 최대한 유지해야만한다.”였습니다. 즉, MLLM은 이미 공간 이해에 대한 잠재력을 가지고 있다가 저자의 의견이라고 봅니다.

  4. 안녕하세요 태주님 좋은 논문 소개 감사합니다

    질문이 있어 댓글 남깁니다
    텍스트를 통해 액션 정보를 표현이 가능하다고 이해했습니다

    그러나 다른 논문(제가 이번에 읽은 논문)의 경우 vlm이 좌표값등의 정보를 바로 이해할 수 없기에 이미지 원본 사이즈 등을 같이 제공하는 프롬프트를 포멧으로 사용했는데요, 질문은 이러한 공간적 정보를 vlm 모델이 잘 이해할 수 있는지가 궁금한데

    해당 연구는 인퍼런스에 사용되는 카메라뷰가 학습 데이터의 카메라 뷰와 동일하다는 가정을 갖고있나요?

    감사합니다

Leave a Reply to 이 승현 Cancel reply

Your email address will not be published. Required fields are marked *