안녕하세요. 오늘 소개드릴 논문은 3D-aware VLM인 RoboRefer입니다.

1. Introduction

로봇이 복잡한 환경과 잘 상호작용하기 위해서는 3D 공간을 이해하는 것이 중요합니다. 따라서 embodied AI에서는 open-world spatial intelligence가 필요합니다. 그중 하나의 핵심 과제인 spatial referring은, spatial intelligence와 embodied AI를 이어주는 다리 역할로, agent가 RGB나 RGB-D와 같은 sensor observation과 instruction이 주어졌을 때, 특정한 공간적 지점(point)을 정확히 예측하는 것을 목표로 합니다.

spatial referring은 figure 1의 오른쪽과 같이, manipulation이나 navigation과 같은 로봇 다운스트림 태스크에 광범위하게 적용할 수 있습니다. 저자는 spatial referring task를 복잡도에 따라 single-step spatial understanding과 multi-step spatial reasoning 단계로 나누어 설명하고 있습니다.

(1) Single-step spatial understanding

position, orientation이나 거리, 크기와 같은 객체의 특성이나 관계를 판별하는 능력입니다. 이 단계는 spatial reasoning을 위한 perceptual한 기반을 마련해주며, 기존 VLM 기반 연구들은 주로 이 단계에 집중하고 있다고 합니다. 기존 접근법들은 3차원 정보를 이해하기 위해 multi-view image를 통한 3D reconstruction을 요구하는데 이는 많은 cost가 들고, 또다른 접근법은 depth를 RGB와 같은 image encoder로 처리하는 방식인데 이는 modality 간섭을 유발할 수 있습니다.

(2) Multi-step spatial reasoning

공간 이해를 바탕으로, 복잡한 instruction을 여러 단계로 분해하여 순차적으로 해결하는 능력입니다. 이 단계는 적합한 데이터셋이 부족해 충분히 연구되지 않았다고 합니다.

저자는 한 파이프라인에 이 두 단계를 통합하고자 했습니다. Figure 1의 왼쪽에서, 가장 가까운 접시를 찾고, 간장 종지를 찾은 다음, 그 사이 빈 공간을 결정하는 것이 그 예시입니다.

이에 따라 저자가 제안하는 RoboRefer는 supervised fine-tuning(SFT)를 통해 정확한 spatial understanding을 할 뿐만 아니라 reinforcement fine-tuning(RFT)를 통해 일반화된 spatial reasoning 능력을 보여주는 3D-aware VLM입니다. RGB branch와 간섭이 없도록 전용 depth encoder를 사용합니다.

이와 함께 RefSpatial이라는 벤치마크도 제시하고 있는데요, 2.5M개의 고품질 예제와 20M개 QA 쌍으로 구성되며 2D/3D/simulation 등 다양한 데이터 소스를 활용하여 bottom-up으로 spatial referring을 달성하도록 사용될 수 있습니다. 구체적으로 2D 웹 이미지는 기본적인 공간 개념과 depth 인식을, 3D embodied video는 indoor scene의 fine-grained한 공간 이해를, simulation data는 multi-step spatial referring에 사용될 수 있습니다.

2. Method

2.1. Problem Formulation

spatial referring은 visual input O(RGB or RGB-D)가 주어졌을 때 목표 위치를 특정하는 단일 2D 점 (x, y)를 예측하는 것을 목표로 합니다. 이때 instruction은 single-step spatial property(e.g. 크기(크다, 작다), 위치(상대적 위치 또는 순서), orientation, 공간적 관계(거리나 방향))뿐만 아니라 multi-step spatial reasoning을 포함합니다. 예를 들어 Figure 2의 instruction “Place the object between the pen holder and keyboard, lined up with the cup’s logo.”가 있습니다.

이런 point-based formulation은 region-based에 비해 로보틱스에 더 적합하고 일반화 가능하다고 저자는 말하고 있습니다. 2D bbox에 비해 point는 depth를 통해 3D 좌표로 자연스럽게 매핑될 수 있기 때문입니다. 또한 2D bbox는 종종 관련 없는 객체를 어쩔 수 없이 포함하기도 하는데, point 방식은 scene에서 보이는 객체의 부분을 정확하게 localization 할 수 있다는 장점이 있습니다.

2.2. RoboRefer: A 3D-aware reasoning VLM for spatial referring

VLM Architecture

Figure 2에서 볼 수 있듯이, RoboRefer는 RGB와 depth encoder를 분리하며, projector를 통해 정렬하여 LLM을 통해 VQA 또는 point prediction을 수행합니다. 앞서 잠시 언급했듯이 기존 방법들은 RGB와 depth의 encoder를 공유해왔는데, 이는 모달리티 간섭을 유발하고 사전 학습 된 encoder의 성능을 저하시키며 이 점을 보완하기 위해 추가적인 RGB co-training을 요구한다고 합니다. 이를 해결하기 위해 저자는 depth 전용 encoder와 projector를 제안합니다. 이 경우 depth encoder는 독립적으로 업데이트 되기 때문에 모달리티 간섭을 피할 수 있고, depth 단서에 대해 향상된 인식 능력을 보여 결과적으로 더 높은 spatial understanding을 달성할 수 있었다고 저자는 주장합니다.

Supervised Fine-tuning (SFT)

base VLM으로 nvidia의 NVILA를 채택하였고, spatial understanding 능력을 개선하기 위해 두 단계의 SFT를 제안합니다.

(1) Depth alignment

Figure 2에서 depth projector를 fine-tuning하는 과정으로, depth feature를 LLM의 text 공간과 align을 맞추는 과정입니다. 이 단계는 RefSpatial의 RGB-D annotaion을 이용합니다. (section 2.3. 참조)

(2) Spatial understaning enhancement

모델의 모든 파라미터를 fine-tuning하는 단계입니다. 이 과정에서 모델은 RGB 및 RGB-D 입력에 대해 공동으로 최적화되고, RGB encoder와 depth encoder는 각각 별도로 업데이트 됩니다.

Reinforcement Fine-tuning (RFT)

이 단계에서는 RefSpatial의 multi-step reasoning data를 이용해 Grop Relative Policy Optimization(GRPO) 알고리즘을 사용합니다. GRPO는 group 단위로 여러 샘플을 비교해 상대적인 점수를 계산하여 policy를 업데이트하는 방식으로, 출력의 다양성을 확보하고 안정적으로 policy 업데이트가 가능한 방식이라고 합니다.

먼저 최종 출력인 point prediction의 정답 여부만을 보는 다음 두 가지 outcome reward를 정의합니다.

(1) Outcome Format Reward( $R_{OF}$ ): 구조화된 추론과 명확성을 따르는지 평가하기 위한 reward

(2) Point L1 Reward( $R_P$ ): 최종 예측이 GT point 주변 특정 범위 내에 있을 때 1점, 아니면 0점

다음으로 추론의 중간 단계를 고려하는 process reward를 다음과 같이 정의합니다.

(1) Process Format Reward( $R_{PF}$ ): “[Perception Type] [Target Object]” 형식을 강제하는 reward

(2) Accuracy Reward( $R_{Acc}$ ): RefSpatial의 key-step perception annotation을 활용하여, perception type에 따라 specific한 metric을 사용하여 오차를 측정합니다.(예를 들어 position이라면 L1 loss를 측정)

exploration을 위해 현재 policy에서 N개의 응답 $\{a_1, …, a_N\}$ 을 샘플링하고, 각각의 응답은 위 네 개의 reward가 결합된 $r_i = R_{OF}(a_i) + R_{P}(a_i) + \alpha R_{PF}(a_i) + \alpha R_{Acc}(a_i)$ 를 받습니다. 여기서 alpha는 0.25로 설정됩니다. reward는 relative advantage( $A_i = \frac{r_i - mean(\{r_j\})}{std(\{r_j\})}$ )을 계산하기 위해 그룹 내에서 정규화됩니다. 또한 KL-divergence 정규화 항을 추가하여 SFT 과정에서 얻은 policy에서 너무 멀어지지 않도록 제한합니다. Figure 2의 아래에는 이러한 RFT를 통해 4단계의 spatial referring을 수행하는 모습을 보여줍니다.

2.3. RefSpatial dataset

RefSpatial은 figure 3-(a)에서 볼 수 있다시피 2D web image, 3D embodied video, simulation data로 이루어져 있습니다. 동일한 class의 여러 object를 포함하며, 각 object는 계층적인 caption을 가지고 있습니다.(예를 들어 cup이라면 cup이라는 caption뿐만 아니라 the third cup from the left, the cup closest to the camera 등을 포함합니다.) 또한 figure 3-(b)에서 확인할 수 있듯 VQA, point prediction과 같은 question type을 포괄하며, figure 3-(c)에서 나타난 바와 같이 31개의 서로 다른 spatial relation을 포함합니다.

2.4. Training Details

NVILA(2B/8B)를 base 모델로 채택하고, SFT를 적용하여 RoboRef-SFT를 얻습니다. 계산상의 제약으로 인해 RFT는 2B 모델에만 적용하여 RoboRef-RFT를 얻었다고 합니다. SFT는 앞서 말했듯 두 단계로 이루어지는데, 첫 번째 단계에서는 RefSpatial만 사용하고 두 번째 단계에서는 RefSpatial과 instruction tuning용 데이터, referring 데이터를 혼합하여 학습했습니다. 또한 RGB-only과 RGB-D 추론이 모두 가능합니다. RFT 단계에서는 RefSpatial의 multi-reasoning data를 사용하여 학습됩니다.

3. Experiments

3.1. Single-step Spatial Understanding

공간 이해를 평가하기 위해 다양한 벤치마크를 사용하였으며, proprietary model, open-source VLM, 공간에 특화된 모델, RoboRefer를 비교하였습니다. 모든 벤치마크에서 RoboRefer가 더 나은 성능을 보이고 있는데, 특히 RGB-only에서도 강력한 공간 이해 능력을 보여주고 있습니다. 또한 RoboRefer-2B는 base model로 삼은 NVILA-2B보다 평균적으로 21.7% 더 뛰어난 성능을 보였습니다.

3.2. Multi-step Spatial Referring

기존 벤치마크들은 추론 단계가 2개로 제한되기 때문에, 저자들은 더 많은 추론 단계로 구성된 평가를 위한 RefSpatial-Bench를 제안합니다. 이 벤치마크는 100개의 이미지로 구성되며, 이중 77개의 이미지는 RefSpatial에서 보지 못한 spatial relation을 포함합니다. Table 2에 나타난 지표는 point prediction의 평균 성공률을 의미합니다. 또한 RGB-D 입력을 사용하였는데, 이때 depth map은 DepthAnything V2를 통해 RGB 이미지로부터 생성됩니다.

표의 가장 오른쪽에서 볼 수 있다시피 2B-RFT 모델이 평균적으로 가장 좋은 성능을 보이고 있습니다. 또한 저자들이 말하길 Gemini-2.5-pro 모델은 2D referring에서는 뛰어나지만 거리와 관련된 공간 관계에서는 어려움을 겪는다고 합니다.

4. Conclusion and Future work

본 논문에서는 single-step의 정확한 spatial understanding과 multi-step의 spatial reasoning을 결합해 spatial refer를 해결하는 3D-aware VLM인 RoboRefer를 소개하였습니다. 요약하자면 SFT를 통해 별도의 depth encoder로 3D perception을 강화하고, metric-sensitive한 보상 함수를 사용한 RFT를 통해 일반화된 multi-step spatial referring을 가능하게 하였습니다. 또한 SFT, RFT training을 위한 벤치마크 RefSpatial과 평가에 특화된 RefSpatial-Bench도 함께 제시하였습니다.

저자들은 이와 함께 두 가지의 향후 연구 방향을 제시하였습니다. 첫 번째는 인간의 의도에 대한 모델 이해를 강화하는 것인데요, 인간의 instruction은 종종 간결하고 모호하기 때문에 intent-aware한 데이터와의 합성을 하거나 co-training을 통해 개선할 수 있을 것이라고 합니다. 두 번째는 모델의 3D 인식 기능을 개선하는 것인데요, 현재는 3D 이미지의 평면 좌표를 예측하고 있기 때문에 깊이 기반의 3D 변환이 필요하다고 합니다.

4 thoughts on “[NeurIPS 2025] RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics”

김 영규 says:

03/30/2026 at 11:48

안녕하세요 예은님 리뷰 감사합니다.

한가지 질문이 있는데요, RefSpatial의 2D web image 파이프라인에서 metric depth estimation과 camera calibration으로 pseudo-3D annotation을 생성할 때 depth scale error나 depth estimation bias가 annotation 품질에 미치는 영향에 대한 언급이나 실험이 있는지, 별도의 filtering이나 confidence control이 있었는지 궁금합니다. 요즘은 정말 metric depth estimation이 의심하지 않고 써도 되는 수준으로 인정을 받는지가 궁금하네요

Log in to Reply
1. 이 예은 says:
  
  04/24/2026 at 19:18
  
  안녕하세요 영규님, 좋은 질문 감사합니다!
  
  ablation에서는 depth noise와 partial view 문제가 존재하지만, 최근의 단안, 스테레오, 그리고 모노큘러 기하 예측 기법으로 완화할 수 있다고 언급하고 있습니다. 그러면서 실제 실험 환경에서는 DepthAnything v2을 사용해서 depth noise를 줄여 보다 높은 강건성을 확보할 수 있었다고 언급하고 있습니다..!
  
  Log in to Reply
이 승현 says:

04/06/2026 at 11:33

예은님 좋은 리뷰 감사합니다.

Singl-step spataial understanding과 Multi-step Spatial Referring을 합치고자 한 저자들의 연구 방향은 처음으로 제안된 것일까요? Multi-step Spatial Referring이 어찌보면 sub-task planning인 것으로 이해되는데, 저자들의 관점이 궁금합니다.
그리고 평가지표들은 다 accuracy로 이해하면 될까요?
또한, 해당 방법론을 시뮬레이션이나 real 로봇으로 실험한 결과는 따로 없는 지 궁금합니다.

Log in to Reply
1. 이 예은 says:
  
  04/24/2026 at 19:41
  
  안녕하세요 승현님, 좋은 질문 감사합니다!
  
  1. 저자들은 Single-step spatial understanding과 Multi-step Spatial Referring을 합친 최초의 방식이라고 주장하고 있습니다.
  2. 저도 sub-task planning과 유사하다는 생각이 들었고, 저자들도 복잡한 instruction을 한 파이프라인에 풀기 위해 multi-step spatial referring을 도입하였습니다. 다른 점이 있다면 subtask 단위가 아닌 공간 관계에 기반한 2D point를 예측하는 점인 것 같습니다.
  3. 네 맞습니다.
  4.ablation에서 실험 결과를 보여주고 있었습니다. real world는 UR5, Unitree G1를 사용해서 실험했고, 일관적으로 single-step에서는 SFT만으로도 괜찮은 성능을 보였고 multi-step에서는 RFT가 큰 성능 향상에 도움이 되었다고 합니다.
  
  감사합니다.
  
  Log in to Reply

[NeurIPS 2025] RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics