To the Next Clever Move

Motion Planning · VLA · World Model — 자율주행 연구 노트

To the Next Clever Move

논문 리뷰 ( Paper Review)/[VLA] Vision Language Action

[논문 리뷰] RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

Donghui.Eom 2026. 5. 24. 16:36
반응형

VLM은 어떻게 Robot Policy가 되는가?

0. Paper Information

Title
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

Authors
Brianna Zitkovich, Tianhe Yu, Sichun Xu, Peng Xu, Ted Xiao, Fei Xia, Jialin Wu, Paul Wohlhart, Stefan Welker, Ayzaan Wahid, Quan Vuong, Vincent Vanhoucke, Huong Tran, Radu Soricut, Anikait Singh, Jaspiar Singh, Pierre Sermanet, Pannag Sanketi, Grecia Salazar, Michael Ryoo, Krista Reymann, Kanishka Rao, Karl Pertsch, Igor Mordatch, Henryk Michalewski, Yao Lu, Sergey Levine, Lisa Lee, Tsang-Wei Edward Lee, Isabel Leal, Yuheng Kuang, Dmitry Kalashnikov, Ryan Julian, Nikhil Joshi, Alex Irpan, Brian Ichter, Jasmine Hsu, Alexander Herzog, Karol Hausman, Keerthana Gopalakrishnan, Chuyuan Fu, Pete Florence, Chelsea Finn, Avinava Dubey, Danny Driess, Tianli Ding, Krzysztof Choromanski, Xi Chen, Yevgen Chebotar, Justice Carbajal, Noah Brown, Anthony Brohan, Montserrat Gonzalez Arenas, Kehang Han

Venue / Year
Conference on Robot Learning, CoRL 2023. PMLR version 기준으로는 Proceedings of Machine Learning Research, Volume 229, pages 2165–2183에 게재되었다.

Keywords
Vision-Language-Action, VLA, Vision-Language Model, VLM, Robotics Transformer, Robot Policy, Web-scale Pretraining, Co-fine-tuning, Action Tokenization, Embodied AI

Category
논문 리뷰 > [VLA] Vision-Language-Action


1. Summary

RT-2는 인터넷 규모의 Vision-Language 데이터로 사전학습된 VLM을 로봇 제어에 직접 연결하려는 논문이다. 핵심 아이디어는 로봇의 action을 일반적인 language token처럼 표현하고, 기존 VLM을 robot trajectory data와 web-scale vision-language task에 함께 fine-tuning하여 이미지, 언어 명령, 로봇 행동을 하나의 sequence modeling framework 안에서 다루는 것이다. 저자들은 이러한 모델 계열을 Vision-Language-Action model, VLA라고 부르고, 그 대표 인스턴스로 RT-2를 제안한다.

한 문장으로 정리하면 다음과 같다.

RT-2는 “이미지와 언어를 이해하는 모델”인 VLM을 “이미지와 언어를 보고 행동까지 출력하는 모델”인 VLA로 확장한 논문이다.

기존 VLM은 보통 다음과 같은 형태를 가진다.

Image + Text → Text
 

반면 RT-2는 이를 다음과 같은 형태로 바꾼다.

Image + Language Instruction → Robot Action Tokens
 

논문의 핵심은 단순히 모델 크기를 키운 것이 아니다. 더 중요한 점은 web-scale vision-language pretraining에서 얻은 semantic knowledge를 low-level robotic control로 transfer할 수 있는가라는 질문을 실험적으로 다룬 것이다. 논문은 약 6,000개의 evaluation trajectories를 통해 RT-2가 기존 robot policy 대비 novel objects, unseen backgrounds, unseen environments, symbol understanding, reasoning, human recognition 등에서 개선된 성능을 보였다고 보고한다.


2. Background and Motivation

2.1 VLM의 강점과 로봇 제어의 간극

최근의 대규모 Vision-Language Model은 web-scale image-text data를 통해 open-vocabulary recognition, visual question answering, image captioning, scene understanding 등에서 강한 성능을 보인다. RT-2 논문은 이러한 VLM의 semantic reasoning, problem solving, visual interpretation 능력이 real-world robot에도 유용할 수 있다고 본다.

문제는 VLM이 기본적으로 text를 출력하는 모델이라는 점이다.

예를 들어 VLM은 다음과 같이 답할 수 있다.

Instruction: Pick up the apple.
Output: The robot should pick up the apple.
 

하지만 로봇에게 필요한 것은 설명이 아니라 실제 제어 명령이다.

move end-effector
close gripper
lift object
terminate episode
 

즉, VLM은 “무엇을 해야 하는지”를 말할 수 있지만, 로봇은 “어떻게 움직여야 하는지”를 실행 가능한 action 형태로 받아야 한다.

RT-2가 다루는 핵심 문제는 여기에 있다.

사전학습된 Vision-Language Model을 low-level robotic control에 직접 통합할 수 있는가?

논문은 기존 LLM/VLM 기반 로보틱스 접근들이 주로 high-level planning이나 primitive selection에 머무르는 경우가 많았고, 실제 low-level controller는 별도로 존재한다고 지적한다. 반면 RT-2는 VLM 자체가 low-level robot action을 출력하도록 만드는 방향을 택한다.


2.2 Robot data scarcity

RT-2의 또 다른 동기는 robot data의 부족이다.

로봇이 다양한 object, environment, task, situation에서 일반화된 능력을 얻으려면 엄청난 양의 robot interaction data가 필요하다. 하지만 web-scale vision-language data와 비교하면 robot trajectory data는 수집 비용이 훨씬 크고, 다양성도 제한적이다. Google DeepMind의 RT-2 소개 글도 로봇이 모든 object, environment, task, situation에 대해 직접 first-hand robot data를 모으는 것은 어렵다고 설명한다.

RT-2는 이 문제를 다음과 같이 우회한다.

Robot data만으로 general robot policy를 학습하기 어렵다.
→ 이미 web-scale data로 학습된 VLM의 지식을 활용하자.
→ VLM을 robot action을 출력하도록 fine-tuning하자.
 

이 접근은 로봇이 직접 경험하지 않은 object나 instruction에 대해서도, VLM의 web knowledge를 활용해 더 나은 generalization을 할 수 있다는 가설에 기반한다.


2.3 From VLM to VLA

RT-2의 관점에서 VLA는 단순히 VLM에 action head를 붙인 모델이 아니다.

논문은 natural language response와 robotic action을 같은 format 안에 넣기 위해, robot action을 text token으로 표현한다. 이렇게 하면 기존 VLM의 token generation framework를 거의 그대로 유지하면서도 action generation을 수행할 수 있다. 저자들은 이 범주의 모델을 Vision-Language-Action model이라고 부른다.

구조적으로 보면 변화는 다음과 같다.

VLM:
Observation + Instruction → Text Response

VLA:
Observation + Instruction → Action Token Sequence
 

이 전환이 중요한 이유는, 로봇 행동을 별도의 continuous action decoder가 아니라 언어 모델의 출력 공간 안에서 다룬다는 점이다.


3. Problem Formulation

3.1 Task Definition

RT-2의 task는 language-conditioned robotic control이다.

모델은 로봇 카메라 이미지와 자연어 명령을 입력으로 받고, 다음 시점에 실행할 robot action을 token sequence 형태로 출력한다. 논문은 입력을 standard VQA format과 유사하게 구성한다. 예를 들어 “Q: what action should the robot take to [task instruction]? A:”와 같은 prompt를 만들고, 출력은 숫자 또는 action token sequence로 표현된 robot action이 된다.

이를 수식적 형태로 단순화하면 다음과 같다.

Input:
  o_t: camera observation
  l: language instruction

Output:
  a_t: robot action token sequence

Policy:
  π(a_t | o_t, l)
 

기존 behavior cloning과 비교하면, RT-2도 본질적으로는 demonstration data로부터 policy를 학습한다. 다만 action을 continuous vector로 직접 회귀하지 않고, language model의 next-token prediction 문제로 변환한다.


3.2 Input and Output

RT-2의 입력은 크게 두 가지다.

1. Robot camera image
2. Natural language instruction
 

출력은 robot action이다. 다만 그 action은 continuous vector가 아니라 text token sequence 형태로 표현된다.

논문에서 사용한 action space는 7-DoF mobile manipulator를 기준으로 한다. Action은 end-effector의 6-DoF positional/rotational displacement, gripper extension level, episode termination command로 구성된다. continuous dimensions는 256개의 uniform bins로 discretization되며, action은 8개의 integer number로 표현될 수 있다.

즉, 원래 로봇 action이 다음과 같다면,

a_t = [dx, dy, dz, droll, dpitch, dyaw, gripper, terminate]
 

RT-2는 이를 다음과 같은 token sequence로 바꾼다.

"1 128 91 241 5 101 127 217"
 

Google DeepMind의 설명에서도 RT-2는 action을 language token과 유사한 output token으로 표현하며, 이러한 action string을 standard natural language tokenizer가 처리할 수 있도록 구성한다고 설명한다.


3.3 Dataset / Supervision

RT-2는 두 종류의 데이터를 함께 사용한다.

1. Web-scale vision-language data
2. Robot demonstration trajectory data
 

논문은 RT-2-PaLI-X와 RT-2-PaLM-E라는 두 가지 모델 인스턴스를 학습한다. RT-2-PaLI-X는 5B 및 55B PaLI-X 기반 모델이고, RT-2-PaLM-E는 12B PaLM-E 기반 모델이다. 학습에는 기존 VLM의 web-scale data, visual question answering, captioning, interwoven image-text data와 함께 RT-1에서 사용한 robot demonstration data가 결합된다. 해당 robot data는 office kitchen environment에서 13대의 로봇으로 17개월 동안 수집된 demonstration data다.

Robot demonstration trajectory는 자연어 instruction으로 annotation되어 있다. 이 instruction은 “pick”, “open”, “place into” 같은 skill verb와 “7up can”, “drawer”, “napkin” 같은 object noun으로 구성된다.


3.4 Objective

RT-2의 학습 objective는 next-token prediction이다.

이는 언어 모델 관점에서는 다음 token을 예측하는 문제이고, robot learning 관점에서는 demonstration action을 모방하는 behavior cloning loss에 해당한다. 논문 appendix의 training details에서도 RT-2-PaLI-X, RT-2-PaLM-E 모델들이 next-token prediction objective로 학습되며, 이것이 robot learning에서는 behavior cloning loss에 대응한다고 설명한다.

즉, RT-2는 강화학습이라기보다 대규모 VLM을 활용한 imitation learning / behavior cloning 계열로 보는 것이 더 정확하다.


4. Method

4.1 Overall Architecture

RT-2는 새로운 VLA architecture를 처음부터 설계하기보다, 기존 pre-trained VLM을 robot action을 출력하도록 fine-tuning한다.

논문에서 사용한 두 가지 backbone은 다음과 같다.

1. PaLI-X → RT-2-PaLI-X
2. PaLM-E → RT-2-PaLM-E
 

PaLI-X와 PaLM-E는 본래 image와 text를 입력받고 text token sequence를 출력하는 VLM이다. RT-2는 이 모델들이 출력할 수 있는 token space 안에 robot action token을 포함시킨다. 그 결과 모델은 vision-language task에서는 자연어를 출력하고, robot-action task에서는 action token을 출력한다.

전체 구조를 단순화하면 다음과 같다.

Robot Image
   +
Language Instruction
   ↓
Pre-trained VLM Backbone
   ↓
Action Token Sequence
   ↓
Detokenization
   ↓
Robot Action
 

RT-2의 중요한 특징은 robot action을 위한 별도 action-only layer를 크게 추가하지 않고, 기존 VLM의 token generation 구조를 활용한다는 점이다. 논문은 이 방식이 model weights를 language task와 action task에 공유할 수 있게 해준다고 설명한다.


4.2 Action Tokenization

RT-2의 가장 핵심적인 방법론은 action tokenization이다.

논문은 로봇 action의 continuous dimensions를 256개 bin으로 discretization하고, 각 bin을 기존 tokenizer의 token에 대응시킨다. PaLI-X의 경우 1000 이하의 integer가 각각 unique token으로 존재하기 때문에 action bin을 해당 integer token에 연결한다. PaLM-E의 경우 이러한 숫자 token 표현이 편리하지 않아, 가장 덜 사용되는 256개 token을 action vocabulary로 overwrite한다.

이 방식은 다음과 같은 의미를 가진다.

Continuous robot action
→ Discretized action bins
→ Integer/action tokens
→ Language-model-style sequence prediction
 

예를 들어 원래 action이 8차원 vector라면, 이를 8개의 token으로 변환한다.

a_t = [dx, dy, dz, droll, dpitch, dyaw, gripper, terminate]

tokenized(a_t) = "1 128 91 241 5 101 127 217"
 

이렇게 하면 robot policy learning을 다음과 같은 language modeling 문제로 바꿀 수 있다.

p(a_t | image, instruction)
=
p(token_1, token_2, ..., token_8 | image, instruction)
 

이 부분이 RT-2의 가장 단순하면서도 강한 아이디어다.


4.3 Co-fine-tuning

RT-2는 robot data만으로 fine-tuning하지 않는다. 논문에서 강조하는 핵심 학습 전략은 co-fine-tuning이다.

Co-fine-tuning은 기존 VLM의 web data와 robot trajectory data를 함께 사용해 fine-tuning하는 방식이다. 저자들은 단순히 robot action data만으로 fine-tuning하는 것보다, original web data를 계속 섞어 학습하는 것이 더 generalizable한 policy를 만든다고 설명한다. 그 이유는 모델이 low-level robot action을 배우는 동시에, VLM pretraining에서 얻은 abstract visual concepts를 잊지 않기 때문이다.

이를 도식화하면 다음과 같다.

Web-scale VLM data
  - VQA
  - captioning
  - image-text examples

Robot trajectory data
  - image observation
  - language instruction
  - action token sequence

↓ co-fine-tuning

VLA policy
  - retains visual-language knowledge
  - outputs robot actions
 

이 점에서 RT-2는 단순한 “large behavior cloning model”이 아니다.
핵심은 robot demonstration data와 web-scale vision-language data 사이의 결합이다.


4.4 Output Constraint

일반적인 VLM은 자유롭게 text token을 생성할 수 있다. 하지만 RT-2가 robot-action task를 수행할 때는 반드시 valid action token을 출력해야 한다.

따라서 논문은 robot-action task prompt가 들어왔을 때 decoding 과정에서 valid action token만 sampling하도록 output vocabulary를 제한한다. 반면 일반 vision-language task에서는 전체 natural language token space를 사용할 수 있다.

이 부분은 실제 로봇 제어에서 매우 중요하다.

만약 모델이 action token 대신 일반 자연어 token을 출력하면 robot control command로 해석할 수 없다. 따라서 RT-2는 language task와 action task를 같은 sequence model 안에서 다루되, inference task type에 따라 decoding constraint를 다르게 적용한다.


4.5 Real-time Inference

RT-2는 매우 큰 VLM backbone을 사용한다. 논문에서 가장 큰 모델은 55B parameter RT-2-PaLI-X-55B이다. 이러한 규모의 모델은 일반적인 on-robot GPU나 desktop-style machine에서 직접 real-time control에 사용하기 어렵다.

저자들은 이를 해결하기 위해 multi-TPU cloud service에 모델을 배포하고, 로봇이 네트워크를 통해 inference service를 query하는 방식을 사용했다. 논문에 따르면 55B RT-2-PaLI-X 모델은 1–3 Hz, 5B version은 약 5 Hz로 동작한다.

이 지점은 자율주행 관점에서도 매우 중요하다. VLA가 semantic reasoning에 유리하더라도, 실제 closed-loop control이나 motion planning에 사용하려면 latency, inference frequency, onboard deployment 문제가 반드시 따라온다.


4.6 Chain-of-Thought Variant

RT-2는 chain-of-thought reasoning을 실험적으로 결합한 variant도 제시한다.

논문은 PaLM-E 기반 RT-2 variant에 대해 추가 “Plan” step을 포함하도록 데이터를 augmentation한다. 이 형식에서는 모델이 바로 action token을 출력하는 대신, 먼저 자연어로 action의 목적을 설명하는 plan을 생성하고 그 다음 action token을 출력한다. 예시는 다음과 같은 형태다.

Instruction: I’m hungry.
Plan: pick rxbar chocolate.
Action: 1 128 124 136 121 158 111 255.
 

논문은 이 방식이 VQA dataset의 visual reasoning과 manipulation dataset의 action generation 사이를 연결하는 bridge 역할을 한다고 설명한다. 또한 RT-2 with chain-of-thought가 더 복잡한 command에 대해 자연어 계획과 action을 함께 생성할 수 있음을 qualitative하게 관찰했다고 보고한다.

이 부분은 나중에 자율주행 VLA를 생각할 때 특히 흥미롭다. Driving에서는 단순 action token보다 “왜 감속해야 하는지”, “왜 양보해야 하는지”, “어떤 maneuver를 선택해야 하는지”에 대한 reasoning trace가 중요하기 때문이다.


5. Experiments

5.1 Experimental Setup

RT-2의 실험은 크게 네 가지 질문을 중심으로 구성된다.

1. Seen task에서 성능은 어떤가?
2. Novel object, background, environment에 일반화되는가?
3. Emergent capability를 관찰하고 측정할 수 있는가?
4. Model size와 training strategy가 generalization에 어떤 영향을 주는가?
 

논문은 약 6,000개의 evaluation trajectories를 사용해 RT-2와 baseline들을 평가했다. 별도로 명시되지 않는 한 7-DoF mobile manipulator를 사용했고, action space는 앞서 설명한 RT-1 기반 discretized action space를 따른다.


5.2 Baselines

RT-2는 다음 baseline들과 비교된다.

1. RT-1
2. VC-1
3. R3M
4. MOO
 

RT-1은 동일 robot data를 사용하는 35M parameter transformer-based robot policy다. VC-1과 R3M은 pretrained representation을 사용한 baseline이고, MOO는 VLM을 사용해 semantic map 형태의 additional image channel을 만든 뒤 RT-1 backbone에 넣는 방식이다. 논문은 모든 baseline이 동일한 robotic data를 사용한다고 설명한다.

이 baseline 구성은 RT-2의 주장을 검증하는 데 중요하다. RT-2가 단순히 robot data를 더 많이 쓴 것이 아니라, VLM pretraining과 action tokenization, co-fine-tuning을 통해 generalization을 얻었는지를 보려는 구성이다.


5.3 Seen Tasks and Generalization

Seen task 평가에서는 RT-1에서 사용한 instruction suite를 사용한다. 이 suite에는 picking, knocking, placing upright, moving objects, opening/closing drawers, drawer에 object를 넣고 빼는 task 등 200개 이상의 task가 포함된다. 논문은 in-distribution evaluation에서도 object placement, time of day, robot position 등 환경 변동이 존재한다고 설명한다.

Generalization 평가는 세 가지 unseen category로 나뉜다.

1. Unseen objects
2. Unseen backgrounds
3. Unseen environments
 

논문은 unseen object, background, environment를 easy/hard case로 나누어 평가한다. hard unseen object에는 grasp가 어렵거나 unique한 object가 포함되고, hard unseen environment는 monitor와 office accessories가 있는 visually distinct office desk environment 등으로 구성된다.

결과적으로 seen tasks에서는 RT-2와 RT-1이 비슷한 수준의 성능을 보였지만, generalization setting에서는 RT-2가 뚜렷한 개선을 보였다. Appendix Table 3 기준으로 unseen average는 RT-1이 32, MOO가 35인 반면, RT-2-PaLI-X-55B와 RT-2-PaLM-E-12B는 모두 62를 기록했다.

이 결과는 RT-2의 강점이 seen skill 자체의 반복 수행보다, web-scale VLM pretraining에서 온 visual/semantic concept을 활용한 generalization에 있음을 보여준다.


5.4 Emergent Capabilities

RT-2 논문에서 가장 흥미로운 실험은 emergent capability 평가다.

저자들은 RT-2가 robot data에 없는 semantic knowledge를 web-scale pretraining에서 가져와 action에 활용할 수 있는지를 보고자 했다. 이를 위해 emergent capability를 크게 세 범주로 나눈다.

1. Symbol understanding
2. Reasoning
3. Human recognition
 

Symbol understanding은 “move apple to 3”, “push coke can on top of heart”처럼 숫자나 symbol을 이해해야 하는 task다. Reasoning은 visual reasoning, math, multilingual understanding을 포함한다. Human recognition은 “move the coke can to the person with glasses”처럼 사람의 attribute를 이해해야 하는 task를 포함한다.

결과적으로 RT-2는 emergent evaluation에서 baseline 대비 큰 성능 향상을 보였다. Appendix Table 4 기준으로 평균 성능은 VC-1이 11, RT-1이 17, RT-2-PaLM-E-12B가 40, RT-2-PaLI-X-55B가 60이다. 논문은 RT-2가 추가 robot demonstration 없이도 RT-1 대비 2–3배 높은 성능을 보였다고 설명한다.

이 결과가 의미하는 것은 RT-2가 새로운 motion primitive를 배운다는 뜻은 아니다. 논문도 web-scale pretraining이 새로운 robotic motion 자체를 제공하지는 않는다고 명확히 말한다. 대신 semantic concepts, relations, nouns와 같은 지식이 robot control task로 transfer될 수 있음을 보여준다.


5.5 Ablation Study

RT-2의 ablation은 model size와 training strategy가 generalization에 미치는 영향을 본다.

논문은 RT-2-PaLI-X에 대해 다음 설정을 비교한다.

1. Training from scratch
2. Fine-tuning with robot action data only
3. Co-fine-tuning with robot data + original VLM data
 

결과는 명확하다. Training from scratch는 매우 낮은 성능을 보였고, fine-tuning보다 co-fine-tuning이 더 나은 generalization 성능을 보였다. 또한 5B보다 55B 모델이 더 좋은 성능을 보였다. Appendix Table 5 기준으로 unseen average는 5B from scratch가 9, 5B fine-tuning이 42, 5B co-fine-tuning이 44, 55B fine-tuning이 52, 55B co-fine-tuning이 63이다.

이 ablation은 RT-2의 핵심 주장을 잘 뒷받침한다.

RT-2의 성능은 단순히 큰 모델을 robot data에 맞춘 결과가 아니라, pre-trained VLM knowledge를 유지하면서 robot data와 함께 학습하는 co-fine-tuning에서 나온다.


5.6 Failure Cases

논문은 RT-2의 failure case도 비교적 명확히 제시한다.

RT-2는 다음과 같은 경우에 약한 모습을 보였다.

1. Handle처럼 object의 특정 부분을 잡아야 하는 경우
2. Robot data에 없던 novel motion, 예를 들어 towel wiping이나 tool use
3. Folding towel처럼 dexterous하거나 precise한 motion
4. 여러 단계의 indirect reasoning이 필요한 경우
 

논문은 이러한 failure가 현재 training dataset composition과 training method의 한계와 관련되어 있다고 본다. 특히 web-scale VLM pretraining은 semantic generalization에는 도움을 주지만, robot data에 없는 새로운 physical skill을 자동으로 획득하게 해주지는 않는다.

이 점은 RT-2를 과대해석하지 않기 위해 매우 중요하다.

RT-2는 “웹 지식만으로 모든 로봇 행동을 학습한다”는 논문이 아니다.
더 정확히는 “이미 robot data로 학습한 physical skill을 web-scale semantic knowledge를 통해 더 일반화된 방식으로 사용할 수 있게 한다”는 논문에 가깝다.


6. Contributions

내가 보는 RT-2의 핵심 contribution은 네 가지다.

6.1 VLA라는 문제 형식을 명확히 제시했다

RT-2는 Vision-Language Model을 Vision-Language-Action Model로 확장하는 구체적인 방법을 제시한다. 특히 action을 text token으로 표현하고, 이를 기존 VLM의 output sequence에 포함시키는 방식으로 VLA를 구성한다. 논문은 이러한 category를 VLA라고 부르고, RT-2를 그 인스턴스로 제안한다.

이 기여는 단순한 용어 제안 이상이다.
로봇 정책을 다음과 같은 sequence modeling 문제로 볼 수 있게 만든다.

Observation + Instruction → Action Token Sequence
 

6.2 Action tokenization을 통해 robot policy learning을 language modeling 문제로 변환했다

RT-2는 robot action을 256-bin discretization 후 text token sequence로 표현한다. 이를 통해 robot action prediction을 기존 VLM의 next-token prediction framework 안으로 넣는다. 이 방법은 구조적으로 단순하지만, 기존 VLM의 pretraining, tokenizer, decoding mechanism을 그대로 활용할 수 있게 해준다.


6.3 Co-fine-tuning의 중요성을 보였다

RT-2는 robot data만으로 fine-tuning하는 것보다, original web data와 robot data를 함께 사용하는 co-fine-tuning이 generalization에 유리하다는 것을 ablation으로 보여준다. 논문은 original data를 유지하는 것이 VLM training에서 학습한 concept을 잊지 않도록 도와준다고 해석한다.


6.4 Web-scale semantic knowledge가 physical action으로 transfer될 수 있음을 보였다

RT-2는 novel object, unseen background/environment, symbol understanding, reasoning, human recognition task에서 baseline보다 좋은 성능을 보였다. 특히 emergent evaluation에서 RT-2-PaLI-X-55B는 평균 60을 기록했고, RT-1은 17을 기록했다. 이는 web-scale VLM pretraining이 단순 perception 성능을 넘어서 robot action selection에도 영향을 줄 수 있음을 보여준다.


7. Limitations and Discussion

7.1 Web knowledge는 새로운 physical skill을 만들어내지 않는다

RT-2의 가장 중요한 한계는 web-scale pretraining이 새로운 physical motion 자체를 제공하지 않는다는 점이다.

논문은 RT-2가 semantic and visual concepts에 대한 generalization은 얻지만, robot data에 포함되지 않은 새로운 motion ability를 획득하지는 않는다고 말한다. Physical skill은 여전히 robot data distribution에 의해 제한된다.

즉, RT-2가 “hammer로 쓸 수 있는 object는 rock”이라고 reasoning할 수 있더라도, 실제 hammering skill이 robot data에 없다면 그 motion을 안정적으로 수행할 수 있다고 보기 어렵다.

이 점은 VLA 연구를 이해할 때 매우 중요하다.

VLM knowledge transfer:
  semantic concept, relation, symbol, object category

Robot data requirement:
  physical interaction, manipulation dynamics, dexterous motion
 

VLA는 semantic intelligence와 physical skill 사이의 bridge를 만들 수 있지만, physical skill 자체를 web data만으로 해결하지는 못한다.


7.2 Action tokenization은 safety를 보장하지 않는다

RT-2는 action을 token으로 표현하는 매우 강력한 방법을 제안하지만, token sequence가 항상 안전하거나 물리적으로 적절하다는 보장은 없다.

로봇 manipulation에서도 잘못된 action token은 실패로 이어질 수 있다. 자율주행처럼 safety-critical domain에서는 이 문제가 훨씬 더 심각하다. Driving policy가 steering, acceleration, trajectory token을 출력한다고 해도, 그 출력이 collision-free, dynamically feasible, comfortable, rule-compliant하다는 보장은 별도로 필요하다.

이 점에서 VLA를 자율주행에 그대로 적용하기는 어렵다.


7.3 Real-time inference가 큰 병목이다

RT-2는 55B parameter 모델을 cloud TPU service로 실행했고, 55B version은 1–3 Hz, 5B version은 약 5 Hz로 동작한다고 보고한다.

Manipulation task에서는 이 정도 주파수가 어느 정도 가능할 수 있지만, 자율주행 motion planning이나 low-level control에서는 latency와 update frequency 요구사항이 훨씬 더 엄격할 수 있다. 특히 high-speed driving, dense urban interaction, emergency braking 등에서는 large VLA를 직접 low-level controller로 사용하는 것이 현실적으로 어려울 수 있다.

따라서 VLA를 자율주행에 적용하려면 다음 방향이 필요하다.

1. Distillation
2. Quantization
3. Smaller specialist VLA
4. Hierarchical architecture
5. VLA as high-level reasoning module
6. Classical planner와 결합된 hybrid system
 

논문 자체도 더 높은 control frequency나 낮은 cost hardware를 위해 quantization과 distillation 같은 방향이 필요하다고 언급한다.


7.4 Evaluation scope가 manipulation 중심이다

RT-2의 실험은 주로 tabletop manipulation, office kitchen environment, mobile manipulator task를 중심으로 한다. 따라서 이 결과를 autonomous driving에 직접 일반화하기는 어렵다.

자율주행은 다음과 같은 차이를 가진다.

1. 더 긴 planning horizon
2. 더 높은 속도
3. 다수의 dynamic agents
4. traffic rule constraint
5. prediction uncertainty
6. rare but safety-critical scenario
7. closed-loop interaction with other agents
8. strict real-time requirements
 

RT-2가 보여준 것은 VLA의 가능성이지, 자율주행 planner의 완성된 해법은 아니다.


8. Connection to Autonomous Driving / Motion Planning

RT-2는 manipulation robotics 논문이지만, 자율주행 Motion Planning 관점에서 매우 중요한 질문을 던진다.

VLM이 robot action을 출력할 수 있다면, VLA는 driving action이나 trajectory도 출력할 수 있을까?

이를 자율주행 stack으로 옮기면 다음과 같은 대응이 가능하다.

RT-2:
Camera Image + Language Instruction → Robot Action Tokens

Autonomous Driving:
Scene Observation + Route / Goal / Context → Driving Action or Trajectory Tokens
 

하지만 driving에서 action representation은 manipulation보다 훨씬 복잡하다.


8.1 Driving action은 무엇으로 정의해야 하는가?

자율주행에서 VLA를 사용하려면 먼저 output을 정의해야 한다.

가능한 선택지는 여러 가지다.

1. Low-level control
   - steering
   - throttle
   - brake

2. Waypoint sequence
   - future x, y
   - heading
   - velocity

3. Trajectory token
   - discretized future trajectory

4. Maneuver token
   - keep lane
   - lane change left
   - yield
   - stop
   - overtake

5. Cost / constraint token
   - target speed
   - target lane
   - safety margin
   - yield constraint
   - lateral offset
 

RT-2는 action을 token화했지만, 자율주행에서는 어떤 level의 action을 token화할지가 훨씬 중요하다.

내 생각에는 VLA가 바로 steering/throttle/brake를 출력하는 구조는 위험하고 실용성도 낮을 가능성이 크다. 그보다는 다음과 같은 high-level 역할이 먼저 가능해 보인다.

1. Scene reasoning
2. Behavior planning
3. Maneuver selection
4. Planner cost generation
5. Planner constraint generation
6. Explanation of planner decisions
 

8.2 VLA는 Motion Planner를 대체하기보다 보완할 가능성이 높다

Motion Planning은 단순 action generation 문제가 아니다.

자율주행의 planner는 다음 조건을 만족해야 한다.

1. Collision-free
2. Dynamically feasible
3. Comfortable
4. Rule-compliant
5. Robust to prediction uncertainty
6. Trackable by controller
7. Real-time executable
 

RT-2식 VLA가 trajectory token을 출력한다고 해도, 위 조건이 자동으로 보장되지는 않는다.

따라서 자율주행에서 VLA는 full-stack end-to-end planner보다는, classical planner 또는 optimization-based planner를 보조하는 형태로 먼저 들어올 가능성이 높다.

예를 들어 VLA가 다음과 같은 semantic 판단을 제공할 수 있다.

- 전방 차량이 비상등을 켰으므로 감속 필요
- 공사 cone 때문에 임시 차선 변경 가능성 있음
- 버스 정류장 근처 보행자에 대해 더 큰 safety margin 필요
- 우측 차량의 cut-in 가능성 높음
- 아이가 공을 따라 도로로 뛰어들 가능성 있음
 

이 정보는 직접 trajectory가 아니지만, planner의 cost나 constraint로 변환될 수 있다.

VLA semantic reasoning
→ behavior decision
→ cost / constraint generation
→ trajectory optimization / MPC
→ control
 

이런 구조가 현재로서는 더 현실적인 hybrid architecture라고 생각한다.


8.3 RT-2의 CoT variant와 driving reasoning

RT-2의 chain-of-thought variant는 자율주행에서 특히 흥미롭다.

Driving에서는 action 자체보다 action의 이유가 중요한 경우가 많다.

예를 들어 다음과 같은 상황을 생각할 수 있다.

Observation:
전방 우측에 정차된 버스가 있고, 버스 앞쪽에 보행자가 일부 가려져 있음.

Reasoning:
버스 정류장 근처에서 가려진 보행자가 나올 수 있으므로 속도를 줄이고 lateral margin을 확보해야 함.

Action:
target speed 감소, right-side safety margin 증가, lane center offset 조정
 

이 구조는 RT-2의 “Plan → Action” 형식과 유사하다.

Instruction / Scene
→ Plan
→ Action Tokens
 

자율주행 VLA도 단순히 trajectory를 출력하기보다, intermediate reasoning을 생성하고 이를 planner signal로 바꾸는 방향이 더 안전하고 해석 가능할 수 있다.


8.4 World Model과의 연결

RT-2는 기본적으로 현재 observation과 instruction을 보고 action을 출력하는 policy에 가깝다. 하지만 자율주행에서는 미래 예측이 핵심이다.

Driving planner는 항상 counterfactual question을 다룬다.

- 앞 차량이 급정거하면?
- 보행자가 계속 걸어오면?
- 옆 차량이 cut-in하면?
- 내가 차선 변경을 시작하면 주변 차량이 어떻게 반응할까?
 

따라서 자율주행 VLA가 실제 planner에 가까워지려면 World Model과 결합될 가능성이 높다.

VLA:
semantic reasoning + instruction following + action proposal

World Model:
future imagination + interaction prediction + counterfactual rollout

Motion Planner:
constraint satisfaction + trajectory optimization + safety verification
 

이 세 가지를 결합하는 것이 앞으로 driving foundation model 연구의 중요한 방향이 될 수 있다.


9. Takeaways and Next Questions

9.1 Takeaways

RT-2를 읽고 정리한 핵심 takeaway는 다음과 같다.

첫째, RT-2의 본질은 VLM을 action-generating policy로 변환한 것이다. 기존 VLM은 이미지를 보고 텍스트를 출력하지만, RT-2는 이미지를 보고 action token을 출력한다. 이 전환이 VLA의 핵심이다.

둘째, action tokenization은 단순하지만 강력하다. Robot action을 language token처럼 표현함으로써, robot policy learning을 next-token prediction 문제로 바꾼다. 이는 기존 VLM의 architecture와 pretraining을 최대한 활용할 수 있게 해준다.

셋째, co-fine-tuning은 RT-2의 중요한 기술적 포인트다. Robot data만으로 fine-tuning하면 VLM이 가진 semantic knowledge를 잃을 수 있고, web data와 robot data를 함께 사용하는 것이 generalization에 더 유리하다. Ablation 결과도 co-fine-tuning과 model scaling이 generalization 성능에 중요함을 보여준다.

넷째, RT-2는 web knowledge가 physical action으로 어느 정도 transfer될 수 있음을 보여준다. 다만 transfer되는 것은 새로운 motion skill 자체라기보다 semantic concept, relation, symbol understanding, reasoning에 가깝다.

다섯째, 자율주행 관점에서 RT-2는 “VLA가 바로 Motion Planner가 된다”는 근거라기보다, “semantic reasoning을 action signal로 바꾸는 구조가 가능하다”는 근거에 가깝다. Driving에서는 safety, feasibility, latency, closed-loop interaction 문제가 훨씬 크기 때문에, VLA는 classical planner를 대체하기보다 planner를 보조하는 module로 먼저 활용될 가능성이 높다.


9.2 Next Questions

RT-2 이후 내가 계속 가져가고 싶은 질문은 다음과 같다.

1. Driving action을 token화한다면 무엇을 token으로 삼아야 하는가?
   - control?
   - waypoint?
   - trajectory?
   - maneuver?
   - cost?
   - constraint?

2. VLA는 자율주행 stack의 어느 계층에 위치해야 하는가?
   - perception?
   - scene reasoning?
   - behavior planning?
   - motion planning?
   - control?

3. VLA가 출력한 action을 어떻게 safety-check할 것인가?

4. VLA와 classical planner를 어떻게 결합할 수 있는가?

5. VLA가 World Model과 결합되면 future reasoning과 planning이 가능해질까?

6. RT-2식 co-fine-tuning을 driving data에 적용한다면 어떤 데이터 구성이 필요할까?

7. Driving VLA의 closed-loop evaluation은 어떤 benchmark로 해야 할까?

8. RT-1은 어떤 데이터와 구조로 robot policy를 만들었는가?

9. PaLM-E는 어떤 모델이고, RT-2에서 왜 backbone으로 쓰였는가?

10. PaLI-X는 어떤 모델이고, PaLM-E와 무엇이 다른가?

 

 

10. Conclusion

RT-2는 VLA 연구의 기준점이 되는 논문이다.

이 논문은 로봇이 web-scale vision-language knowledge를 직접 physical action으로 연결할 수 있는 가능성을 보여준다. 특히 action을 text token처럼 표현하고, VLM을 robot trajectory data와 vision-language data에 함께 co-fine-tuning하는 방식은 매우 단순하지만 강력하다.

그러나 RT-2를 자율주행에 적용하려면 훨씬 더 많은 문제가 남아 있다.

자율주행에서 action은 단순한 end-effector command가 아니라, safety-critical trajectory 또는 behavior decision이다. 따라서 VLA가 직접 low-level control이나 full trajectory를 출력하는 방식은 아직 위험하고, 더 현실적인 방향은 VLA가 scene reasoning, behavior decision, cost/constraint generation을 담당하고, 최종 trajectory는 classical motion planner나 optimization-based planner가 생성하는 hybrid 구조라고 생각한다.

내 현재 결론은 다음과 같다.

RT-2는 VLA가 robot policy가 될 수 있음을 보여준 논문이다.
하지만 자율주행 관점에서 더 중요한 질문은 “VLA가 planner를 대체할 수 있는가?”가 아니라, “VLA가 Motion Planner에게 어떤 planning signal을 줄 수 있는가?”이다.


11. Next Paper

RT-2 다음에는 아래 논문을 이어서 읽으면 좋을 것 같다.

1. RT-1: Robotics Transformer for Real-World Control at Scale

RT-2의 기반이 되는 robot policy scaling 논문이다. RT-2가 사용한 robot demonstration data와 action discretization 방식의 배경을 이해하기 좋다.

2. PaLM-E: An Embodied Multimodal Language Model

RT-2가 사용한 backbone 중 하나인 PaLM-E를 이해하기 위한 논문이다. Embodied multimodal reasoning이 어떻게 language model 안으로 들어오는지 볼 수 있다.

3. OpenVLA: An Open-Source Vision-Language-Action Model

RT-2는 closed model에 가깝기 때문에 직접 실험하기 어렵다. OpenVLA는 VLA 구조를 실제로 구현하고 실험해보기 위한 다음 단계로 적합하다.

4. DriveLM / DriveVLM 계열

VLA/VLM을 자율주행 scene reasoning으로 연결하기 위한 논문들이다. RT-2가 manipulation robotics 중심이라면, DriveLM 계열은 driving-specific reasoning과 연결된다.

반응형