VLA는 바로 Action을 출력해야 할까, 아니면 중간에 Language Motion이 필요할까?
본 포스팅은 RT-H: Action Hierarchies Using Language 논문을 읽고 정리한 글입니다.
RT-1은 이미지와 자연어 명령을 입력받아 robot action을 출력하는 language-conditioned robot policy를 제안했고, RT-2는 Vision-Language Model, VLM을 robot action까지 출력하는 Vision-Language-Action, VLA 모델로 확장했습니다.
그런데 RT-1과 RT-2를 읽고 나면 자연스럽게 이런 질문이 생깁니다.
고수준 task instruction에서 바로 low-level robot action을 예측하는 것이 정말 좋은 구조일까?
예를 들어 로봇에게 다음과 같은 task를 준다고 해보겠습니다.
"close the pistachio jar"
RT-2 같은 flat VLA는 observation과 task instruction을 보고 바로 action token을 출력합니다.
Image + Task Instruction
→ Action Tokens
하지만 실제로 이 task를 수행하려면 로봇은 여러 단계의 세부 motion을 거쳐야 합니다.
move arm forward
rotate arm right
move arm down
close gripper
move arm backward
RT-H는 바로 이 지점을 문제로 봅니다.
고수준 task와 low-level action 사이에 language motion이라는 중간 표현을 넣어, action hierarchy를 language로 구성합니다.
내가 이 논문에서 가장 중요하게 본 질문은 다음입니다.
VLA가 바로 low-level action을 출력하기보다, 중간에 language-based action abstraction을 두면 더 robust하고 flexible한 policy를 만들 수 있을까?

Paper Links
TypeLink
| Paper | arXiv: RT-H: Action Hierarchies Using Language |
| arXiv PDF | |
| HTML | arXiv HTML |
| Conference Version | RSS 2024: RT-H |
| Project Page | RT-H Project Page |
| Related Paper | RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control |
| Related Paper | RT-1: Robotics Transformer for Real-World Control at Scale |
Article Summary
| 항목 | 내용 |
| 논문 | RT-H: Action Hierarchies Using Language |
| 분야 | Robotics, VLA, Imitation Learning, Hierarchical Policy |
| 핵심 문제 | high-level task instruction에서 바로 low-level action을 예측하는 flat VLA 구조의 한계 |
| 핵심 아이디어 | task와 action 사이에 fine-grained language motion을 중간 표현으로 두어 action hierarchy 구성 |
| 주요 방법 | Language motion query, action query, RT-2 기반 VLM backbone, automated language motion labeling |
| 주요 비교 | RT-2, RT-H variants, teleoperation-based intervention baseline |
| 주요 결과 | 다양한 multi-task dataset에서 RT-2보다 높은 성능, language motion correction을 통한 intervention 가능성 |
| 내 관심 포인트 | 자율주행에서도 behavior language를 중간 표현으로 두면 planning과 control 사이를 더 잘 연결할 수 있을까? |
Table of Contents
- Paper Information
- Summary
- Background and Motivation
- Problem Formulation
- Method
- Experiments
- Contributions
- Limitations and Discussion
- Connection to Autonomous Driving / Motion Planning
- Takeaways and Next Questions
- Conclusion
- Next Paper
- References
0. Paper Information
Title
RT-H: Action Hierarchies Using Language
Authors
Suneel Belkhale, Tianli Ding, Ted Xiao, Pierre Sermanet, Quon Vuong, Jonathan Tompson, Yevgen Chebotar, Debidatta Dwibedi, Dorsa Sadigh
Venue / Year
Robotics: Science and Systems, RSS 2024
arXiv 2024
Keywords
RT-H, Action Hierarchy, Language Motion, Vision-Language-Action, VLA, RT-2, Robot Learning, Imitation Learning, Human Intervention, Language Correction, Hierarchical Policy
Category
논문 리뷰 > [VLA] Vision-Language-Action
1. Summary
RT-H는 RT-2 계열의 VLA 구조를 한 단계 더 계층화한 논문입니다.
RT-2는 image와 language instruction을 입력받아 robot action token을 직접 출력합니다.
RT-2:
Image + Task Instruction → Action Tokens
RT-H는 이 구조가 너무 flat하다고 봅니다.
고수준 task instruction과 low-level action 사이에는 공유 가능한 중간 motion structure가 존재하는데, RT-2처럼 바로 action을 예측하면 이 구조를 충분히 활용하기 어렵다는 문제의식입니다.
RT-H는 이를 해결하기 위해 language motion이라는 중간 표현을 도입합니다.
RT-H:
Image + Task Instruction
→ Language Motion
→ Action Tokens
여기서 language motion은 다음과 같은 세부 움직임을 자연어로 표현한 것입니다.
"move arm forward"
"rotate arm right"
"move arm down"
"close gripper"
즉, RT-H는 high-level task와 low-level action 사이에 언어로 된 intermediate action representation을 둡니다.
한 문장으로 정리하면 다음과 같습니다.
RT-H는 고수준 task instruction과 low-level robot action 사이에 language motion을 중간 계층으로 두어, 다양한 task 간 공유 가능한 motion structure를 학습하고 human language correction까지 가능하게 만든 VLA 계층화 논문이다.
내가 보기에는 RT-H의 핵심은 단순히 성능 향상이 아닙니다.
더 중요한 점은 VLA의 action output을 어떻게 구조화할 것인가에 대한 하나의 답을 제시했다는 것입니다.
2. Background and Motivation
2.1 Language-conditioned policy의 기본 구조
RT-1, RT-2, OpenVLA 같은 모델들은 대부분 language-conditioned policy 형태를 가집니다.
Observation + Language Instruction → Action
이 구조는 매우 강력합니다.
예를 들어 로봇에게 다음과 같이 말할 수 있습니다.
"pick up the coke can"
"open the drawer"
"move the bowl to the left"
모델은 image observation과 task instruction을 보고 action을 출력합니다.
이 접근의 장점은 명확합니다.
- 자연어로 task를 지정할 수 있다.
- 비슷한 task 사이에서 language structure를 공유할 수 있다.
- multi-task dataset을 하나의 policy로 학습할 수 있다.
예를 들어 “pick coke can”과 “pick apple”은 object는 다르지만 task structure는 유사합니다.
pick coke can
pick apple
pick sponge
모두 “pick”이라는 language structure를 공유합니다.
2.2 Flat policy의 한계
하지만 task가 더 다양해지면 문제가 생깁니다.
예를 들어 다음 두 task를 생각해보겠습니다.
"pick coke can"
"pour cup"
이 두 task는 고수준 language만 보면 매우 다릅니다.
하지만 실제 low-level motion으로 내려가면 일부 단계는 공유될 수 있습니다.
예를 들어 두 task 모두 초반에는 다음과 같은 motion이 필요할 수 있습니다.
move arm forward
move arm down
grasp object
move arm up
즉, high-level task language는 달라도, low-level motion structure는 공유될 수 있습니다.
RT-H의 문제의식은 여기에 있습니다.
고수준 task description만으로는 서로 다른 task 사이의 low-level motion similarity를 충분히 표현하기 어렵다.
RT-2처럼 바로 action을 예측하면 다음 mapping을 학습해야 합니다.
High-level task + image → Low-level action
하지만 task가 다양해질수록 이 mapping은 어려워집니다.
RT-H는 이 사이에 중간 표현을 넣습니다.
High-level task + image
→ Language motion
→ Low-level action
이렇게 하면 서로 다른 task라도 같은 language motion을 공유할 수 있습니다.
2.3 왜 Language Motion인가?
RT-H가 중간 표현으로 discrete skill ID나 latent vector가 아니라 language를 사용하는 이유가 중요합니다.
중간 표현으로는 여러 선택지가 있을 수 있습니다.
- learned latent skill
- discrete cluster ID
- one-hot skill label
- manually defined primitive
- language motion
RT-H는 language motion을 선택합니다.
그 이유는 다음과 같습니다.
1. 사람에게 해석 가능하다.
2. task 간 공유 구조를 표현하기 쉽다.
3. 사람이 실행 중 correction을 줄 수 있다.
4. RT-2 같은 VLM/VLA와 자연스럽게 결합된다.
5. language pretraining의 prior를 활용할 수 있다.
예를 들어 로봇이 잘못 움직이고 있을 때, 사람이 다음처럼 correction을 줄 수 있습니다.
"move arm left"
"move arm forward more"
"close gripper"
"move down"
이 correction은 low-level teleoperation보다 훨씬 직관적입니다.
RT-H는 이 점을 활용해 language motion correction을 robot learning에 포함합니다.
3. Problem Formulation
3.1 Task Definition
RT-H가 다루는 task는 language-conditioned robot manipulation입니다.
모델은 visual observation과 high-level task instruction을 입력으로 받습니다.
Input:
- visual observation
- high-level task instruction
그리고 두 단계로 출력을 생성합니다.
Output:
1. language motion
2. low-level robot action
이를 policy 형태로 단순화하면 다음과 같습니다.
High-level policy:
π_h(z_t | o_t, l)
Low-level policy:
π_l(a_t | o_t, l, z_t)
여기서:
o_t: visual observation
l: high-level task instruction
z_t: language motion
a_t: low-level robot action
RT-H의 전체 policy는 두 policy의 composition으로 볼 수 있습니다.
π(a_t | o_t, l)
=
π_l(a_t | o_t, l, z_t),
where z_t ~ π_h(z_t | o_t, l)
즉, RT-H는 action을 직접 예측하는 flat policy가 아니라, intermediate language motion을 먼저 예측하고, 그 language motion에 condition하여 action을 예측하는 hierarchical policy입니다.
3.2 Input and Output
RT-H의 입력은 다음과 같습니다.
Input:
- image observation
- task language instruction
예를 들어:
Observation:
robot camera image
Task:
"close the pistachio jar"
RT-H는 먼저 language motion을 예측합니다.
Language Motion:
"move arm forward"
"rotate arm right"
"move arm down"
그 다음 language motion, task, observation을 함께 사용해 low-level action을 예측합니다.
Action:
robot arm displacement
rotation
gripper command
base movement
RT-H에서 중요한 점은 language motion이 fixed primitive가 아니라는 것입니다.
예를 들어 같은 “move arm forward”라도, 실제 action은 task와 scene에 따라 달라집니다.
"move arm forward" toward a coke can
"move arm forward" toward a drawer handle
"move arm forward" toward a bowl
같은 language motion이라도 visual context와 task에 따라 실제 movement vector는 달라집니다.
따라서 RT-H의 language motion은 단순한 hard-coded macro action이 아니라, contextual intermediate representation입니다.
3.3 Dataset / Supervision
RT-H는 expert demonstration dataset을 사용합니다.
각 demonstration은 다음을 포함합니다.
- visual observations
- high-level task description
- robot actions
- language motion labels
여기서 language motion label을 어떻게 얻는지가 중요합니다.
논문은 manual annotation 없이 robot proprioception에서 language motion을 자동으로 추출하는 방식을 사용합니다. 이를 통해 2500개 이상의 language motion library를 구성합니다.
즉, 사람이 모든 step에 대해 “move arm forward”, “rotate arm right” 같은 label을 붙이는 것이 아니라, robot state / action trajectory에서 motion pattern을 추출하고 이를 language motion으로 변환합니다.
이 점이 중요합니다.
Manual annotation:
expensive, hard to scale
Automated language motion extraction:
scalable, multi-task dataset에 적용 가능
RT-H가 language motion hierarchy를 scale할 수 있는 이유는 이 자동 labeling procedure에 있습니다.
3.4 Objective
RT-H의 학습 objective는 두 가지 query를 학습하는 것입니다.
1. Language motion query
2. Action query
Language motion query는 observation과 high-level task를 보고 현재 step의 language motion을 예측합니다.
Q: What skill should the robot do to [task]?
A: [language motion]
Action query는 observation, high-level task, predicted language motion을 보고 low-level action을 예측합니다.
Q: What action should the robot do to [task],
with current skill: [language motion]?
A: [action tokens]
즉, 학습 objective는 다음 두 예측 문제를 함께 푸는 것입니다.
Predict language motion:
p(z_t | o_t, l)
Predict action:
p(a_t | o_t, l, z_t)
RT-H는 RT-2와 마찬가지로 VLM 기반 sequence modeling framework를 사용합니다.
다만 RT-2가 바로 action token을 예측한다면, RT-H는 language motion을 중간에 둡니다.
4. Method
4.1 Overall Architecture
RT-H의 전체 구조는 다음과 같습니다.
Image Observation
+
High-level Task Instruction
↓
Language Motion Query
↓
Predicted Language Motion
↓
Action Query
↓
Robot Action Tokens

RT-H는 RT-2와 같은 PaLI-X 55B 기반 VLM architecture를 사용합니다.
이미지는 ViT encoder를 통해 token으로 변환되고, encoder-decoder transformer가 image token과 language token을 처리하여 language motion 또는 action token을 생성합니다.
중요한 점은 RT-H가 language motion query와 action query를 하나의 VLM으로 처리한다는 것입니다.
즉, 모델이 두 개로 완전히 분리되어 있는 것이 아니라, 동일한 VLM backbone이 다음 두 역할을 모두 수행합니다.
1. high-level task + image → language motion
2. high-level task + image + language motion → action
이 구조를 통해 RT-H는 internet-scale vision-language pretraining의 prior를 hierarchy의 모든 단계에서 활용할 수 있습니다.
4.2 Language Motion Query
Language motion query는 현재 observation과 task instruction을 기반으로, 지금 로봇이 수행해야 할 fine-grained motion을 예측합니다.
예를 들어:
Task:
"close the pistachio jar"
Observation:
robot arm near jar
Language Motion Query Output:
"move arm forward"
"rotate arm right"
이 query의 목적은 high-level task를 바로 action으로 바꾸기 전에, 현재 step에서 수행해야 할 motion concept을 language로 명시하는 것입니다.
이렇게 하면 서로 다른 task 사이에서도 공통 motion을 공유할 수 있습니다.
예를 들어:
"pick coke can"
"pour cup"
"move bowl"
이 세 task는 high-level semantic은 다르지만, 초반에는 모두 다음 motion을 공유할 수 있습니다.
move arm forward
move arm down
close gripper
RT-H는 이런 공유 구조를 language motion level에서 학습합니다.
4.3 Action Query
Action query는 predicted language motion을 조건으로 실제 robot action을 예측합니다.
Input:
- visual observation
- high-level task
- language motion
Output:
- low-level robot action
예를 들어:
Task:
"pick up the coke can"
Language Motion:
"move arm forward"
Observation:
coke can is slightly to the right
Action:
move end-effector forward and slightly right
여기서 중요한 점은 language motion이 action을 완전히 결정하지 않는다는 것입니다.
“move arm forward”라는 language motion은 대략적인 motion direction을 제공합니다.
하지만 정확히 어느 방향으로, 얼마나 빠르게, 얼마나 멀리 움직일지는 visual context와 task에 따라 달라집니다.
즉, RT-H의 action query는 다음을 함께 사용합니다.
language motion:
coarse action abstraction
visual observation:
exact spatial context
high-level task:
task-specific intent
이 조합이 RT-H의 핵심입니다.
4.4 Automated Language Motion Labeling
RT-H는 language motion label을 사람이 직접 붙이지 않습니다.
논문은 robot proprioception에서 language motion을 자동으로 추출하는 방식을 사용합니다.
예를 들어 robot action trajectory를 보면 다음과 같은 motion pattern을 알 수 있습니다.
- end-effector moves forward
- arm moves down
- gripper closes
- wrist rotates right
이를 language motion으로 변환합니다.
"move arm forward"
"move arm down"
"close gripper"
"rotate arm right"
이 automated labeling이 중요한 이유는 scale 때문입니다.
만약 모든 demonstration step마다 사람이 language motion을 annotating해야 한다면, 대규모 robot dataset에 적용하기 어렵습니다.
RT-H는 자동 labeling을 통해 multi-task dataset에서도 language motion hierarchy를 구성할 수 있게 합니다.
4.5 Human Language Motion Correction
RT-H의 또 다른 중요한 기능은 human intervention입니다.
RT-H는 action을 바로 고치는 것이 아니라, language motion을 고칠 수 있습니다.
예를 들어 로봇이 jar를 닫는 task에서 잘못된 방향으로 움직이면, 사람이 다음과 같이 말할 수 있습니다.
"move arm left"
"move arm forward"
"rotate arm right"
그러면 RT-H는 이 language motion correction을 받아 action query에서 다른 action을 생성합니다.
이 방식은 teleoperation correction보다 훨씬 직관적입니다.
Teleoperation correction:
사람이 직접 robot action을 조작해야 함
Language motion correction:
사람이 자연어로 motion direction을 알려줌
또한 RT-H는 이러한 language motion correction data로 fine-tuning할 수도 있습니다.
논문은 RT-H-Intervene이 language motion correction을 학습해 성능을 개선할 수 있음을 보입니다.
4.6 Relation to RT-2
RT-H는 RT-2와 밀접하게 연결됩니다.
RT-2는 flat model입니다.
RT-2:
Image + Task → Action
RT-H는 hierarchy를 추가합니다.
RT-H:
Image + Task → Language Motion → Action
즉, RT-H는 RT-2를 대체한다기보다, RT-2의 action generation 구조를 계층화한 모델로 보는 것이 적절합니다.
RT-2의 한계는 task와 action 사이에 중간 구조가 없다는 점입니다.
RT-H는 그 사이를 language motion으로 채웁니다.
5. Experiments
5.1 Experimental Setup
RT-H의 실험은 크게 네 가지 질문을 중심으로 구성됩니다.
Q1. Performance:
language motion hierarchy가 diverse multi-task dataset에서 policy 성능을 높이는가?
Q2. Contextuality:
RT-H가 학습한 language motion은 task와 scene context에 따라 달라지는가?
Q3. Corrections:
language motion correction으로 학습하는 것이 teleoperation correction보다 나은가?
Q4. Generalization:
RT-H는 scene, object, task variation에 더 robust한가?
이 네 질문은 RT-H의 핵심 주장을 잘 반영합니다.
RT-H는 단순히 benchmark success rate만 보는 것이 아니라, language motion이 실제로 다음을 가능하게 하는지 봅니다.
- diverse task 간 data sharing
- contextual action generation
- human correction
- generalization
5.2 Baselines
RT-H는 주로 RT-2와 비교됩니다.
RT-2는 flat VLA model입니다.
RT-2:
Image + Task → Action
RT-H는 hierarchy를 사용합니다.
RT-H:
Image + Task → Language Motion → Action
논문에서는 여러 RT-H variant도 비교합니다.
- RT-H
- RT-H-Joint
- RT-H-Cluster
- RT-H-OneHot
- RT-H + Human Intervention
- RT-H-Intervene
- RT-H-InterveneAction
- RT-2-IWR
각 variant의 의미는 다음과 같습니다.
RT-H:
language motion query와 action query를 분리한 기본 모델
RT-H-Joint:
language motion과 action을 더 joint하게 예측하는 variant
RT-H-Cluster:
language 대신 action clustering 기반 intermediate representation 사용
RT-H-OneHot:
language motion을 one-hot class label로 대체
RT-H + Human Intervention:
실행 중 사람이 language motion을 직접 correction
RT-H-Intervene:
language motion correction data로 fine-tuning
RT-2-IWR:
teleoperation correction data로 학습한 RT-2 interactive baseline
이 baseline 구성이 중요한 이유는, RT-H의 성능 향상이 단순히 hierarchy 때문인지, language라는 표현 때문인지, correction interface 때문인지 분리해서 보기 위함입니다.
5.3 Main Results
RT-H는 diverse multi-task dataset에서 RT-2보다 좋은 성능을 보입니다.
논문에 따르면 RT-H는 Diverse+Kitchen dataset에서 학습했을 때 8개의 selected task에 대해 RT-2보다 평균 15% 높은 on-robot performance를 보였습니다.
또한 RT-2는 8개 task 중 4개 task에서만 nonzero performance를 보였지만, RT-H는 6개 task에서 nonzero performance를 보였습니다. RT-H-Joint는 모든 task에서 nonzero performance를 보였습니다.
이 결과는 다음을 시사합니다.
language motion hierarchy는 diverse task를 하나의 policy가 학습할 때 task 간 shared motion structure를 더 잘 활용하게 해준다.

Offline action prediction에서도 RT-H는 RT-2보다 낮은 MSE를 보였습니다. 논문은 RT-H가 RT-2보다 roughly 20% lower MSE를 보였다고 보고합니다.
이 결과는 language motion이 action prediction에 유용한 intermediate signal이라는 점을 뒷받침합니다.
5.4 Contextuality and Flexibility
RT-H에서 중요한 점은 language motion이 단순한 fixed primitive가 아니라는 것입니다.
예를 들어 같은 language motion인 “move arm forward”라도, 실제 action은 task와 scene에 따라 달라집니다.
Task A:
move arm forward toward napkin dispenser
Task B:
move arm forward toward jar
Task C:
move arm forward toward object handle
RT-H는 같은 language motion을 사용하더라도, visual context와 high-level task에 맞게 action을 다르게 생성합니다.
이 점이 중요합니다.
만약 language motion이 단순한 hard-coded primitive라면 유연성이 떨어질 것입니다.
하지만 RT-H의 language motion은 VLM을 통해 context-aware하게 해석됩니다.
논문은 RT-H가 out-of-distribution language motion에도 어느 정도 반응할 수 있음을 보여줍니다. 예를 들어 특정 task에서 training 중 보지 못한 language motion correction을 주더라도, RT-H가 이를 scene context에 맞춰 action으로 변환할 수 있음을 qualitative하게 보입니다.
5.5 Human Intervention and Correction Learning
RT-H의 가장 흥미로운 실험 중 하나는 language motion correction입니다.
RT-H는 실행 중 사람이 language motion을 수정할 수 있습니다.
Original predicted motion:
"move arm forward"
Human correction:
"move arm left"
이 correction은 action query에 들어가고, 모델은 새로운 action을 생성합니다.
논문에서는 8개 task에 대해 language motion correction data를 수집합니다. 각 task마다 30개 episodes의 language motion correction을 수집하고, 이를 이용해 RT-H-Intervene을 fine-tuning합니다.
결과적으로 RT-H-Intervene은 RT-H보다 성능이 개선되며, teleoperation-based intervention으로 학습한 RT-2-IWR보다 좋은 성능을 보입니다.
논문은 RT-H-Intervene이 RT-2-IWR보다 50% 높은 성능을 보인다고 보고합니다.

이 결과가 중요한 이유는 다음입니다.
teleoperation correction:
low-level action space에서 사람이 직접 개입
language motion correction:
intermediate language space에서 사람이 개입
language motion correction은 더 직관적이고, sample-efficient하며, base policy의 action distribution을 크게 벗어나지 않을 가능성이 있습니다.
이 점은 human-in-the-loop robot learning에서 매우 중요한 장점입니다.
5.6 Generalization
RT-H는 scene, object, task variation에 대한 generalization도 평가합니다.
논문은 다음 세 가지 generalization을 다룹니다.
1. New scenes
2. Novel objects
3. Novel tasks with limited corrections
New scene generalization에서는 기존 training environment와 다른 building, lighting, background, floor에서 평가합니다. RT-H와 RT-H-Joint는 RT-2보다 더 robust한 성능을 보입니다.
Novel object generalization에서는 training에 없던 pear, coconut water, oreos 같은 object로 pick / move task를 평가합니다. 논문은 50개 scenario에서 RT-H가 평균 65%, RT-2가 평균 55%를 기록했다고 보고합니다.
Novel task에서는 zero-shot success가 어렵지만, RT-H가 몇 번의 well-timed language motion correction으로 task를 완료할 수 있음을 qualitative하게 보입니다.
이 결과는 language motion hierarchy가 새로운 scene과 object에 대한 generalization에 도움을 줄 수 있음을 보여줍니다.
5.7 Failure Cases
RT-H는 중요한 장점을 보여주지만, 한계도 분명합니다.
가능한 failure case는 다음과 같습니다.
1. language motion prediction이 틀리면 action query도 잘못된 방향으로 갈 수 있다.
2. fine-grained manipulation이 필요한 task에서는 여전히 실패할 수 있다.
3. language motion label이 자동 추출되기 때문에 label noise가 있을 수 있다.
4. language motion vocabulary가 충분하지 않으면 복잡한 motion을 표현하기 어렵다.
5. correction이 가능하더라도 매번 사람이 개입해야 하면 scalable하지 않을 수 있다.
6. low-level action feasibility나 safety를 명시적으로 보장하는 구조는 아니다.
특히 중요한 점은 RT-H가 hierarchy를 도입했지만, 여전히 imitation learning 기반 policy라는 점입니다.
즉, RT-H도 학습 데이터 distribution을 크게 벗어난 physical skill을 완전히 새로 만들어내지는 못합니다.
6. Contributions
내가 보는 RT-H의 핵심 contribution은 네 가지입니다.
6.1 VLA에 language-based action hierarchy를 도입했다
RT-H의 가장 중요한 contribution은 고수준 task와 low-level action 사이에 language motion이라는 중간 계층을 도입했다는 점입니다.
RT-2:
Task → Action
RT-H:
Task → Language Motion → Action
이 구조는 VLA가 항상 바로 action을 출력해야 하는 것은 아니라는 점을 보여줍니다.
6.2 Language motion으로 task 간 shared structure를 학습했다
RT-H는 서로 다른 high-level task 사이에서도 low-level motion structure는 공유될 수 있다는 점에 주목합니다.
예를 들어 다음 task들은 semantic level에서는 다르지만, 일부 motion은 공유합니다.
pick coke can
pour cup
move bowl
close jar
RT-H는 language motion을 통해 이런 shared structure를 학습합니다.
이것은 diverse multi-task dataset에서 중요한 장점입니다.
6.3 Human language correction을 가능하게 했다
RT-H는 사람이 실행 중 language motion을 수정할 수 있게 합니다.
"move arm left"
"close gripper"
"move down"
이는 teleoperation보다 훨씬 직관적인 correction interface입니다.
또한 RT-H는 이러한 correction data로 fine-tuning할 수 있고, teleoperation intervention보다 sample-efficient한 학습을 보입니다.
6.4 자율주행 Behavior Planning과 연결 가능한 구조를 제시했다
RT-H는 manipulation robotics 논문이지만, 자율주행 관점에서도 매우 흥미롭습니다.
왜냐하면 자율주행에서도 high-level instruction과 low-level trajectory 사이에 intermediate behavior abstraction이 필요하기 때문입니다.
Driving Goal
→ Behavior / Maneuver
→ Trajectory
→ Control
RT-H의 language motion은 자율주행에서 behavior language 또는 maneuver language로 대응될 수 있습니다.
7. Limitations and Discussion
7.1 Language motion은 여전히 사람이 이해하기 쉬운 abstraction일 뿐이다
RT-H는 language motion을 사용하지만, language motion이 항상 정확한 control abstraction인 것은 아닙니다.
예를 들어 “move arm forward”라는 표현은 상황에 따라 매우 다르게 해석될 수 있습니다.
- 얼마나 forward인가?
- 어떤 속도로 움직이는가?
- 어떤 object를 향하는가?
- collision risk는 없는가?
이 정보는 language motion만으로는 부족하고, visual context와 action query가 함께 해석해야 합니다.
즉, language motion은 해석 가능한 중간 표현이지만, low-level control을 완전히 결정하지는 않습니다.
7.2 Automated labeling의 품질 문제가 있을 수 있다
RT-H는 language motion label을 자동으로 추출합니다.
이 방식은 scale에는 유리하지만, label quality 문제가 있을 수 있습니다.
예를 들어 실제 motion은 복합적인데, 단순한 language motion으로 표현될 수 있습니다.
actual motion:
move forward + slightly right + down
language motion:
move arm forward
이런 단순화가 너무 심하면 action query가 필요한 정보를 충분히 얻지 못할 수 있습니다.
7.3 Hierarchy가 항상 좋은 것은 아닐 수 있다
RT-H는 hierarchy를 통해 성능을 개선하지만, 모든 상황에서 hierarchy가 flat model보다 좋은 것은 아닐 수 있습니다.
단순한 task에서는 중간 language motion 예측이 오히려 불필요한 error source가 될 수 있습니다.
Task → Language Motion → Action
이 구조에서는 language motion prediction이 틀리면 action도 영향을 받습니다.
따라서 hierarchy의 장점은 task diversity와 complexity가 충분히 큰 경우에 더 두드러질 가능성이 있습니다.
7.4 실시간성과 모델 규모 문제
RT-H는 RT-2와 유사하게 large VLM backbone을 사용합니다.
이런 모델은 강력하지만, 실제 robot control에서 inference latency와 deployment cost가 문제될 수 있습니다.
특히 RT-H는 language motion query와 action query를 모두 수행해야 하므로, flat model보다 inference cost가 증가할 가능성이 있습니다.
실제 deployment에서는 다음 문제가 중요합니다.
- inference frequency
- latency
- onboard deployment
- model compression
- distillation
- fallback policy
8. Connection to Autonomous Driving / Motion Planning
RT-H는 자율주행 Motion Planning 관점에서 매우 흥미로운 논문입니다.
왜냐하면 자율주행도 고수준 command에서 바로 low-level control로 가는 것이 아니라, 여러 계층을 거치기 때문입니다.
일반적인 자율주행 stack은 다음과 같이 볼 수 있습니다.
Route / Mission
→ Behavior Planning
→ Motion Planning
→ Control
RT-H의 구조와 대응시키면 다음과 같습니다.
RT-H:
Task Instruction
→ Language Motion
→ Robot Action
Autonomous Driving:
Route / Goal / Scene
→ Behavior / Maneuver Language
→ Trajectory / Control
즉, RT-H는 VLA를 자율주행에 적용할 때 중요한 힌트를 줍니다.
Driving VLA도 바로 steering / throttle / brake를 출력하기보다, 중간에 behavior language나 maneuver abstraction을 두는 것이 더 현실적일 수 있다.
8.1 자율주행에서 Language Motion은 무엇에 해당할까?
로봇 manipulation에서 language motion은 다음과 같습니다.
move arm forward
rotate arm right
close gripper
자율주행에서 이에 해당하는 표현은 behavior language 또는 maneuver language일 수 있습니다.
예를 들어:
slow down
keep lane
prepare to yield
change lane left
follow front vehicle
stop before crosswalk
increase lateral margin
creep forward slowly
이런 표현은 low-level trajectory보다 더 추상적이지만, high-level route command보다는 더 구체적입니다.
즉, 자율주행에서 language motion은 다음 계층에 위치할 수 있습니다.
Route Command:
"turn right at the next intersection"
Behavior Language:
"slow down and yield to pedestrian"
Motion Plan:
specific trajectory with x, y, yaw, v, a
이 구조는 RT-H와 매우 유사합니다.
8.2 Behavior Planning과 Motion Planning 사이의 인터페이스
자율주행에서 Behavior Planning과 Motion Planning 사이의 인터페이스는 항상 중요합니다.
Behavior Planner는 보통 다음과 같은 결정을 합니다.
- stop
- yield
- follow
- lane change
- overtake
- merge
Motion Planner는 이를 받아 구체적인 trajectory를 생성합니다.
- target speed profile
- lateral offset
- stopping point
- curvature
- acceleration / jerk
- collision-free path
RT-H의 관점으로 보면, behavior decision을 language-like intermediate action으로 표현할 수 있습니다.
Scene + Route
→ Behavior Language
→ Trajectory
이 구조는 VLA를 자율주행 stack에 넣는 현실적인 방법일 수 있습니다.
VLA가 직접 trajectory를 출력하는 대신, 다음을 생성하게 하는 것입니다.
- maneuver
- target lane
- target speed
- yield decision
- caution area
- safety margin
- planner constraint
이후 기존 motion planner나 optimization-based planner가 safety와 feasibility를 만족하는 trajectory를 생성합니다.
8.3 Human Intervention 관점
RT-H의 human language correction은 자율주행에서도 흥미롭습니다.
자율주행 개발 과정에서는 planner의 decision을 사람이 수정하거나 평가하는 일이 많습니다.
예를 들어:
"이 상황에서는 더 일찍 감속해야 한다."
"우측 차량 때문에 차선 변경을 보류해야 한다."
"횡단보도 앞에서 더 큰 margin을 둬야 한다."
"정차 차량 옆을 지날 때 lateral distance를 더 확보해야 한다."
이런 correction은 low-level trajectory point를 직접 수정하는 것보다 language-level behavior correction에 가깝습니다.
RT-H의 아이디어를 자율주행에 적용하면, human feedback을 다음 형태로 수집할 수 있을 것 같습니다.
Scene:
driving scenario
Model behavior:
generated maneuver / trajectory
Human correction:
"slow down earlier"
"yield to the pedestrian"
"do not change lane yet"
"keep larger distance from parked vehicle"
이런 correction을 학습하면 behavior planner 또는 VLA-based planner를 더 효율적으로 개선할 수 있을 가능성이 있습니다.
8.4 Cost / Constraint Generation과의 연결
내가 생각하는 가장 현실적인 자율주행 적용 방향은 다음입니다.
VLA / RT-H style model:
scene reasoning + behavior language prediction
Motion Planner:
cost / constraint based trajectory generation
예를 들어 VLA가 다음 behavior language를 출력한다고 합시다.
"slow down and prepare to yield"
이를 planner constraint로 바꾸면 다음과 같습니다.
target_speed ↓
yield_constraint = true
pedestrian_safety_margin ↑
longitudinal_cost_weight ↑
또 다른 예시:
"keep larger lateral distance from parked vehicle"
이는 다음으로 변환될 수 있습니다.
lateral_offset constraint
obstacle safety margin increase
side clearance cost increase
즉, RT-H식 hierarchy는 자율주행에서 다음 구조로 확장될 수 있습니다.
Scene + Route
→ Behavior Language
→ Planner Cost / Constraint
→ Feasible Trajectory
이 구조가 바로 “VLA가 Motion Planner를 대체하기보다 보조한다”는 관점과 잘 맞습니다.
8.5 World Model과의 연결
RT-H는 직접적으로 World Model 논문은 아닙니다.
하지만 자율주행에서는 language hierarchy가 future reasoning과 결합될 가능성이 큽니다.
예를 들어:
Scene:
bus stopped near crosswalk
World Model:
pedestrian may appear from occlusion
Behavior Language:
slow down and increase caution
Motion Planner:
generate low-speed trajectory with larger safety margin
여기서 World Model은 미래를 예측하고, RT-H style behavior language는 그 미래에 대한 대응 전략을 표현할 수 있습니다.
따라서 자율주행 foundation model은 다음과 같은 구조가 될 수 있습니다.
VLM / VLA:
scene understanding
World Model:
future rollout / interaction prediction
Language Hierarchy:
behavior abstraction
Motion Planner:
constrained trajectory generation
RT-H는 이 중 language hierarchy의 가능성을 보여주는 논문이라고 볼 수 있습니다.
9. Takeaways and Next Questions
9.1 Takeaways
RT-H를 읽고 정리한 핵심 takeaway는 다음과 같습니다.
첫째, RT-H는 VLA가 반드시 high-level task에서 바로 low-level action을 출력할 필요는 없다는 점을 보여줍니다. 중간에 language motion을 두면 더 robust하고 flexible한 policy가 될 수 있습니다.
둘째, language motion은 서로 다른 task 사이의 shared low-level structure를 표현할 수 있습니다. 이는 diverse multi-task dataset을 학습할 때 중요합니다.
셋째, language motion은 사람이 이해할 수 있는 intermediate representation이기 때문에, human intervention과 correction에 적합합니다.
넷째, RT-H는 RT-2보다 다양한 multi-task setting에서 더 좋은 성능을 보였고, scene/object variation에서도 더 robust한 결과를 보였습니다.
다섯째, 자율주행 관점에서 RT-H는 behavior planning과 motion planning 사이에 language-based intermediate representation을 둘 수 있다는 힌트를 줍니다.
9.2 Next Questions
RT-H 이후 계속 가져가고 싶은 질문은 다음과 같습니다.
1. 자율주행에서 language motion에 해당하는 표현은 무엇일까?
- maneuver?
- behavior?
- cost?
- constraint?
- target speed / target lane?
2. VLA가 직접 trajectory를 출력하는 것보다 behavior language를 출력하는 것이 더 안전할까?
3. Behavior language를 motion planner의 cost / constraint로 변환하는 방법은 무엇일까?
4. Human language correction을 자율주행 planner 학습에 활용할 수 있을까?
5. Language-based hierarchy는 closed-loop driving에서 안정성을 높일 수 있을까?
6. World Model의 future prediction과 behavior language를 어떻게 결합할 수 있을까?
7. RT-H style hierarchy를 OpenDriveVLA나 DriveLM 같은 driving VLA 모델에 적용할 수 있을까?
10. Conclusion
RT-H는 RT-2 이후 VLA 연구에서 매우 중요한 방향을 보여주는 논문입니다.
RT-2가 VLM을 robot action policy로 확장했다면, RT-H는 그 action generation을 더 구조화합니다.
RT-2:
Task → Action
RT-H:
Task → Language Motion → Action
이 구조의 장점은 세 가지입니다.
1. 다양한 task 사이의 shared motion structure를 학습할 수 있다.
2. language motion을 통해 사람이 이해하고 수정할 수 있다.
3. language correction을 학습 데이터로 활용할 수 있다.
내가 이 논문에서 가장 중요하게 본 것은 다음입니다.
VLA가 action을 출력할 때, 바로 low-level action으로 가는 것이 아니라 language-based intermediate action abstraction을 둘 수 있다.
이 관점은 자율주행에 매우 중요합니다.
자율주행에서 VLA가 바로 steering, throttle, brake 또는 full trajectory를 출력하는 것은 여전히 위험하고 검증이 어렵습니다. 하지만 VLA가 behavior language, maneuver decision, cost / constraint를 출력하고, 기존 motion planner가 이를 기반으로 safe trajectory를 생성하는 구조는 훨씬 현실적으로 보입니다.
따라서 RT-H는 manipulation robotics 논문이지만, 자율주행 Motion Planning 관점에서도 중요한 질문을 남깁니다.
자율주행 VLA는 바로 trajectory를 생성해야 할까?
아니면 behavior language를 먼저 만들고, 이를 motion planner가 해석하는 구조가 더 좋을까?
내 현재 생각은 후자에 가깝습니다.
RT-H는 이 방향을 고민하는 데 좋은 기준점이 되는 논문입니다.
11. Next Paper
RT-H 다음에는 아래 논문들을 이어서 읽으면 좋을 것 같습니다.
1. OpenVLA: An Open-Source Vision-Language-Action Model
RT-2 계열 VLA를 open-source로 확장한 대표적인 논문입니다.
RT-H가 hierarchy를 다뤘다면, OpenVLA는 공개 모델과 fine-tuning 가능성 관점에서 읽기 좋습니다.
2. Octo: An Open-Source Generalist Robot Policy
Open X-Embodiment dataset 기반 generalist robot policy입니다.
VLA라기보다는 open-source generalist robot policy 관점에서 볼 수 있습니다.
3. DriveLM: Driving with Graph Visual Question Answering
자율주행에서 VLM을 reasoning module로 활용하는 논문입니다.
RT-H의 language hierarchy를 driving reasoning과 연결해서 생각해보기 좋습니다.
4. GPT-Driver: Learning to Drive with GPT
Motion Planning을 language modeling 문제로 바꾸는 논문입니다.
RT-H의 language intermediate representation과 비교해서 읽기 좋습니다.
5. OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model
명시적인 VLA for autonomous driving 논문입니다.
RT-H의 hierarchy 아이디어가 driving VLA에서 어떻게 활용될 수 있을지 비교해볼 수 있습니다.
References
Main Paper
- RT-H: Action Hierarchies Using Language - arXiv
- RT-H PDF - arXiv
- RT-H HTML - arXiv
- RT-H - RSS 2024
- RT-H Project Page
Related Papers
- RT-1: Robotics Transformer for Real-World Control at Scale
- RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- Open X-Embodiment: Robotic Learning Datasets and RT-X Models
- OpenVLA: An Open-Source Vision-Language-Action Model
- DriveLM: Driving with Graph Visual Question Answering
- GPT-Driver: Learning to Drive with GPT
Related Posts
- RT-1 논문 리뷰: Robotics Transformer for Real-World Control at Scale
- RT-2 논문 리뷰: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- Open X-Embodiment 논문 리뷰: Robotic Learning Datasets and RT-X Models
- DriveLM 논문 리뷰: Driving with Graph Visual Question Answering
- [작성 예정] OpenVLA 논문 리뷰: 오픈소스 VLA의 의미
- [작성 예정] GPT-Driver 논문 리뷰: Motion Planning을 Language Modeling으로 바꾸기
'논문 리뷰 ( Paper Review) > [VLA] Vision Language Action' 카테고리의 다른 글
| [논문 리뷰] GPT-Driver: Learning to Drive with GPT (0) | 2026.05.29 |
|---|---|
| [논문 리뷰] Open X-Embodiment: Robotic Learning Datasets and RT-X Models (0) | 2026.05.28 |
| [논문 리뷰] DriveLM: Driving with Graph Visual Question Answering (0) | 2026.05.28 |