To the Next Clever Move

Motion Planning · VLA · World Model — 자율주행 연구 노트

To the Next Clever Move

RT-2 4

[논문 리뷰] RT-H: Action Hierarchies Using Language

VLA는 바로 Action을 출력해야 할까, 아니면 중간에 Language Motion이 필요할까?본 포스팅은 RT-H: Action Hierarchies Using Language 논문을 읽고 정리한 글입니다.RT-1은 이미지와 자연어 명령을 입력받아 robot action을 출력하는 language-conditioned robot policy를 제안했고, RT-2는 Vision-Language Model, VLM을 robot action까지 출력하는 Vision-Language-Action, VLA 모델로 확장했습니다.그런데 RT-1과 RT-2를 읽고 나면 자연스럽게 이런 질문이 생깁니다.고수준 task instruction에서 바로 low-level robot action을 예측하는 것이 정말 좋은..

[공부 로드맵] RT-1/RT-2 이후 VLA 연구 흐름 정리

Robotics VLA에서 Autonomous Driving VLA까지RT-1과 RT-2를 읽고 나니, 자연스럽게 다음 질문이 생겼다.RT-1/RT-2 이후 VLA 연구는 어떤 방향으로 발전했을까?그리고 이 흐름이 자율주행 분야에도 연결되고 있을까? RT-1은 대규모 real-world robot demonstration을 기반으로, 이미지와 자연어 명령을 입력받아 robot action을 출력하는 language-conditioned robot policy를 제안했다. RT-2는 여기서 한 단계 더 나아가, Vision-Language Model, VLM을 실제 robot action까지 출력하는 Vision-Language-Action, VLA 모델로 확장했다.내가 이해한 RT-1/RT-2의 핵심 흐..

공부 로드맵 2026.05.25

[논문 리뷰] RT-1: Robotics Transformer for Real-World Control at Scale

RT-2 이전, Robot Policy Transformer는 어떻게 만들어졌는가?본 포스팅은 Google Research의 RT-1: Robotics Transformer for Real-World Control at Scale 논문을 읽고 정리한 글입니다.RT-1은 RT-2 이전에 발표된 robotics transformer 계열 논문으로, 이미지와 자연어 명령을 입력받아 실제 로봇 action을 출력하는 multi-task robot policy를 제안합니다. 이 글에서는 RT-1의 데이터 구축 방식, 모델 구조, action representation, 실험 결과, 한계, 그리고 자율주행 Motion Planning 관점에서의 의미를 정리합니다.Paper LinksTypeLinkPaperarXiv..

[논문 리뷰] RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

VLM은 어떻게 Robot Policy가 되는가?0. Paper InformationTitleRT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic ControlAuthorsBrianna Zitkovich, Tianhe Yu, Sichun Xu, Peng Xu, Ted Xiao, Fei Xia, Jialin Wu, Paul Wohlhart, Stefan Welker, Ayzaan Wahid, Quan Vuong, Vincent Vanhoucke, Huong Tran, Radu Soricut, Anikait Singh, Jaspiar Singh, Pierre Sermanet, Pannag Sanketi, Grecia Salazar, Mi..