To the Next Clever Move

Motion Planning · VLA · World Model — 자율주행 연구 노트

To the Next Clever Move

2026/05/25 3

[공부 로드맵] RT-1/RT-2 이후 VLA 연구 흐름 정리

Robotics VLA에서 Autonomous Driving VLA까지RT-1과 RT-2를 읽고 나니, 자연스럽게 다음 질문이 생겼다.RT-1/RT-2 이후 VLA 연구는 어떤 방향으로 발전했을까?그리고 이 흐름이 자율주행 분야에도 연결되고 있을까? RT-1은 대규모 real-world robot demonstration을 기반으로, 이미지와 자연어 명령을 입력받아 robot action을 출력하는 language-conditioned robot policy를 제안했다. RT-2는 여기서 한 단계 더 나아가, Vision-Language Model, VLM을 실제 robot action까지 출력하는 Vision-Language-Action, VLA 모델로 확장했다.내가 이해한 RT-1/RT-2의 핵심 흐..

공부 로드맵 2026.05.25

[논문 리뷰] Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail

자율주행 VLA는 어떻게 Reasoning과 Trajectory Planning을 연결하는가?본 포스팅은 NVIDIA의 Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail 논문을 읽고 정리한 글입니다.Alpamayo-R1은 자율주행을 위한 Vision-Language-Action, VLA 모델입니다. 기존 End-to-End Driving 모델이 imitation learning과 데이터 스케일링을 통해 발전했지만, long-tail safety-critical scenario에서는 여전히 취약하다는 문제의식에서 출발합니다. 이 논문은 단순히 trajectory를 ..

[논문 리뷰] RT-1: Robotics Transformer for Real-World Control at Scale

RT-2 이전, Robot Policy Transformer는 어떻게 만들어졌는가?본 포스팅은 Google Research의 RT-1: Robotics Transformer for Real-World Control at Scale 논문을 읽고 정리한 글입니다.RT-1은 RT-2 이전에 발표된 robotics transformer 계열 논문으로, 이미지와 자연어 명령을 입력받아 실제 로봇 action을 출력하는 multi-task robot policy를 제안합니다. 이 글에서는 RT-1의 데이터 구축 방식, 모델 구조, action representation, 실험 결과, 한계, 그리고 자율주행 Motion Planning 관점에서의 의미를 정리합니다.Paper LinksTypeLinkPaperarXiv..