To the Next Clever Move

Motion Planning · VLA · World Model — 자율주행 연구 노트

To the Next Clever Move

2026/05 10

모션 플래닝(Motion Planning)이란? — 자율주행 Planning 입문

Motion Planning은 자율주행 차량이 앞으로 어떻게 움직일지 결정하는 기술입니다.Motion Planning의 역할주행 중에는 다음과 같은 요소를 함께 고려해야 합니다.고려 요소Description안전주변 차량, 보행자, 장애물과 충돌하지 않아야 함교통 규칙차선, 신호, 제한 속도 등을 지켜야 함차량 제약실제 차량이 따라갈 수 있는 움직임이어야 함승차감급가속, 급제동, 급조향을 피해야 함즉, Motion Planning은안전하면서도 실제 차량이 수행 가능한 움직임을 만드는 문제입니다.Motion Planning의 입력과 출력입력예시현재 차량 상태위치, 속도, 방향도로 정보차선, 도로 경계, 신호주변 객체차량, 보행자, 장애물예측 정보주변 객체가 앞으로 움직일 경로주행 의도차선 유지, 차선 변경,..

개념 정리 2026.05.30

[논문 리뷰] GPT-Driver: Learning to Drive with GPT

Motion Planning을 Language Modeling으로 바꿀 수 있는가?본 포스팅은 GPT-Driver: Learning to Drive with GPT 논문을 읽고 정리한 글입니다.PaLM-E를 읽고 나면 LLM이 physical observation을 어떻게 받아들일 수 있는지에 대한 감을 잡을 수 있습니다. PaLM-E는 image, robot state, scene representation을 language model의 입력 공간으로 가져오면서, LLM을 embodied reasoning model로 확장하려는 시도였습니다.그 다음 질문은 자연스럽게 자율주행으로 이어집니다.LLM이 physical scene을 이해할 수 있다면, 자율주행 Motion Planning도 language ..

[논문 리뷰] PaLM-E: An Embodied Multimodal Language Model

LLM은 어떻게 물리 세계에 Grounding되는가?본 포스팅은 PaLM-E: An Embodied Multimodal Language Model 논문을 읽고 정리한 글입니다.RT-1과 RT-2를 읽고 나면 자연스럽게 다음 질문이 생깁니다.Vision-Language Model이 robot action을 출력하려면, 그 전에 language model은 물리 세계를 어떻게 이해해야 할까?RT-1은 대규모 robot demonstration을 이용해 real-world robot policy를 학습하는 방향을 보여줬고, RT-2는 web-scale vision-language knowledge를 robot action으로 transfer할 수 있다는 가능성을 보여줬습니다.그런데 RT-2를 제대로 이해하려면..

[논문 리뷰] RT-H: Action Hierarchies Using Language

VLA는 바로 Action을 출력해야 할까, 아니면 중간에 Language Motion이 필요할까?본 포스팅은 RT-H: Action Hierarchies Using Language 논문을 읽고 정리한 글입니다.RT-1은 이미지와 자연어 명령을 입력받아 robot action을 출력하는 language-conditioned robot policy를 제안했고, RT-2는 Vision-Language Model, VLM을 robot action까지 출력하는 Vision-Language-Action, VLA 모델로 확장했습니다.그런데 RT-1과 RT-2를 읽고 나면 자연스럽게 이런 질문이 생깁니다.고수준 task instruction에서 바로 low-level robot action을 예측하는 것이 정말 좋은..

[논문 리뷰] Open X-Embodiment: Robotic Learning Datasets and RT-X Models

로봇 학습에서도 Foundation Model을 위한 공통 데이터셋이 가능할까?본 포스팅은 Open X-Embodiment: Robotic Learning Datasets and RT-X Models 논문을 읽고 정리한 글입니다.RT-1과 RT-2를 읽고 나면 자연스럽게 다음 질문이 생깁니다.RT-1/RT-2는 강력하지만, 특정 로봇과 특정 데이터 분포에 너무 의존하는 것은 아닐까?여러 기관, 여러 로봇, 여러 task에서 수집한 데이터를 하나로 모으면 더 general한 robot policy를 만들 수 있을까?Open X-Embodiment는 이 질문에 답하려는 논문입니다.RT-1이 하나의 robot fleet에서 수집한 대규모 real-world data로 multi-task robot policy..

[논문 리뷰] DriveLM: Driving with Graph Visual Question Answering

자율주행에서 VLM은 어떻게 Perception, Prediction, Planning을 연결하는가?본 포스팅은 DriveLM: Driving with Graph Visual Question Answering 논문을 읽고 정리한 글입니다.RT-1과 RT-2를 읽으면서 VLA의 기본 흐름을 먼저 봤다면, DriveLM은 그 흐름이 자율주행으로 넘어왔을 때 어떤 형태로 변형되는지를 보여주는 논문이라고 볼 수 있습니다.RT-2가 로봇 manipulation에서 Vision-Language Model을 action-generating policy로 확장하려 했다면, DriveLM은 자율주행에서 VLM이 driving scene을 어떻게 이해하고, object interaction을 어떻게 추론하며, planni..

[공부 로드맵] RT-1/RT-2 이후 VLA 연구 흐름 정리

Robotics VLA에서 Autonomous Driving VLA까지RT-1과 RT-2를 읽고 나니, 자연스럽게 다음 질문이 생겼다.RT-1/RT-2 이후 VLA 연구는 어떤 방향으로 발전했을까?그리고 이 흐름이 자율주행 분야에도 연결되고 있을까? RT-1은 대규모 real-world robot demonstration을 기반으로, 이미지와 자연어 명령을 입력받아 robot action을 출력하는 language-conditioned robot policy를 제안했다. RT-2는 여기서 한 단계 더 나아가, Vision-Language Model, VLM을 실제 robot action까지 출력하는 Vision-Language-Action, VLA 모델로 확장했다.내가 이해한 RT-1/RT-2의 핵심 흐..

공부 로드맵 2026.05.25

[논문 리뷰] Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail

자율주행 VLA는 어떻게 Reasoning과 Trajectory Planning을 연결하는가?본 포스팅은 NVIDIA의 Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail 논문을 읽고 정리한 글입니다.Alpamayo-R1은 자율주행을 위한 Vision-Language-Action, VLA 모델입니다. 기존 End-to-End Driving 모델이 imitation learning과 데이터 스케일링을 통해 발전했지만, long-tail safety-critical scenario에서는 여전히 취약하다는 문제의식에서 출발합니다. 이 논문은 단순히 trajectory를 ..

[논문 리뷰] RT-1: Robotics Transformer for Real-World Control at Scale

RT-2 이전, Robot Policy Transformer는 어떻게 만들어졌는가?본 포스팅은 Google Research의 RT-1: Robotics Transformer for Real-World Control at Scale 논문을 읽고 정리한 글입니다.RT-1은 RT-2 이전에 발표된 robotics transformer 계열 논문으로, 이미지와 자연어 명령을 입력받아 실제 로봇 action을 출력하는 multi-task robot policy를 제안합니다. 이 글에서는 RT-1의 데이터 구축 방식, 모델 구조, action representation, 실험 결과, 한계, 그리고 자율주행 Motion Planning 관점에서의 의미를 정리합니다.Paper LinksTypeLinkPaperarXiv..

[논문 리뷰] RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

VLM은 어떻게 Robot Policy가 되는가?0. Paper InformationTitleRT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic ControlAuthorsBrianna Zitkovich, Tianhe Yu, Sichun Xu, Peng Xu, Ted Xiao, Fei Xia, Jialin Wu, Paul Wohlhart, Stefan Welker, Ayzaan Wahid, Quan Vuong, Vincent Vanhoucke, Huong Tran, Radu Soricut, Anikait Singh, Jaspiar Singh, Pierre Sermanet, Pannag Sanketi, Grecia Salazar, Mi..