To the Next Clever Move

Motion Planning · VLA · World Model — 자율주행 연구 노트

To the Next Clever Move

autonomous driving 6

[논문 리뷰] GPT-Driver: Learning to Drive with GPT

Motion Planning을 Language Modeling으로 바꿀 수 있는가?본 포스팅은 GPT-Driver: Learning to Drive with GPT 논문을 읽고 정리한 글입니다.PaLM-E를 읽고 나면 LLM이 physical observation을 어떻게 받아들일 수 있는지에 대한 감을 잡을 수 있습니다. PaLM-E는 image, robot state, scene representation을 language model의 입력 공간으로 가져오면서, LLM을 embodied reasoning model로 확장하려는 시도였습니다.그 다음 질문은 자연스럽게 자율주행으로 이어집니다.LLM이 physical scene을 이해할 수 있다면, 자율주행 Motion Planning도 language ..

[논문 리뷰] PaLM-E: An Embodied Multimodal Language Model

LLM은 어떻게 물리 세계에 Grounding되는가?본 포스팅은 PaLM-E: An Embodied Multimodal Language Model 논문을 읽고 정리한 글입니다.RT-1과 RT-2를 읽고 나면 자연스럽게 다음 질문이 생깁니다.Vision-Language Model이 robot action을 출력하려면, 그 전에 language model은 물리 세계를 어떻게 이해해야 할까?RT-1은 대규모 robot demonstration을 이용해 real-world robot policy를 학습하는 방향을 보여줬고, RT-2는 web-scale vision-language knowledge를 robot action으로 transfer할 수 있다는 가능성을 보여줬습니다.그런데 RT-2를 제대로 이해하려면..

[논문 리뷰] DriveLM: Driving with Graph Visual Question Answering

자율주행에서 VLM은 어떻게 Perception, Prediction, Planning을 연결하는가?본 포스팅은 DriveLM: Driving with Graph Visual Question Answering 논문을 읽고 정리한 글입니다.RT-1과 RT-2를 읽으면서 VLA의 기본 흐름을 먼저 봤다면, DriveLM은 그 흐름이 자율주행으로 넘어왔을 때 어떤 형태로 변형되는지를 보여주는 논문이라고 볼 수 있습니다.RT-2가 로봇 manipulation에서 Vision-Language Model을 action-generating policy로 확장하려 했다면, DriveLM은 자율주행에서 VLM이 driving scene을 어떻게 이해하고, object interaction을 어떻게 추론하며, planni..

[논문 리뷰] Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail

자율주행 VLA는 어떻게 Reasoning과 Trajectory Planning을 연결하는가?본 포스팅은 NVIDIA의 Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail 논문을 읽고 정리한 글입니다.Alpamayo-R1은 자율주행을 위한 Vision-Language-Action, VLA 모델입니다. 기존 End-to-End Driving 모델이 imitation learning과 데이터 스케일링을 통해 발전했지만, long-tail safety-critical scenario에서는 여전히 취약하다는 문제의식에서 출발합니다. 이 논문은 단순히 trajectory를 ..

[논문 리뷰] RT-1: Robotics Transformer for Real-World Control at Scale

RT-2 이전, Robot Policy Transformer는 어떻게 만들어졌는가?본 포스팅은 Google Research의 RT-1: Robotics Transformer for Real-World Control at Scale 논문을 읽고 정리한 글입니다.RT-1은 RT-2 이전에 발표된 robotics transformer 계열 논문으로, 이미지와 자연어 명령을 입력받아 실제 로봇 action을 출력하는 multi-task robot policy를 제안합니다. 이 글에서는 RT-1의 데이터 구축 방식, 모델 구조, action representation, 실험 결과, 한계, 그리고 자율주행 Motion Planning 관점에서의 의미를 정리합니다.Paper LinksTypeLinkPaperarXiv..

[논문 리뷰] RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

VLM은 어떻게 Robot Policy가 되는가?0. Paper InformationTitleRT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic ControlAuthorsBrianna Zitkovich, Tianhe Yu, Sichun Xu, Peng Xu, Ted Xiao, Fei Xia, Jialin Wu, Paul Wohlhart, Stefan Welker, Ayzaan Wahid, Quan Vuong, Vincent Vanhoucke, Huong Tran, Radu Soricut, Anikait Singh, Jaspiar Singh, Pierre Sermanet, Pannag Sanketi, Grecia Salazar, Mi..