To the Next Clever Move

Motion Planning · VLA · World Model — 자율주행 연구 노트

To the Next Clever Move

2026/05/29 2

[논문 리뷰] GPT-Driver: Learning to Drive with GPT

Motion Planning을 Language Modeling으로 바꿀 수 있는가?본 포스팅은 GPT-Driver: Learning to Drive with GPT 논문을 읽고 정리한 글입니다.PaLM-E를 읽고 나면 LLM이 physical observation을 어떻게 받아들일 수 있는지에 대한 감을 잡을 수 있습니다. PaLM-E는 image, robot state, scene representation을 language model의 입력 공간으로 가져오면서, LLM을 embodied reasoning model로 확장하려는 시도였습니다.그 다음 질문은 자연스럽게 자율주행으로 이어집니다.LLM이 physical scene을 이해할 수 있다면, 자율주행 Motion Planning도 language ..

[논문 리뷰] PaLM-E: An Embodied Multimodal Language Model

LLM은 어떻게 물리 세계에 Grounding되는가?본 포스팅은 PaLM-E: An Embodied Multimodal Language Model 논문을 읽고 정리한 글입니다.RT-1과 RT-2를 읽고 나면 자연스럽게 다음 질문이 생깁니다.Vision-Language Model이 robot action을 출력하려면, 그 전에 language model은 물리 세계를 어떻게 이해해야 할까?RT-1은 대규모 robot demonstration을 이용해 real-world robot policy를 학습하는 방향을 보여줬고, RT-2는 web-scale vision-language knowledge를 robot action으로 transfer할 수 있다는 가능성을 보여줬습니다.그런데 RT-2를 제대로 이해하려면..