To the Next Clever Move

Motion Planning · VLA · World Model — 자율주행 연구 노트

To the Next Clever Move

Motion Planning 6

[논문 리뷰] GPT-Driver: Learning to Drive with GPT

Motion Planning을 Language Modeling으로 바꿀 수 있는가?본 포스팅은 GPT-Driver: Learning to Drive with GPT 논문을 읽고 정리한 글입니다.PaLM-E를 읽고 나면 LLM이 physical observation을 어떻게 받아들일 수 있는지에 대한 감을 잡을 수 있습니다. PaLM-E는 image, robot state, scene representation을 language model의 입력 공간으로 가져오면서, LLM을 embodied reasoning model로 확장하려는 시도였습니다.그 다음 질문은 자연스럽게 자율주행으로 이어집니다.LLM이 physical scene을 이해할 수 있다면, 자율주행 Motion Planning도 language ..

[논문 리뷰] PaLM-E: An Embodied Multimodal Language Model

LLM은 어떻게 물리 세계에 Grounding되는가?본 포스팅은 PaLM-E: An Embodied Multimodal Language Model 논문을 읽고 정리한 글입니다.RT-1과 RT-2를 읽고 나면 자연스럽게 다음 질문이 생깁니다.Vision-Language Model이 robot action을 출력하려면, 그 전에 language model은 물리 세계를 어떻게 이해해야 할까?RT-1은 대규모 robot demonstration을 이용해 real-world robot policy를 학습하는 방향을 보여줬고, RT-2는 web-scale vision-language knowledge를 robot action으로 transfer할 수 있다는 가능성을 보여줬습니다.그런데 RT-2를 제대로 이해하려면..

[논문 리뷰] RT-H: Action Hierarchies Using Language

VLA는 바로 Action을 출력해야 할까, 아니면 중간에 Language Motion이 필요할까?본 포스팅은 RT-H: Action Hierarchies Using Language 논문을 읽고 정리한 글입니다.RT-1은 이미지와 자연어 명령을 입력받아 robot action을 출력하는 language-conditioned robot policy를 제안했고, RT-2는 Vision-Language Model, VLM을 robot action까지 출력하는 Vision-Language-Action, VLA 모델로 확장했습니다.그런데 RT-1과 RT-2를 읽고 나면 자연스럽게 이런 질문이 생깁니다.고수준 task instruction에서 바로 low-level robot action을 예측하는 것이 정말 좋은..

[논문 리뷰] DriveLM: Driving with Graph Visual Question Answering

자율주행에서 VLM은 어떻게 Perception, Prediction, Planning을 연결하는가?본 포스팅은 DriveLM: Driving with Graph Visual Question Answering 논문을 읽고 정리한 글입니다.RT-1과 RT-2를 읽으면서 VLA의 기본 흐름을 먼저 봤다면, DriveLM은 그 흐름이 자율주행으로 넘어왔을 때 어떤 형태로 변형되는지를 보여주는 논문이라고 볼 수 있습니다.RT-2가 로봇 manipulation에서 Vision-Language Model을 action-generating policy로 확장하려 했다면, DriveLM은 자율주행에서 VLM이 driving scene을 어떻게 이해하고, object interaction을 어떻게 추론하며, planni..

[논문 리뷰] RT-1: Robotics Transformer for Real-World Control at Scale

RT-2 이전, Robot Policy Transformer는 어떻게 만들어졌는가?본 포스팅은 Google Research의 RT-1: Robotics Transformer for Real-World Control at Scale 논문을 읽고 정리한 글입니다.RT-1은 RT-2 이전에 발표된 robotics transformer 계열 논문으로, 이미지와 자연어 명령을 입력받아 실제 로봇 action을 출력하는 multi-task robot policy를 제안합니다. 이 글에서는 RT-1의 데이터 구축 방식, 모델 구조, action representation, 실험 결과, 한계, 그리고 자율주행 Motion Planning 관점에서의 의미를 정리합니다.Paper LinksTypeLinkPaperarXiv..

[논문 리뷰] RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

VLM은 어떻게 Robot Policy가 되는가?0. Paper InformationTitleRT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic ControlAuthorsBrianna Zitkovich, Tianhe Yu, Sichun Xu, Peng Xu, Ted Xiao, Fei Xia, Jialin Wu, Paul Wohlhart, Stefan Welker, Ayzaan Wahid, Quan Vuong, Vincent Vanhoucke, Huong Tran, Radu Soricut, Anikait Singh, Jaspiar Singh, Pierre Sermanet, Pannag Sanketi, Grecia Salazar, Mi..