To the Next Clever Move

Motion Planning · VLA · World Model — 자율주행 연구 노트

To the Next Clever Move

world model 3

[논문 리뷰] PaLM-E: An Embodied Multimodal Language Model

LLM은 어떻게 물리 세계에 Grounding되는가?본 포스팅은 PaLM-E: An Embodied Multimodal Language Model 논문을 읽고 정리한 글입니다.RT-1과 RT-2를 읽고 나면 자연스럽게 다음 질문이 생깁니다.Vision-Language Model이 robot action을 출력하려면, 그 전에 language model은 물리 세계를 어떻게 이해해야 할까?RT-1은 대규모 robot demonstration을 이용해 real-world robot policy를 학습하는 방향을 보여줬고, RT-2는 web-scale vision-language knowledge를 robot action으로 transfer할 수 있다는 가능성을 보여줬습니다.그런데 RT-2를 제대로 이해하려면..

[논문 리뷰] Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail

자율주행 VLA는 어떻게 Reasoning과 Trajectory Planning을 연결하는가?본 포스팅은 NVIDIA의 Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail 논문을 읽고 정리한 글입니다.Alpamayo-R1은 자율주행을 위한 Vision-Language-Action, VLA 모델입니다. 기존 End-to-End Driving 모델이 imitation learning과 데이터 스케일링을 통해 발전했지만, long-tail safety-critical scenario에서는 여전히 취약하다는 문제의식에서 출발합니다. 이 논문은 단순히 trajectory를 ..

[논문 리뷰] RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

VLM은 어떻게 Robot Policy가 되는가?0. Paper InformationTitleRT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic ControlAuthorsBrianna Zitkovich, Tianhe Yu, Sichun Xu, Peng Xu, Ted Xiao, Fei Xia, Jialin Wu, Paul Wohlhart, Stefan Welker, Ayzaan Wahid, Quan Vuong, Vincent Vanhoucke, Huong Tran, Radu Soricut, Anikait Singh, Jaspiar Singh, Pierre Sermanet, Pannag Sanketi, Grecia Salazar, Mi..