자율주행에서 VLM은 어떻게 Perception, Prediction, Planning을 연결하는가?본 포스팅은 DriveLM: Driving with Graph Visual Question Answering 논문을 읽고 정리한 글입니다.RT-1과 RT-2를 읽으면서 VLA의 기본 흐름을 먼저 봤다면, DriveLM은 그 흐름이 자율주행으로 넘어왔을 때 어떤 형태로 변형되는지를 보여주는 논문이라고 볼 수 있습니다.RT-2가 로봇 manipulation에서 Vision-Language Model을 action-generating policy로 확장하려 했다면, DriveLM은 자율주행에서 VLM이 driving scene을 어떻게 이해하고, object interaction을 어떻게 추론하며, planni..