VLM은 scene understanding과 planning을 hybrid stack에 어떻게 넣는가?본 포스팅은 DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models 논문을 읽고 정리한 글입니다.DriveLM을 읽으면 VLM이 perception–prediction–planning reasoning을 Graph VQA로 구조화할 수 있다는 점을 봤다. GPT-Driver는 trajectory를 language modeling으로 바꾸는 방향을 보여줬다.DriveVLM은 그 사이에서 다른 질문을 던진다.VLM이 장면 이해(scene understanding) 와 계층적 planning 을 language CoT로..