[논문 리뷰] DriveLM: Driving with Graph Visual Question Answering

논문 리뷰 ( Paper Review)/[VLA] Vision Language Action

[논문 리뷰] DriveLM: Driving with Graph Visual Question Answering

Donghui.Eom 2026. 5. 28. 14:13

자율주행에서 VLM은 어떻게 Perception, Prediction, Planning을 연결하는가?

본 포스팅은 DriveLM: Driving with Graph Visual Question Answering 논문을 읽고 정리한 글입니다.

RT-1과 RT-2를 읽으면서 VLA의 기본 흐름을 먼저 봤다면, DriveLM은 그 흐름이 자율주행으로 넘어왔을 때 어떤 형태로 변형되는지를 보여주는 논문이라고 볼 수 있습니다.

RT-2가 로봇 manipulation에서 Vision-Language Model을 action-generating policy로 확장하려 했다면, DriveLM은 자율주행에서 VLM이 driving scene을 어떻게 이해하고, object interaction을 어떻게 추론하며, planning decision과 어떻게 연결될 수 있는지를 다룹니다.

내가 이 논문에서 가장 중요하게 본 질문은 다음입니다.

VLM은 자율주행에서 단순히 장면을 설명하는 모델인가, 아니면 planning에 필요한 reasoning structure를 제공할 수 있는가?

Paper Links

TypeLink

Paper	arXiv: DriveLM: Driving with Graph Visual Question Answering
PDF	arXiv PDF
Conference Version	ECCV 2024 / Springer
Project Page	DriveLM Project Page
Code / Dataset	OpenDriveLab/DriveLM GitHub
Dataset / Model Hub	DriveLM Hugging Face

Article Summary

항목	내용
논문	DriveLM: Driving with Graph Visual Question Answering
분야	Autonomous Driving, Vision-Language Model, Graph VQA, Driving Reasoning
핵심 문제	VLM을 자율주행 시스템에 통합할 때, 단일 VQA가 아니라 단계적 reasoning 구조를 어떻게 만들 것인가
핵심 아이디어	Perception, Prediction, Planning QA를 graph structure로 연결하는 Graph VQA, GVQA 제안
주요 방법	DriveLM-Data 구축, Graph VQA task 정의, DriveLM-Agent baseline 제안
주요 데이터	DriveLM-nuScenes, DriveLM-CARLA
주요 결과	Graph VQA가 driving scene reasoning을 위한 구조적 proxy task가 될 수 있음을 보임
내 관심 포인트	VLM/VLA가 자율주행 Motion Planning에서 reasoning module 또는 behavior planning assistant가 될 수 있는가

Paper Information
Summary
Background and Motivation
Problem Formulation
Method
Experiments
Contributions
Limitations and Discussion
Connection to Autonomous Driving / Motion Planning
Takeaways and Next Questions
Conclusion
Next Paper
References

0. Paper Information

Title
DriveLM: Driving with Graph Visual Question Answering

Authors
Chonghao Sima, Katrin Renz, Kashyap Chitta, Li Chen, Hanxue Zhang, Chengen Xie, Ping Luo, Andreas Geiger, Hongyang Li

Venue / Year
ECCV 2024 Oral
arXiv 2023

Keywords
DriveLM, Graph VQA, GVQA, Vision-Language Model, Autonomous Driving, End-to-End Driving, Driving Reasoning, Perception, Prediction, Planning, VLM for AD

Category
논문 리뷰 > [VLA] Vision-Language-Action
또는
논문 리뷰 > Autonomous Driving / VLM

1. Summary

DriveLM은 자율주행에서 Vision-Language Model, VLM을 어떻게 활용할 수 있는지를 다룬 논문입니다.

기존의 VLM-for-driving 연구는 보통 하나의 driving scene에 대해 단일 질문과 단일 답변을 생성하는 방식에 가까웠습니다.

Image / Scene → Question → Answer

하지만 실제 운전자는 단일 질문 하나에 답해서 주행 결정을 내리지 않습니다.
운전자는 보통 다음과 같은 단계를 거칩니다.

1. 중요한 object를 찾는다.
2. 그 object가 ego vehicle에 어떤 영향을 줄지 판단한다.
3. 주변 agent의 미래 행동을 예측한다.
4. ego vehicle이 어떤 행동을 해야 하는지 결정한다.
5. 최종적으로 trajectory 또는 motion을 만든다.

DriveLM은 이 과정을 Graph Visual Question Answering, GVQA라는 형태로 모델링합니다.

논문에서 제안하는 핵심 구조는 다음과 같습니다.

Driving Scene
→ Perception QA
→ Prediction QA
→ Planning QA
→ Behavior / Motion

여기서 각 QA pair는 독립적으로 존재하지 않고, graph 형태로 연결됩니다.
QA pair는 node가 되고, object relationship이나 logical dependency는 edge가 됩니다.

즉, DriveLM의 핵심은 단순 VQA가 아니라 graph-structured reasoning입니다.

한 문장으로 정리하면 다음과 같습니다.

DriveLM은 자율주행에서 VLM이 perception, prediction, planning reasoning을 단계적으로 수행할 수 있도록 Graph VQA task와 DriveLM-Data를 제안한 논문이다.

내 관점에서는 DriveLM을 VLA 논문이라기보다는, 자율주행 VLA로 가기 위한 reasoning benchmark / intermediate representation 논문으로 보는 것이 더 적절해 보입니다.

2. Background and Motivation

2.1 VLM을 자율주행에 적용하려는 흐름

최근 자율주행에서도 VLM이나 MLLM을 활용하려는 연구가 많아지고 있습니다.

그 이유는 명확합니다.

기존 자율주행 시스템은 perception, prediction, planning, control이 모듈화되어 있고, 각 모듈은 주로 numerical representation을 기반으로 동작합니다.

Sensor Input
→ Perception
→ Prediction
→ Planning
→ Control

이 구조는 안정적이고 실용적이지만, 다음과 같은 상황에서는 한계가 있습니다.

- long-tail scenario
- unusual object
- 복잡한 social interaction
- 애매한 right-of-way 상황
- 공사 구간, 비상 차량, 경찰 수신호
- 인간이 자연어로 설명할 수 있는 상식 기반 reasoning

VLM은 이런 상황에서 scene understanding, semantic reasoning, explanation을 제공할 수 있을 가능성이 있습니다.

하지만 단순히 VLM에게 “이 장면에서 어떻게 운전해야 하나?”라고 묻는 것만으로는 부족합니다.

자율주행 decision은 단일 답변이 아니라, 여러 단계의 reasoning 결과로 만들어지기 때문입니다.

2.2 기존 VQA 방식의 한계

기존 VQA 방식은 보통 하나의 이미지와 하나의 질문에 대해 하나의 답을 생성합니다.

Image + Question → Answer

예를 들어:

Q: 전방에 보행자가 있는가?
A: 예, 전방 횡단보도 근처에 보행자가 있습니다.

이런 답변은 유용하지만, planning decision까지 연결하기에는 부족합니다.

운전에서 중요한 것은 단순히 “무엇이 있는가?”가 아닙니다.

더 중요한 질문은 다음입니다.

- 그 object가 ego vehicle의 path에 영향을 주는가?
- 그 object는 움직이고 있는가, 정지해 있는가?
- 앞으로 ego vehicle과 충돌 가능성이 있는가?
- ego vehicle은 감속해야 하는가?
- 차선 변경이 필요한가?
- 정지해야 하는가?

즉, 자율주행에는 perception-level QA뿐 아니라 prediction-level QA와 planning-level QA가 필요합니다.

DriveLM은 이 점을 문제로 봅니다.

2.3 Graph VQA가 필요한 이유

DriveLM의 핵심 문제의식은 다음과 같습니다.

인간 운전자는 driving decision을 여러 단계의 logical reasoning을 통해 만든다.
그렇다면 VLM도 단일 VQA가 아니라 graph-structured reasoning을 수행해야 하지 않을까?

이 관점에서 DriveLM은 Graph VQA, GVQA를 제안합니다.

기존 VQA가 다음과 같다면:

Single VQA:
Scene → Question → Answer

DriveLM의 GVQA는 다음과 같습니다.

Graph VQA:
Scene
→ QA node 1
→ QA node 2
→ QA node 3
→ ...
→ Planning / Behavior / Motion

각 QA node는 특정 질문과 답변을 의미하고, node들 사이의 edge는 reasoning dependency를 의미합니다.

이 구조의 장점은 명확합니다.

1. Driving reasoning 과정을 단계적으로 볼 수 있다.
2. Perception, Prediction, Planning을 하나의 graph 안에서 연결할 수 있다.
3. 모델이 어떤 reasoning 과정을 거쳐 decision에 도달하는지 분석할 수 있다.
4. VLM의 답변을 end-to-end driving과 연결할 수 있다.

DriveLM은 단순히 VLM의 성능을 높이는 논문이라기보다, driving reasoning을 구조화하는 방법을 제안한 논문으로 이해하는 것이 좋습니다.

3. Problem Formulation

3.1 Task Definition

DriveLM이 제안하는 task는 Graph Visual Question Answering for Driving입니다.

모델은 driving scene을 입력으로 받고, graph-structured QA를 수행합니다.

입력은 다음과 같습니다.

Input:
  - multi-view driving images or driving scene
  - question
  - graph context / related QA dependency

출력은 다음과 같습니다.

Output:
  - answer to the given question
  - optionally behavior / motion decision

이를 단순화하면 다음과 같이 볼 수 있습니다.

DriveLM:
Driving scene + graph-structured questions
→ perception / prediction / planning answers
→ driving decision

DriveLM에서 중요한 점은 QA pair들이 독립적이지 않다는 것입니다.
질문과 답변은 graph structure 안에서 연결되며, 이전 reasoning 결과가 다음 reasoning에 영향을 줍니다.

3.2 Graph VQA

DriveLM의 핵심 task는 GVQA입니다.

GVQA에서 QA pair는 graph의 node입니다.

Node:
  Question-Answer pair

Node 사이의 edge는 logical dependency나 object relationship을 의미합니다.

Edge:
  reasoning dependency
  object interaction
  task-level relation

예를 들어 다음과 같은 reasoning graph를 생각할 수 있습니다.

Q1: 전방에 중요한 object가 있는가?
A1: 오른쪽 차선에 정차 차량이 있다.

Q2: 이 object가 ego vehicle에 영향을 주는가?
A2: ego vehicle이 우측 차선으로 이동하면 충돌 가능성이 있다.

Q3: ego vehicle은 어떤 behavior를 선택해야 하는가?
A3: 현재 차선을 유지하고 감속해야 한다.

이때 Q1, Q2, Q3은 독립된 질문이 아닙니다.
Q2는 Q1의 답변에 의존하고, Q3은 Q2의 판단에 의존합니다.

이것이 DriveLM이 말하는 graph-structured reasoning입니다.

3.3 Perception, Prediction, Planning

DriveLM에서 가장 중요한 구성은 P3 QA입니다.

P3는 다음을 의미합니다.

P3:
  Perception
  Prediction
  Planning

Perception QA는 장면 속 object와 속성을 인식하는 질문입니다.

- 어떤 object가 있는가?
- ego vehicle에 중요한 object는 무엇인가?
- traffic light는 어떤 상태인가?
- 보행자는 어디에 있는가?

Prediction QA는 object의 미래 행동이나 interaction을 추론하는 질문입니다.

- 이 차량은 앞으로 이동할 가능성이 있는가?
- 보행자가 횡단할 가능성이 있는가?
- ego vehicle과 충돌 가능성이 있는가?
- 주변 agent가 ego vehicle의 path에 영향을 줄 것인가?

Planning QA는 ego vehicle이 어떤 행동을 해야 하는지 판단하는 질문입니다.

- ego vehicle은 감속해야 하는가?
- 정지해야 하는가?
- 차선 변경을 해야 하는가?
- 현재 경로를 유지해도 되는가?

이 구조는 자율주행 stack과 잘 맞습니다.

Perception → Prediction → Planning

DriveLM의 중요한 점은 이 세 단계를 language-based QA graph로 표현했다는 것입니다.

3.4 Dataset / Supervision

DriveLM은 DriveLM-Data를 제안합니다.

DriveLM-Data는 크게 두 가지 source를 기반으로 합니다.

1. DriveLM-nuScenes
2. DriveLM-CARLA

DriveLM-nuScenes는 real-world driving dataset인 nuScenes를 기반으로 합니다.
DriveLM-CARLA는 CARLA simulation 환경을 기반으로 합니다.

DriveLM project page에 따르면, DriveLM-nuScenes의 annotation process는 크게 다음 세 단계로 이루어집니다.

1. Keyframe selection
2. Key object selection
3. Question-answer annotation

Keyframe은 ego vehicle의 movement status가 바뀌는 frame, 예를 들어 lane change, sudden stop, stop 이후 출발 등이 포함된 frame을 선택합니다.

Key object는 ego vehicle의 action에 영향을 줄 수 있는 object입니다.

- traffic signal
- crossing pedestrian
- ego vehicle 방향으로 움직이는 vehicle
- planning decision에 영향을 줄 수 있는 object

DriveLM-CARLA는 CARLA 0.9.14와 Leaderboard 2.0 framework를 사용하며, privileged rule-based expert를 통해 데이터를 수집하고, privileged information을 기반으로 QA와 logical relationship을 생성합니다.

이 점에서 DriveLM-Data는 단순 image-caption dataset이 아닙니다.
자율주행의 perception, prediction, planning reasoning을 학습하고 평가하기 위한 language-driving dataset에 가깝습니다.

3.5 Objective

DriveLM의 핵심 objective는 driving scene에 대해 graph-structured QA를 수행하는 것입니다.

이를 모델 관점에서 보면 다음과 같습니다.

Given:
  driving scene
  question
  graph context

Predict:
  answer

그리고 DriveLM-Agent는 이러한 GVQA task와 end-to-end driving을 함께 수행하도록 설계됩니다.

즉, DriveLM의 objective는 단순히 VQA accuracy를 높이는 것만이 아닙니다.

더 중요한 것은 다음입니다.

VLM의 language reasoning을
자율주행의 perception / prediction / planning decision과 연결하는 것

4. Method

4.1 Overall Architecture

DriveLM은 크게 세 가지를 제안합니다.

1. Graph VQA task
2. DriveLM-Data
3. DriveLM-Agent baseline

전체 구조를 단순화하면 다음과 같습니다.

Driving scene
   ↓
Graph-structured QA
   ↓
Perception / Prediction / Planning reasoning
   ↓
DriveLM-Agent
   ↓
Graph VQA answer + driving behavior / motion

여기서 핵심은 모델 architecture 자체보다 task formulation과 dataset design입니다.

DriveLM은 “VLM을 자율주행에 어떻게 넣을 것인가?”라는 질문에 대해, 바로 steering이나 trajectory를 출력하게 하기보다 먼저 reasoning task를 graph로 구조화합니다.

이 접근은 꽤 현실적입니다.

왜냐하면 자율주행에서 VLM이 당장 low-level control을 직접 생성하는 것은 어렵지만, driving scene에 대한 reasoning을 제공하는 것은 더 자연스러운 역할이기 때문입니다.

4.2 Graph-of-Thought

DriveLM project page에서는 DriveLM의 reasoning 구조를 Graph-of-Thought로 설명합니다.

일반적인 Chain-of-Thought가 reasoning을 순차적인 문장 흐름으로 표현한다면, DriveLM은 reasoning을 graph로 표현합니다.

Chain-of-Thought:
A → B → C → D

Graph-of-Thought:
A → B
A → C
B, C → D

Driving scene에서는 reasoning이 항상 선형적이지 않습니다.

예를 들어 ego vehicle의 행동은 여러 object와 동시에 관련될 수 있습니다.

- 전방 차량
- 좌측 차선 차량
- 우측 보행자
- 신호등
- 차선 구조

이 object들은 서로 다른 reasoning branch를 만들고, 최종 planning decision에서 합쳐집니다.

따라서 graph 구조가 driving reasoning에 더 자연스러울 수 있습니다.

DriveLM의 GVQA는 이런 구조를 language QA 형태로 표현합니다.

4.3 DriveLM-Data

DriveLM-Data는 DriveLM의 가장 중요한 contribution 중 하나입니다.

이 데이터셋은 단순히 driving image와 caption을 제공하는 것이 아니라, 자율주행 full stack에 가까운 reasoning question을 제공합니다.

DriveLM project page에서는 DriveLM-Data가 다음 task들을 연결한다고 설명합니다.

- Perception
- Prediction
- Planning
- Behavior
- Motion

이 구조가 중요한 이유는 자율주행의 전체 stack을 language reasoning과 연결하기 때문입니다.

기존 자율주행 dataset은 주로 다음과 같은 label을 제공합니다.

- 3D bounding box
- lane
- map
- trajectory
- object class
- segmentation

반면 DriveLM은 다음과 같은 질문을 다룹니다.

- 어떤 object가 ego vehicle의 decision에 중요한가?
- 그 object는 ego vehicle과 어떤 interaction을 갖는가?
- 앞으로 어떤 일이 일어날 수 있는가?
- ego vehicle은 어떤 behavior를 선택해야 하는가?

즉, DriveLM-Data는 perception annotation과 planning decision 사이의 reasoning gap을 language로 채우려는 시도입니다.

4.4 DriveLM-Agent

DriveLM은 VLM-based baseline으로 DriveLM-Agent를 제안합니다.

DriveLM-Agent는 Graph VQA와 end-to-end driving을 함께 수행하는 baseline입니다.

논문에서 DriveLM-Agent는 다음 두 가지를 동시에 다루는 모델로 이해할 수 있습니다.

1. Graph VQA
   - perception / prediction / planning QA에 답변

2. End-to-end driving
   - driving decision 또는 trajectory-related output 생성

중요한 점은 DriveLM-Agent가 최종적인 production driving model이라기보다는, DriveLM task와 dataset이 실제로 driving model 학습에 활용될 수 있음을 보이기 위한 baseline이라는 점입니다.

4.5 Inference Procedure

DriveLM의 inference는 단일 질문에 대한 답변 생성으로 끝나지 않습니다.

더 중요한 것은 graph structure 안에서 여러 QA를 연결하는 것입니다.

단순화하면 다음과 같습니다.

1. Driving scene을 입력으로 받는다.
2. 중요한 object에 대한 perception question에 답한다.
3. object interaction이나 미래 행동에 대한 prediction question에 답한다.
4. ego vehicle의 planning / behavior question에 답한다.
5. 최종 behavior 또는 motion decision으로 연결한다.

이 과정은 자율주행 stack의 reasoning 과정을 language level에서 재구성한 것으로 볼 수 있습니다.

5. Experiments

5.1 Experimental Setup

DriveLM의 실험은 크게 다음 질문을 중심으로 구성됩니다.

1. Graph VQA task는 driving reasoning benchmark로 적절한가?
2. DriveLM-Data는 perception, prediction, planning reasoning을 평가할 수 있는가?
3. VLM-based DriveLM-Agent는 Graph VQA와 end-to-end driving을 함께 수행할 수 있는가?
4. Graph VQA 구조가 unseen object나 sensor configuration에서 일반화에 도움이 되는가?

DriveLM은 nuScenes와 CARLA 기반 데이터를 모두 사용합니다.

DriveLM-nuScenes:
  real-world driving scenes 기반

DriveLM-CARLA:
  simulation 기반, privileged rule-based expert 활용

이 조합은 중요합니다.

nuScenes는 real-world data라는 장점이 있고, CARLA는 simulation에서 privileged information과 closed-loop style experiment를 구성하기 좋습니다.

5.2 Baselines

DriveLM은 VLM-based baseline인 DriveLM-Agent를 제안합니다.

비교 관점은 크게 두 가지입니다.

1. Graph VQA performance
2. End-to-end driving performance

논문은 DriveLM-Agent가 Graph VQA와 end-to-end driving을 함께 수행하는 baseline으로 사용될 수 있음을 보입니다.

여기서 중요한 것은 DriveLM-Agent가 “완성된 driving model”이라기보다, DriveLM task 자체의 가능성을 보여주는 baseline이라는 점입니다.

즉, 이 논문에서 핵심은 모델 architecture의 성능 경쟁보다는 Graph VQA라는 task formulation과 DriveLM-Data의 가치에 있습니다.

5.3 Main Results

DriveLM의 주요 결과는 다음과 같이 정리할 수 있습니다.

1. Graph VQA는 driving scene reasoning을 구조화하는 데 유용하다.
2. DriveLM-Data는 perception, prediction, planning을 연결하는 challenging benchmark를 제공한다.
3. DriveLM-Agent는 Graph VQA와 end-to-end driving을 함께 수행할 수 있다.
4. unseen object나 sensor configuration에서 VLM 기반 접근의 장점이 나타난다.

논문 초록에 따르면, DriveLM-Agent baseline은 driving-specific architecture와 비교해 end-to-end autonomous driving에서 competitive한 성능을 보였고, 특히 unseen object나 sensor configuration에 zero-shot으로 평가될 때 장점이 두드러졌다고 보고합니다.

이 결과는 DriveLM의 핵심 주장을 뒷받침합니다.

VLM은 driving scene reasoning과 generalization에 도움을 줄 수 있다.

다만 이 결과를 “VLM이 곧바로 production-level planner를 대체할 수 있다”는 의미로 해석하면 안 됩니다.

DriveLM이 보여준 것은 VLM이 driving reasoning과 end-to-end driving baseline에 활용될 수 있다는 가능성입니다.

5.4 Generalization

DriveLM에서 중요한 실험 포인트는 generalization입니다.

자율주행에서 generalization은 특히 중요합니다.

왜냐하면 실제 도로에서는 학습 데이터에 없는 object, scene configuration, traffic pattern이 계속 등장하기 때문입니다.

- 새로운 object
- 드문 도로 구조
- 특이한 sensor configuration
- long-tail scenario
- uncommon traffic behavior

DriveLM은 web-scale data로 학습된 VLM을 활용하면 이러한 unseen condition에서 더 나은 generalization을 얻을 수 있을 가능성을 보여줍니다.

이 점은 RT-2와도 연결됩니다.

RT-2:
web-scale VLM knowledge → robot action generalization

DriveLM:
web-scale VLM knowledge → driving scene reasoning / planning generalization

둘 다 핵심은 web-scale VLM의 semantic knowledge를 physical decision-making domain으로 가져오려는 것입니다.

5.5 Graph VQA Analysis

DriveLM의 가장 중요한 분석 포인트는 Graph VQA입니다.

기존 VQA가 단일 QA에 머문다면, DriveLM은 QA 사이의 dependency를 명시적으로 연결합니다.

이 차이는 자율주행에서 중요합니다.

예를 들어 다음 두 질문은 독립적이지 않습니다.

Q1: 전방 차량은 정지해 있는가?
Q2: ego vehicle은 감속해야 하는가?

Q2의 답은 Q1에 의존합니다.

또 다른 예시는 다음과 같습니다.

Q1: 우측 보행자가 횡단보도 근처에 있는가?
Q2: 보행자가 ego lane으로 진입할 가능성이 있는가?
Q3: ego vehicle은 속도를 줄여야 하는가?

이런 dependency를 graph로 표현하면, 모델이 단순한 scene description을 넘어 planning-relevant reasoning을 하도록 유도할 수 있습니다.

내가 보기에는 이 부분이 DriveLM의 가장 중요한 contribution입니다.

5.6 Failure Cases

DriveLM은 중요한 시도이지만 한계도 명확합니다.

가능한 failure case는 다음과 같습니다.

1. VLM이 object 위치나 spatial relationship을 잘못 이해하는 경우
2. graph reasoning이 실제 causal reasoning과 다를 수 있는 경우
3. QA answer는 맞지만 실제 driving action으로 연결하면 위험한 경우
4. open-loop reasoning은 가능하지만 closed-loop driving에서 실패하는 경우
5. language answer가 모호하거나 검증하기 어려운 경우
6. real-time deployment에 필요한 latency를 만족하기 어려운 경우

특히 자율주행에서는 답변이 그럴듯한 것과 안전한 motion을 생성하는 것은 전혀 다른 문제입니다.

예를 들어 VLM이 다음과 같이 답했다고 해도:

"감속하고 보행자에게 양보해야 한다."

실제 planning에서는 다음을 결정해야 합니다.

- 어느 시점부터 감속할 것인가?
- 목표 속도는 얼마인가?
- 정지 위치는 어디인가?
- 뒤 차량과의 관계는 어떤가?
- lateral margin은 얼마나 둘 것인가?

즉, DriveLM의 language reasoning을 실제 motion planning constraint로 변환하는 과정은 여전히 남아 있습니다.

6. Contributions

내가 보는 DriveLM의 핵심 contribution은 네 가지입니다.

6.1 Graph VQA라는 driving reasoning task를 제안했다

DriveLM의 가장 중요한 contribution은 GVQA입니다.

기존 VQA가 단일 질문-답변 형태였다면, DriveLM은 QA pair를 graph structure로 연결합니다.

Single VQA:
Scene → Question → Answer

Graph VQA:
Scene → QA Graph → Reasoning Chain / Graph → Planning Decision

이 구조는 자율주행의 reasoning process를 더 잘 반영합니다.

특히 perception, prediction, planning 사이의 logical dependency를 명시적으로 표현할 수 있다는 점이 중요합니다.

6.2 DriveLM-Data를 구축했다

DriveLM은 DriveLM-Data를 제공합니다.

DriveLM-Data는 nuScenes와 CARLA를 기반으로 하며, perception, prediction, planning QA를 포함합니다.

이 데이터셋은 단순히 object detection이나 captioning을 위한 dataset이 아닙니다.

DriveLM-Data:
driving scene
+ key objects
+ object interactions
+ perception QA
+ prediction QA
+ planning QA
+ graph dependency

이런 형태의 데이터는 VLM을 자율주행에 적용하기 위한 중요한 benchmark가 될 수 있습니다.

6.3 VLM과 end-to-end driving을 연결했다

DriveLM은 VLM이 단순한 설명 모델에 머무르지 않고, end-to-end driving과 연결될 수 있음을 보여줍니다.

물론 DriveLM-Agent가 production-ready driving model이라는 뜻은 아닙니다.

하지만 이 논문은 다음 가능성을 보여줍니다.

VLM-based reasoning
→ planning-relevant decision
→ end-to-end driving model

이 흐름은 이후 DriveVLM, EMMA, OpenDriveVLA 같은 연구와도 연결됩니다.

6.4 VLA for Driving의 중간 단계를 제시했다

DriveLM은 직접적으로 action token을 생성하는 RT-2식 VLA는 아닙니다.

하지만 자율주행 VLA로 가기 위한 중요한 중간 단계를 제시합니다.

내가 보기에는 DriveLM의 위치는 다음과 같습니다.

VLM for Driving Reasoning
→ VLM-assisted Planning
→ VLA for Driving

DriveLM은 첫 번째와 두 번째 사이에 있습니다.

즉, DriveLM은 VLA가 바로 trajectory를 출력하기 전에, VLM이 driving reasoning을 어떻게 구조화할 수 있는지를 보여주는 논문입니다.

7. Limitations and Discussion

7.1 VQA가 실제 planning을 완전히 대체하지는 않는다

DriveLM의 GVQA는 driving reasoning을 구조화하는 데 유용합니다.

하지만 VQA answer가 곧바로 safe trajectory는 아닙니다.

예를 들어:

Q: ego vehicle은 어떻게 행동해야 하는가?
A: 감속하고 전방 차량과 거리를 유지해야 한다.

이 답변은 behavior-level decision에는 도움이 됩니다.
하지만 motion planning 관점에서는 여전히 많은 것이 부족합니다.

- 감속 profile
- target speed
- stopping distance
- jerk limit
- collision checking
- feasibility constraint
- controller tracking

즉, DriveLM은 planning reasoning을 돕지만, Motion Planner 자체를 대체하지는 않습니다.

7.2 Graph structure가 항상 올바른 causal structure는 아닐 수 있다

DriveLM은 QA pair를 graph로 연결합니다.

하지만 이 graph가 실제 driving decision의 causal structure를 완벽하게 표현한다고 보기는 어렵습니다.

예를 들어 어떤 object가 중요한지, 어떤 interaction이 planning decision에 영향을 주는지는 상황에 따라 복잡하게 달라집니다.

- object A는 현재 중요하지 않지만 2초 뒤 중요해질 수 있다.
- object B는 ego vehicle과 직접 충돌하지 않지만 다른 차량의 행동을 바꿀 수 있다.
- traffic light와 pedestrian, lane geometry가 함께 behavior를 결정할 수 있다.

따라서 GVQA graph는 driving reasoning을 위한 좋은 proxy이지만, 완전한 causal model은 아닙니다.

7.3 Language answer는 평가와 검증이 어렵다

Language-based answer는 해석 가능하다는 장점이 있지만, 평가가 어렵습니다.

동일한 의미를 여러 문장으로 표현할 수 있고, 답변이 부분적으로 맞지만 planning 관점에서는 부족할 수도 있습니다.

예를 들어:

"slow down"
"decelerate gradually"
"reduce speed and prepare to stop"

이 세 답변은 비슷해 보이지만, 실제 planner에게 필요한 정보는 다를 수 있습니다.

Motion Planning에서는 다음처럼 더 구체적인 signal이 필요합니다.

target speed = 3 m/s
target stop point = crosswalk stop line
time-to-yield = 2.0 s
minimum safety margin = 1.5 m

따라서 language reasoning을 planning signal로 변환하는 추가 단계가 필요합니다.

7.4 Closed-loop 검증은 여전히 어렵다

DriveLM은 CARLA 기반 실험도 포함하지만, VLM/VLA 기반 driving model이 실제 closed-loop 환경에서 안정적으로 동작하는지는 여전히 어려운 문제입니다.

자율주행에서 중요한 것은 단일 frame의 답변이 아니라, 연속적인 decision이 closed-loop에서 안전하게 이어지는지입니다.

t = 0: 감속
t = 1: 주변 차량 반응
t = 2: 보행자 움직임 변화
t = 3: ego trajectory 수정

VLM이 각 시점에서 그럴듯한 답을 하더라도, closed-loop interaction에서 불안정한 행동이 나올 수 있습니다.

이 부분은 앞으로 VLA for Driving 연구에서 반드시 해결해야 할 문제입니다.

8. Connection to Autonomous Driving / Motion Planning

DriveLM은 자율주행 Motion Planning 관점에서 매우 흥미로운 논문입니다.

왜냐하면 이 논문은 VLM을 단순한 captioning model이 아니라, planning-relevant reasoning module로 사용하려고 하기 때문입니다.

내가 보는 DriveLM의 위치는 다음과 같습니다.

Perception
→ Prediction
→ Planning
→ Behavior
→ Motion

DriveLM은 이 흐름을 language QA graph로 표현합니다.

즉, DriveLM은 직접 trajectory optimizer를 제안한 논문은 아니지만, Motion Planning이 필요로 하는 상위 reasoning을 language로 구조화하려는 시도입니다.

8.1 DriveLM은 Behavior Planning에 가깝다

DriveLM의 planning QA는 low-level trajectory generation보다는 behavior decision에 가깝습니다.

예를 들어:

- 감속해야 하는가?
- 정지해야 하는가?
- 차선 변경해야 하는가?
- 전방 차량을 따라가야 하는가?
- 보행자에게 양보해야 하는가?

이런 질문은 Motion Planning보다는 Behavior Planning에 더 가깝습니다.

Motion Planning은 그 다음 단계에서 구체적인 trajectory를 만들어야 합니다.

Behavior Planning:
  slow down and yield

Motion Planning:
  generate a dynamically feasible, collision-free trajectory

따라서 DriveLM은 자율주행 stack에서 다음 위치에 들어갈 가능성이 있습니다.

VLM / DriveLM reasoning
→ Behavior Planning
→ Motion Planning
→ Control

8.2 DriveLM은 Cost / Constraint Generation과 연결될 수 있다

DriveLM의 QA output을 그대로 action으로 쓰기보다는, planner의 cost나 constraint로 변환하는 방향이 더 현실적일 수 있습니다.

예를 들어 DriveLM이 다음과 같은 reasoning을 한다고 합시다.

전방 횡단보도 근처에 보행자가 있으며,
ego lane으로 진입할 가능성이 있으므로 감속해야 한다.

이 reasoning은 planner에 다음 signal로 바뀔 수 있습니다.

- target speed 감소
- crosswalk 전 stop constraint 추가
- pedestrian 주변 safety margin 증가
- longitudinal cost 조정

즉, DriveLM은 Motion Planner를 직접 대체하기보다, planner가 사용할 semantic cost / constraint를 생성하는 역할로 연결될 수 있습니다.

이 방향은 내가 VLA를 자율주행에 적용할 때 가장 현실적이라고 보는 방향과도 맞습니다.

8.3 DriveLM은 World Model과도 연결된다

DriveLM에는 “What if” 스타일의 질문이 포함됩니다.

예를 들어:

- 만약 앞 차량이 정지하면 어떻게 해야 하는가?
- 만약 보행자가 계속 걸어오면 어떻게 되는가?
- 만약 ego vehicle이 차선 변경하면 주변 차량과 어떤 interaction이 생기는가?

이런 질문은 World Model과 연결됩니다.

World Model은 현재 상태에서 가능한 미래를 예측하거나 상상하는 모델입니다.

DriveLM의 language-based “What if” reasoning은 아직 명시적인 latent dynamics model은 아니지만, 자율주행에서 counterfactual reasoning을 language로 표현하려는 시도라고 볼 수 있습니다.

이를 연결하면 다음과 같은 구조를 생각할 수 있습니다.

DriveLM / VLM:
  semantic reasoning
  what-if question
  behavior explanation

World Model:
  future rollout
  interaction prediction
  counterfactual simulation

Motion Planner:
  trajectory optimization
  safety checking

8.4 VLA for Driving으로 가기 위한 중간 단계

DriveLM은 엄밀히 말하면 VLA라기보다는 VLM-for-driving 논문입니다.

하지만 VLA for Driving으로 가기 위한 중요한 중간 단계입니다.

왜냐하면 VLA가 action을 출력하려면 먼저 다음 능력이 필요하기 때문입니다.

1. 중요한 object를 찾는다.
2. object interaction을 이해한다.
3. 미래 행동을 예측한다.
4. ego behavior를 결정한다.
5. 그 behavior를 action / trajectory로 변환한다.

DriveLM은 이 중 1~4번을 language QA graph로 구조화합니다.

즉, DriveLM은 다음 흐름에서 앞부분을 담당합니다.

DriveLM:
scene reasoning + planning QA

Future VLA for Driving:
scene reasoning + planning QA + trajectory / action generation

이 점에서 DriveLM은 자율주행 VLA를 공부할 때 반드시 봐야 하는 논문이라고 생각합니다.

9. Takeaways and Next Questions

9.1 Takeaways

DriveLM을 읽고 정리한 핵심 takeaway는 다음과 같습니다.

첫째, DriveLM은 자율주행에서 VLM을 단순한 captioning model이 아니라 reasoning module로 사용하는 방향을 제시합니다.

둘째, DriveLM의 핵심은 Graph VQA입니다. Perception, Prediction, Planning QA를 graph structure로 연결함으로써, driving decision에 필요한 reasoning dependency를 표현하려고 합니다.

셋째, DriveLM-Data는 자율주행 full stack을 language reasoning과 연결하려는 benchmark입니다. nuScenes와 CARLA를 기반으로 perception, prediction, planning, behavior, motion task를 QA graph 형태로 구성합니다.

넷째, DriveLM은 직접적인 Motion Planner는 아닙니다. 하지만 Behavior Planning이나 planner cost / constraint generation에 활용될 수 있는 semantic reasoning signal을 제공할 수 있습니다.

다섯째, 자율주행 VLA 관점에서 DriveLM은 “VLM이 action을 직접 생성하기 전, 어떤 reasoning structure를 가져야 하는가?”를 보여주는 중요한 중간 단계입니다.

9.2 Next Questions

DriveLM 이후 계속 가져가고 싶은 질문은 다음과 같습니다.

1. Graph VQA의 answer를 실제 planner constraint로 어떻게 변환할 수 있을까?

2. DriveLM의 reasoning graph는 실제 driving causal structure를 얼마나 잘 반영하는가?

3. VLM이 생성한 planning answer를 safety-check하려면 어떤 module이 필요할까?

4. DriveLM-style reasoning은 closed-loop driving에서 안정적으로 유지될 수 있을까?

5. Behavior Planning과 Motion Planning 사이에서 language reasoning은 어떤 형태로 들어가는 것이 좋을까?

6. GPT-Driver처럼 trajectory를 language token으로 직접 생성하는 방법과 DriveLM-style reasoning은 어떻게 결합될 수 있을까?

7. World Model의 future rollout과 DriveLM의 what-if QA를 결합할 수 있을까?

10. Conclusion

DriveLM은 자율주행에서 VLM/VLA 흐름을 이해하기 위해 중요한 논문입니다.

이 논문은 VLM이 driving scene을 단순히 설명하는 것을 넘어, perception, prediction, planning을 연결하는 structured reasoning task를 수행할 수 있음을 보여줍니다.

핵심은 Graph VQA입니다.

QA pair = node
logical dependency / object relation = edge

이 구조를 통해 DriveLM은 자율주행 decision-making을 language-based reasoning graph로 표현합니다.

하지만 DriveLM이 곧바로 Motion Planner를 대체한다고 보기는 어렵습니다.

DriveLM의 output은 대부분 language-level reasoning입니다.
반면 Motion Planning은 safety, dynamic feasibility, comfort, rule compliance, real-time execution을 만족하는 trajectory를 생성해야 합니다.

따라서 내 현재 결론은 다음과 같습니다.

DriveLM은 자율주행 VLA의 최종 형태라기보다는, VLA가 driving action을 생성하기 전에 필요한 reasoning structure를 제안한 논문이다.
특히 Behavior Planning, risk reasoning, planner cost / constraint generation에 연결될 가능성이 크다.

RT-1과 RT-2가 로봇 action을 language-conditioned policy로 다루는 출발점이었다면, DriveLM은 자율주행에서 language reasoning이 planning stack과 어떻게 연결될 수 있는지를 보여주는 중요한 단계라고 볼 수 있습니다.

11. Next Paper

DriveLM 다음에는 아래 논문들을 이어서 읽으면 좋을 것 같습니다.

1. GPT-Driver: Learning to Drive with GPT

Motion Planning을 language modeling 문제로 바꾸는 시도입니다.
DriveLM이 reasoning graph를 다뤘다면, GPT-Driver는 trajectory coordinate를 language token처럼 생성하는 방향에 가깝습니다.

2. DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

DriveVLM은 VLM을 scene understanding과 hierarchical planning에 활용합니다.
DriveLM이 QA graph 중심이라면, DriveVLM은 VLM-assisted planning pipeline 관점에서 읽기 좋습니다.

3. EMMA: End-to-End Multimodal Model for Autonomous Driving

Waymo의 end-to-end multimodal driving model입니다.
MLLM이 perception, road graph, planner trajectory를 하나의 unified language space에서 다룰 수 있는지를 봅니다.

4. OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model

명시적으로 VLA for Autonomous Driving을 표방하는 논문입니다.
DriveLM 이후 VLA가 실제 driving action / trajectory generation으로 어떻게 확장되는지 보기 좋습니다.

References

Main Paper

Related Papers

RT-1 논문 리뷰: Robotics Transformer for Real-World Control at Scale
RT-2 논문 리뷰: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
RT-1/RT-2 이후 VLA 연구 흐름 정리
[작성 예정] GPT-Driver 논문 리뷰: Motion Planning을 Language Modeling으로 바꾸기
DriveLM 논문 리뷰: VLM은 Planning Pipeline에 어떻게 들어가는가?
[작성 예정] OpenDriveVLA 논문 리뷰: 자율주행을 위한 VLA 모델

'논문 리뷰 ( Paper Review) > [VLA] Vision Language Action' 카테고리의 다른 글

[논문 리뷰] Open X-Embodiment: Robotic Learning Datasets and RT-X Models (0)	2026.05.28
[논문 리뷰] Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail (0)	2026.05.25
[논문 리뷰] RT-1: Robotics Transformer for Real-World Control at Scale (0)	2026.05.25

현재글[논문 리뷰] DriveLM: Driving with Graph Visual Question Answering

자율주행 연구노트

Motion Planning을 중심으로 자율주행, VLA, World Model, RL, Research Engineering을 공부하고 구현하며 기록하는 연구 노트입니다.

world model, VLA, CoRL2024, OpenVLA, HierarchicalPlanning, Robotics, Motion Planning, DualSystem, 논문리뷰, 자율주행, RT-2, vlm, Robot Learning, DriveLM, RT-X, GPT-Driver, autonomous driving, Vision-Language-Action, imitation learning, RT-1,

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30