To the Next Clever Move

Motion Planning · VLA · World Model — 자율주행 연구 노트

To the Next Clever Move

2026/05/28 3

[논문 리뷰] RT-H: Action Hierarchies Using Language

VLA는 바로 Action을 출력해야 할까, 아니면 중간에 Language Motion이 필요할까?본 포스팅은 RT-H: Action Hierarchies Using Language 논문을 읽고 정리한 글입니다.RT-1은 이미지와 자연어 명령을 입력받아 robot action을 출력하는 language-conditioned robot policy를 제안했고, RT-2는 Vision-Language Model, VLM을 robot action까지 출력하는 Vision-Language-Action, VLA 모델로 확장했습니다.그런데 RT-1과 RT-2를 읽고 나면 자연스럽게 이런 질문이 생깁니다.고수준 task instruction에서 바로 low-level robot action을 예측하는 것이 정말 좋은..

[논문 리뷰] Open X-Embodiment: Robotic Learning Datasets and RT-X Models

로봇 학습에서도 Foundation Model을 위한 공통 데이터셋이 가능할까?본 포스팅은 Open X-Embodiment: Robotic Learning Datasets and RT-X Models 논문을 읽고 정리한 글입니다.RT-1과 RT-2를 읽고 나면 자연스럽게 다음 질문이 생깁니다.RT-1/RT-2는 강력하지만, 특정 로봇과 특정 데이터 분포에 너무 의존하는 것은 아닐까?여러 기관, 여러 로봇, 여러 task에서 수집한 데이터를 하나로 모으면 더 general한 robot policy를 만들 수 있을까?Open X-Embodiment는 이 질문에 답하려는 논문입니다.RT-1이 하나의 robot fleet에서 수집한 대규모 real-world data로 multi-task robot policy..

[논문 리뷰] DriveLM: Driving with Graph Visual Question Answering

자율주행에서 VLM은 어떻게 Perception, Prediction, Planning을 연결하는가?본 포스팅은 DriveLM: Driving with Graph Visual Question Answering 논문을 읽고 정리한 글입니다.RT-1과 RT-2를 읽으면서 VLA의 기본 흐름을 먼저 봤다면, DriveLM은 그 흐름이 자율주행으로 넘어왔을 때 어떤 형태로 변형되는지를 보여주는 논문이라고 볼 수 있습니다.RT-2가 로봇 manipulation에서 Vision-Language Model을 action-generating policy로 확장하려 했다면, DriveLM은 자율주행에서 VLM이 driving scene을 어떻게 이해하고, object interaction을 어떻게 추론하며, planni..