VLA는 바로 Action을 출력해야 할까, 아니면 중간에 Language Motion이 필요할까?본 포스팅은 RT-H: Action Hierarchies Using Language 논문을 읽고 정리한 글입니다.RT-1은 이미지와 자연어 명령을 입력받아 robot action을 출력하는 language-conditioned robot policy를 제안했고, RT-2는 Vision-Language Model, VLM을 robot action까지 출력하는 Vision-Language-Action, VLA 모델로 확장했습니다.그런데 RT-1과 RT-2를 읽고 나면 자연스럽게 이런 질문이 생깁니다.고수준 task instruction에서 바로 low-level robot action을 예측하는 것이 정말 좋은..