[Paper Review] Robotic Control via Embodied Chain-of-Thought Reasoning

이번에 리뷰해볼 논문은 "Robotic Control via Embodied Chain-of-Thought Reasoning" 라는 논문입니다. 위 논문은 최근 많은 VLM에 적용되고 있는 "Chain-of-thought" 기술을 Embodied 환경에 적용시킨 논문입니다. 위 논문은 반드시 리뷰 뿐 아니라 부록에도 많은 내용이 나오니 Paper 까지 읽는 것을 추천드립니다!

논문 주소: https://arxiv.org/pdf/2407.08693

Github: https://embodied-cot.github.io/

Abstract

기존 Robot control policies의 주요 한계는 훈련 데이터 외부에서 일반화가 어렵다는 점입니다. 최근 연구들은 Vision-Language-Action model (VLA)이 대규모 vision-language 모델을 backbone으로 사용하면 로봇 정책의 일반화 능력을 크게 향상시킬 수 있음을 보였습니다. 그러나 기존 VLA는 복잡한 문제를 반복적으로 추론하는 능력을 활용하지 못하며, 단순한 Chain-of-Thought (CoT) prompting 방식은 비효율적입니다.

이를 해결하기 위해 연구진은 Embodied Chain-of-Thought Reasoning (ECoT)을 도입하였습니다. ECoT는 로봇이 행동을 예측하기 전에 Plans, sub-tasks, motions, bounding box, end effector positions 등 시각적으로 연결된 특징을 기반으로 다단계 추론을 수행하도록 학습됩니다. 이를 위해 연구진은 대규모 Robot 데이터셋에서 ECoT 훈련을 위한 합성 데이터를 생성하는 확장 가능한 pipeline을 설계하였습니다.

실험 결과, ECoT는 추가적인 로봇 훈련 데이터 없이도 OpenVLA의 성공률을 28% 향상시켰으며, 사람이 정책의 실패를 해석하고 자연어로 수정하는 과정을 쉽게 만들었습니다. 또한, ECoT는 보지 못한 작업에도 추론을 전이하는 방법을 학습할 수 있음을 입증하였습니다.

1. Introduction

Robot Policies가 End-to-End 방식으로 훈련될 경우, 복잡한 control stack 없이 센서 관찰을 기반으로 저수준 행동을 출력하는 강력한 로봇 제어 접근 방식을 제공합니다. 그러나 Reactive control은 새로운 장면이나 낯선 객체와의 상호작용이 필요한 환경에서 일반화가 어렵습니다. 인간이 새로운 작업을 수행할 때 신중한 추론을 하듯이, 로봇도 상황을 이해하고 Reason through을 수행한 후 행동을 결정하는 능력이 필요합니다.

Vision-Language-Action (VLA) 모델은 사전 학습된 vision-language model을 활용하여 로봇 행동을 학습하는 방식으로, 대규모 Foundation model이 포함한 인터넷 데이터의 다양성을 활용할 수 있어 인기를 끌었습니다. 하지만 기존 VLA는 중간 추론 없이 관찰을 행동으로 직접 매핑하는 방식으로 학습됩니다. 반면, 최근 연구들은 언어 모델이 Chain-of-Thought (CoT) reasoning을 통해 "step-by-step" 추론을 수행하면 성능이 향상됨을 보여주었으며, 이를 VLA에도 적용할 수 있다는 가설이 제시되었습니다.

그러나 단순한 CoT 기법을 로봇 분야에 적용하는 데는 한계가 있습니다. 현재의 open-source VLM 기반 VLA는 강력한 closed 모델들과 비교할 때 깊이 있는 추론 능력이 부족하며, 언어 모델에서 흔히 사용되는 하위 작업 분할 방식의 CoT는 로봇 정책 학습에 불충분합니다. VLA 정책이 효과적으로 학습되려면 로봇의 환경과 상태에 대한 관찰을 기반으로 추론해야 하며, 단순히 "think carefully" 하는 것뿐만 아니라 "look carefully" 하는 능력도 필요합니다.

이를 해결하기 위해 Embodied Chain-of-Thought Reasoning (ECoT)을 VLA 정책에 도입합니다. 기존 VLA와 달리 ECoT 정책은 로봇 행동을 예측하기 전에 여러 단계의 텍스트 기반 추론을 수행합니다. 단순한 의미론적 추론을 넘어, 로봇이 환경에 대한 다중 모달 입력을 고려하는 "embodied" 추론을 포함하며, bounding box 예측부터 로봇의 저수준 동작 원리에 대한 분석까지 수행합니다.

이를 위해 대규모 로봇 데이터셋에서 ECoT 훈련 데이터를 합성 생성하는 확장 가능한 Pipeline을 설계하였으며, Open-Vocabulary object detector와 LLM을 활용하여 정책을 위한 reasoning supervision을 생성합니다.

실험 결과, ECoT는 OpenVLA의 성공률을 28% 향상시켰으며, 추가적인 로봇 훈련 데이터 없이도 새로운 객체, 장면, 시점, 지시 사항에 대한 일반화 능력을 개선하였습니다. 또한, Embodied CoT를 통한 학습이 정책 실패를 더 잘 해석할 수 있도록 하며, 사람이 자연어 피드백을 통해 reasoning chain을 수정하여 정책의 행동을 쉽게 조정할 수 있도록 함을 입증하였습니다.

2. Related Work

Scaling robot learning.

로봇 학습의 오랜 목표는 비구조적 현실 세계 환경에서도 일반화할 수 있는 정책을 훈련하는 것입니다. 이를 위해 최근 연구들은 다양한 로봇 데이터셋에서 "generalist robot policies"을 훈련하는 방법을 탐구하였습니다.

이러한 다양한 로봇 훈련 데이터셋을 활용하면, 정책이 자연어 프롬프트를 통해 다양한 조작 작업을 수행할 수 있으며, 일부 정책은 여러 로봇 구현체를 제어할 수도 있습니다. 중요한 점은, 로봇 정책을 대규모·다양한 데이터셋에서 훈련하는 것이 정책의 강건성과 일반화 능력을 향상시키는 유망한 접근 방식임을 입증했다는 것입니다.

Vision-language models for robot generalization.

로봇 데이터셋의 한계를 뛰어넘어 일반화 능력을 강화하기 위해 Open source Vision-Language 모델들이 개발되었습니다. 이러한 모델은 visual-language 표현을 학습하며, 텍스트에서 이미지를 생성하거나 이미지와 프롬프트에 응답하여 텍스트를 생성할 수 있는 능력을 갖추고 있습니다. 이에 따라 Robot learning pipeline에 Vision-Language 모델을 통합하는 다양한 연구가 진행되었으며, 예를 들어 목표 생성, 보상 신호 제공, 시각적 상태 표현 학습과 같은 방식이 활용되고 있습니다.

특히, 대규모 로봇 데이터셋을 수집하는 것이 어렵기 때문에, 인터넷 규모 데이터에서 사전 훈련된 Vision-Language 모델을 사용하는 것이 현실 세계에서 강건한 로봇 정책을 구현하는 유망한 대안으로 떠오르고 있습니다. 관련 연구들에서는 사전 학습된 Vision-Language 모델을 로봇 정책에 통합하는 접근 방식을 탐구해왔으며, 일부 연구는 구조적 선형 지식을 적용하여 이 통합을 가능하게 했습니다.

Vision-Language-Action (VLA) 모델은 단순하면서도 확장 가능한 대안으로 제안되었으며, 일반화된 로봇 정책에서 최첨단 성능을 달성하면서 새로운 객체와 장면에 대한 뛰어난 일반화 능력을 보였습니다. 그러나 기존 VLA는 Vision-Language 모델의 주요 장점 중 하나인 "주어진 작업을 해결하는 데 필요한 단계를 추론하는 능력"을 충분히 활용하지 못하고 있는 한계가 있습니다.

Reasoning for language and control.

LLM의 단계별 추론은 복잡한 작업 해결의 핵심 요소이며, "Think step-by-step" 방식이 성능을 크게 향상시킬 수 있음이 입증되었습니다. 이러한 Chain-of-Thought (CoT) 추론 기법은 언어 모델링과 Vision-Language 훈련에서 표준 관행이 되었으며, 로봇의 고수준 작업 계획에서도 유사한 접근 방식이 탐구되어 왔습니다.

기존 연구들은 LLM을 사용하여 작업을 하위 작업으로 분해하지만, 실행은 사전 훈련된 저수준 정책에 의존하는 한계가 있었습니다. 이에 대해 연구진은 (1) 신중한 추론이 고수준뿐만 아니라 저수준 제어에도 유용하며, (2) 모든 추론이 로봇의 시각적 관찰과 상태에 기반해야 한다고 주장합니다.

이를 바탕으로 기존 연구 및 언어 전용 CoT와 달리, 본 연구에서는 VLA 정책을 훈련하여 입력된 지시 사항과 관찰에 따라 CoT(고수준 및 저수준 추론)와 행동을 자동회귀적으로 생성하는 방식을 제안합니다. 또한, 이러한 추론이 에이전트의 환경과 강하게 연결되도록 설계하였으며, 이를 통해 (V)LM의 추론 능력을 효과적으로 활용하는 것이 로봇 제어에서 중요함을 실험적으로 입증하였습니다.

3. Preliminaries: Vision-Language-Action Models

본 연구에서는 Embodied Chain-of-Thought 정책의 backbone으로 VLA를 활용하며, VLA를 간단한 Policies learning recipe로 사용합니다. 즉, 사전 학습된 Vision-Language 모델을 기반으로, 현재 이미지 관찰 I과 작업 지시 T 가 주어졌을 때, 다음 로봇 행동을 자동 회귀적으로 예측하도록 미세 조정합니다.

이를 위해 연속적인 로봇 행동은 action discretization 방식을 통해 256개 구간 중 하나로 변환되며, 이를 discretized action token $T_a $$로 매핑합니다.

본 연구에서는 최근 출시된 OpenVLA 모델을 사용하며, 이 모델은 Prismatic VLM을 기반으로 SigLIP 및 DinoV2 기능을 결합한 Visual Encoder와 Llama2 7B LLM Backbone으로 구성됩니다. 훈련 과정에서 입력 이미지는 사전 학습된 vision encoder를 사용하여 visual token embedding으로 변환되며, 작업 지시는 Llama2 Text tokenizer를 통해 작업 token으로 매핑됩니다. 모델은 이러한 입력을 target action token으로 변환하도록 학습됩니다.

다음으로, VLA가 작업을 수행하기 전에 추론을 수행할 수 있도록 기존 VLA 학습 방식을 개선하는 방법에 대해 논의합니다.

4. Embodied Chain-of-Thought Reasoning for Visuomotor Policies

본 연구에서는 VLAs가 로봇 행동을 예측하기 전에 Plans, sub-tasks, Motions, Visual Features에 대해 Embodied Chain-of-Thought (ECoT) Reasoning을 수행하도록 훈련하는 방법을 제안합니다.

기존 LLM과 달리, 현재 VLA에서 사용되는 작은 LLM Backbone은 단순한 "step-by-step" prompting만으로는 복잡한 추론을 수행하는 데 한계가 있습니다. 이를 해결하기 위해 VLA 모델이 ECoT 추론을 직접 학습하도록 훈련하는 접근 방식을 도입합니다.

구체적으로, 기존 로봇 데이터셋에서 사후(Post-hoc) labeling을 수행하여 다양한 사전 학습된 모델에서 추출한 특징을 포함한 reasoning chains을 생성합니다. 이를 Observation-Reasoning-Action Tuple 형태의 데이터셋으로 변환하여 VLA를 훈련하며, 생성된 reasoning 데이터를 문자열로 변환하여 Llama2 Text Tokenizer를 AutoRegressive 방식으로 예측하도록 학습한 후, action tokens을 바로 예측하도록 합니다.

이 접근 방식은 개념적으로 단순하지만, 다음과 같은 핵심 질문을 해결해야 합니다:

어떤 reasoning step이 로봇 조작 작업을 해결하는 데 적절할까?
기존 로봇 데이터셋을 활용해 이러한 reasoning steps에 대한 훈련 데이터를 어떻게 대규모로 생성할 수 있을까?
ECoT 정책이 각 행동을 신중하게 추론하는 과정에서 정책 추론 속도를 저하시킬 가능성이 있는데, 이를 어떻게 해결할 수 있을까?

다음 섹션에서는 이러한 문제들에 대한 해결책을 논의합니다.

4.1 Designing Embodied Chain-of-Thought Reasoning Steps

그림 3. Steps our embodied chain-of -though reasoning

ECoT reasoning step을 설계할 때 목표는 두 가지입니다.

현재 작업의 High-Level steps을 추론하여 다음 실행 단계를 결정하도록 합니다.
로봇이 행동을 예측하기 전에, 환경(scene)과 로봇 상태(robot state)의 Low-Level Feature를 점진적으로 고려하도록 유도합니다.

그림 3에서 ECoT reasoning steps의 학습 과정을 시각적으로 표현하였으며, VLA는 왼쪽에서 오른쪽으로 단계적으로 학습합니다.

TASK: 주어진 작업 지시를 더 명확한 의미로 변환(rephrase)
PLAN: 작업을 완료하기 위한 High-Level Plan 예측
SUBTASK: 현재 실행해야 할 하위 작업 결정 (Scene 및 Robot State 이해 필요)
(MOVE: “왼쪽으로 이동” 또는 “위쪽으로 이동”과 같은 Low-Level Language Command 예측(로봇이 실제로 실행해야할 동작과 밀접하게 연관)
GRIPPER (End Effector Position Prediction): 로봇이 End-effector의 pixel 좌표 예측 (자신의 위치를 인식하도록 유도)
OBJECTs (Object Bounding Box Prediction): 장면 내 객체의 이름과 Bounding Box 좌표 예측 (시각적 요소에 대한 높은 수준의 주의 유도)

연구진은 위의 Reasoning tasks와 그 순서가 과제를 단계적으로 해결하는 데 적절하다고 판단하지만, 모든 가능한 reasoning task를 철저히 탐색한 것은 아님을 명시합니다. 향후 연구 방향으로, 대체 가능한 task와 task 순서를 테스트하고, 최적의 reasoning chain을 자동으로 결정하는 방법을 탐색하는 것이 중요할 것이라고 제안합니다.

4.2 Generating Embodied Chain-of-Thought Data at Scale

그림 4: Our pipeline for generating synthetic embodied chain-of-thought data at scale for a given robot dataset.

고품질 reasoning chain을 얻는 가장 확실한 방법은 사람이 직접 annotations을 다는 것입니다. 그러나 로봇 학습 데이터셋은 수백만 개의 개별 transition으로 구성되어 있어, 수작업으로 모든 데이터를 주석하는 것은 현실적으로 불가능합니다.

이를 해결하기 위해, 사전 학습된 Vision 및 Language 기반 모델을 활용하여 자동으로 ECoT 훈련 데이터를 생성하는 방법을 제안합니다. 이 접근 방식은 NLP에서의 합성 데이터 생성(synthetic data generation)과 유사한 방식으로 동작합니다.

그림 4에서는 해당 Data Generation Pipeline의 개괄적인 구조를 설명하고 있습니다.

장면 설명(Scene Description) 생성:
- 주어진 이미지-지시어(image-instruction) 쌍을 입력으로 받은 후, Prismatic-7B VLM을 프롬프트 하여 장면에 대한 description 을 생성.
Object Detection 및 특성 매핑:
- 원본 작업 지시와 생성된 장면 설명을 하나의 문자열로 결합.
- 이를 Grounding DINO에 입력하여 Object instance detection 및 bounding box 추출.
- 탐지된 객체와 해당 언어 표현을 매칭하여 객체별 설명을 생성.
- 신뢰도 점수(confidence score)를 기준으로 필터링하여 bounding box 신뢰도가 0.3 이상. 텍스트 신뢰도 0.2이상인 객체만 OBJECT feature로 유지.
MOVE(저 수준 동작) 생성:
- Belkhale et al. [64]의 방식을 따름.
- 로봇의 자기수용 감각(proprioception)을 이용하여 next 4 time steps동안의 이동 방향을 결정.
- 이를 729개의 미리 정의된 templated movement primitives 중 하나로 변환(부록 B 참고)
로봇 End effector(Gripper) 위치 추출:
- OWLv2 및 SAM을 사용하여 훈련 이미지에서 2D End-effector 위치 감지(GRIPPER)
- 로봇 상태에서 추출한 3D 위치 정보를 이용하여 RANSAC(Random sample Consensus) 을 적용한 강건한 projection matrix fitting 수행.(RANSAC: 데이터를 랜덤하게 샘플링하여 사용하고자 하는 모델을 fitting한 다음 fitting 결과가 원하는 목표치 (합의점, Consensus)에 도달하였는 지 확인하는 과정)
- 이 과정에서 각 궤적(tragectory) 마다 독립적으로 반복 수행되어, 고정된 카메라 매개 변수(fixed camera parameters)에 의존할 필요가 없음.
최종 Reasoning Chain 생성.
- 각 episode의 task instruction, scene description, per-step movement primitives를 Gemini 1.0에 입력
- 작업 지시에 따른 고수준 sub-task plan 및 각 step에서 수행해야 할 현재 sub-task 작업을 생성하도록 prompt
- 각 step에서 선택된 primitive movement와 sub-task를 간략히 설명하여 ECoT 훈련 데이터에 포함

이 데이터 생성 Pipeline을 Bridge v2 Dataset(약 250만 개 이상의 transition)에 대해 7일 동안 실행하여 대규모 훈련 데이터를 생성합니다.

4.3 Efficient Chain-of-Thought Inference for Robot Policies

ECoT 정책의 주요 도전 과제 중 하나는 추론 속도 저하입니다. ECoT에서는 Timestep당 예측해야 하는 token 개수가 OpenVLA(7개)에서 ECoT(350개)로 증가하여 control frequency가 감소할 가능성이 있습니다.

이를 해결하기 위해 추론 속도를 높이는 단순한 방법을 제안하며, 고수준 reasoning chain(예: 계획 및 현재 하위 작업)을 여러 스텝 동안 고정하여 속도를 향상시키는 전략을 사용합니다.

두 가지 실행 방식은 다음과 같습니다:

동기식 실행(Synchronous Execution)
- 고수준 reasoning(예: 하위 작업 계획)을 N 스텝마다 한 번만 예측
- N 스텝 동안 동일한 reasoning을 유지한 후 업데이트
비동기식 실행(Asynchronous Execution)
- 두 개의 ECoT 정책 인스턴스를 사용
- 첫 번째 정책: 고수준 reasoning chain을 지속적으로 업데이트
- 두 번째 정책: 최신 reasoning chain을 활용하여 저수준 reasoning 및 로봇 행동 예측
- reasoning 연산을 병렬화하여 속도 개선

이 두 접근 방식의 성능과 추론 속도 간의 trade-off는 섹션 5.5에서 분석합니다.

또한, 이러한 실행 최적화 방법들은 기존의 대형 언어 및 비전-언어 모델의 속도를 높이는 접근법(예: optimized computation kernels, speculative decoding)과 독립적이며, 추후 연구에서 추가적으로 적용할 가능성이 남아 있습니다.

5. Experiments

이 섹션에서는 ECoT(Embodied Chain-of-Thought)이 로봇 제어 성능에 미치는 영향을 다양한 조작(manipulation) 작업에서 평가한다. 이를 통해 다음과 같은 질문에 답하고자 합니다.

ECoT reasoning이 VLA 정책(VLA policies)의 성능을 향상시키는가?
ECoT reasoning이 정책 실패(policy failures)를 해석하고 수정하는 것을 더 쉽게 만드는가?
ECoT reasoning을 적용한 정책의 실행 효율성을 최적화할 수 있는 방법은 무엇인가?

5.1 Experimental Setup

Robot Setup and Training Data

본 실험에서는 Bridge V2 환경에서 6-DoF WidowX 로봇 팔을 사용하며, 이는 일반화 가능한 로봇 정책 평가에 널리 사용되는 설정입니다.

입력: 3인칭 카메라로 촬영한 장면과 자연어 지시
출력: 로봇의 End-effector 속도 제어를 예측하여 조작
데이터셋: Bridge V2에는 약 60,000개의 원격 조작 시연 데이터 포함
ECoT 훈련 데이터: Section 4.2에서 설명한 합성 CoT 데이터 생성 파이프라인을 적용하여 구축

Evaluation Tasks

정책의 일반화 능력을 다양한 측면에서 평가하기 위해 도전적인 evaluation task 세트를 설계하였으며, 다음과 같은 기준으로 평가됩니다:

공간적 관계(Spatial Relations) 처리
이전에 본 적 없는 객체(Unseen Objects)와의 상호작용
이전에 본 적 없는 지시사항(Unseen Instructions) 수행

모든 정책은 동일한 real-world setup에서 평가되며, 카메라 각도, 조명, 배경 등의 변수는 통제됩니다. 각 접근 방식에 대해 총 314개의 실험을 수행하였습니다.

Comparisons

ECoT 정책을 최신 VLA 정책들과 비교하였습니다.

OpenVLA (Bridge)
- 기존 OpenVLA 기반 정책
- CoT reasoning 없이 학습된 모델
- Bridge V2 데이터셋에서 훈련되어 직접 비교 가능
RT-2-X
- 55B 파라미터를 가진 폐쇄형(Closed) VLA 정책
- Bridge V2 데이터와 추가적인 Open X-Embodiment 데이터셋을 사용하여 학습
- ECoT보다 더 많은 학습 데이터를 활용하므로 데이터 분포 동일 통제가 어려움
Octo
- Open X-Embodiment 데이터셋에서 학습되었으나 VLM을 활용한 VLA 정책이 아님
Naïve CoT
- ECoT에서 embodied reasoning을 제외한 버전
- 기존 언어 모델 기반 CoT reasoning만 포함 (예: 하위 작업 계획)
- ECoT의 embodied reasoning이 VLA 정책에서 얼마나 중요한지 검증하기 위한 비교 실험

5.2. Embodied Chain-of-Thought Reasoning Improves Policy Generalization

표 1. Comparison of success rates for OpenVLA ,RT-2-X, and ECoT

실험 결과에 대한 주요 분석은 다음과 같습니다.

OpenVLA(Bridge)의 성능
- In-distribution tasks에서 높은 성능을 보였으나, 어려운 generalization case에서는 성능이 저하됨을 확인함.
RT-2-X의 성능
- OpenVLA(Bridge)보다 더 나은 성능을 기록, 이는 더 큰 로봇 사전 학습 데이터셋을 활용했기 때문일 가능성이 높음.
- RT-2-X는 인터넷 규모의 Vision-Language 데이터와 로봇 데이터를 함께 Co-training하였으나, 다른 모든 접근법은 로봇 데이터만 사용하여 Fine-tuning하였음.
ECoT Policy의 성능
- ECoT 정책이 OpenVLA(Bridge)보다 거의 모든 일반화 평가에서 뛰어난 성능을 기록.
- 이는 주목할 만한 결과이며, 두 정책은 동일한 VLM 기반 모델을 사용하고 같은 로봇 데이터를 Fine-tuning했지만, 차이점은 ECoT가 Chain-of-Thought (CoT) Reasoning을 적용했다는 것뿐.
ECoT vs RT-2-X
- ECoT 모델이 RT-2-X 모델보다 테스트된 작업에서 더 높은 성공률을 기록.
- 이는 RT-2-X가 10개의 추가 로봇 데이터셋을 사용하여 훈련되었고, 7배 더 큰 신경망(55B vs 7B)을 사용했음에도 불구하고 나온 결과로, ECoT의 효과성을 입증함.
Embodied Reasoning의 중요성
- 시각적 입력과 로봇의 저수준 상태를 고려하는 Embodied Reasoning을 포함하는 것이 성능 향상에 크게 기여함.
- 반면, "Naïve CoT" 방식(고수준 언어적 특징만을 기반으로 부분 작업 계획을 생성하는 방식)은 상대적으로 낮은 성능을 기록하며, 로봇 조작 작업에서 embodied reasoning의 필요성을 보여줌.

그림 5. Qualitative ECoT predictions from our model for two successful trahectories(Left, middle) and oun failure(right)

우리 모델의 추론 과정에 대한 시각적 qualitative 예시는 그림 5를 참고하면 됩니다.

왼쪽의 두 가지 예시는 모델이 주어진 작업을 일련의 sub-task로 성공적으로 분해하는 과정을 보여줍니다.
특히, 각 하위 작업을 장면 내에서 적절하게 grounding하는 과정이 핵심적으로 이루어집니다.
이를 위해, 모델은 관련된 Bounding Box와 로봇의 Gripper 위치를 예측한 후, 다음 움직임과 저수준 로봇 행동(Low-level robot action)을 결정합니다.

5.3 Diagnosing Policy Failures Through Inspecting Reasoning Chains

이전 섹션에서는 VLA 정책이 주어진 작업을 단계별로 추론하도록 훈련하면, 어려운 일반화 작업에서 성능이 크게 향상될 수 있음을 보였습니다.

추가적으로, Chain-of-Thought(CoT) 추론 방식은 정책의 결정을 사용자와 연구자가 더 잘 이해할 수 있는 도구로 활용될 수 있습니다.

모델의 추론 과정을 분석하고 시각화하면, 정책이 실패한 원인이 되는 논리적 오류를 발견할 수 있습니다.
예를 들어, 그림 5 오른쪽에서는 ECoT 정책이 "Pick up the screwdriver" 작업을 수행하는 데 실패한 사례를 보여줍니다.
- Reasoning chain을 분석한 결과, 모델이 망치를 드라이버로 잘못 인식했으며,
- 이로 인해 로봇이 망치를 잡으려고 시도하여 실패한 것임을 확인할 수 있습니다.

그러나 reasoning chain 분석이 End-to-End 방식으로 학습된 정책의 실패를 완벽히 해석하는 "Bullet-proof" 방법은 아님을 유의해야 합니다.

즉, 모델이 특정 계획을 예측했다고 하더라도, 최종 행동을 선택하는 과정에서 해당 계획에서 벗어날 가능성이 있음을 고려해야 합니다.
하지만 실제 실험에서는 reasoning chain이 실행된 행동과 강한 상관관계를 가지는 경우가 많다는 점을 확인하였습니다.

5.4 Chain-of-Thought Reasoning Enables Interactive Policy Correction

정책이 자연어를 통해 작업을 단계별로 추론하도록 훈련되면, 사람이 정책과 상호작용하며 행동을 수정할 수 있는 강력한 매커니즘을 제공합니다.

기존 DAgger(Dataset Aggregation) 접근법에서는 로봇 행동을 수정하기 위해 복잡한 원격 조작 장비가 필요했으나,
ECoT 정책을 활용하면, 사람이 자연어 피드백만으로 정책의 행동을 수정할 수 있음을 실험적으로 검증합니다.

이전 연구에서는 정책 구조를 신중하게 설계하고, 언어 피드백을 통한 수정이 가능하도록 명시적으로 훈련된 정책을 도입한 바 있습니다.
그러나 본 연구에서는 VLA 정책이 Chain-of-Thought(CoT) 추론을 수행하도록 학습하면, 이러한 상호작용 기능이 자연스럽게 나타나는지 실험합니다.

이를 검증하기 위해, 표 1에서 가장 어려운 평가 작업(컵에 버섯을 넣기, 분포 밖(out-of-distribution) 객체 집기, 노란색이 아닌 객체 집기)에 대해 ECoT 정책을 다시 평가하였습니다.

이전 실험에서 인간 개입 없이 실행한 경우, ECoT 정책의 평균 성공률은 32%에 불과했습니다.

그림 6에서는 인간 개입을 통한 정책 수정 과정을 시각화하였습니다.

에피소드 중 한 번, 인간이 정책 실행을 중단하고 자연어 피드백을 제공(예: "no, the screwdriver is in the back right corner", "release the mushroom now!", "the cup is tall")
ChatGPT를 활용하여 모델의 reasoning chain을 수정하도록 유도 (부록 Fig 12 참고)
수정된 reasoning chain을 다시 정책에 입력하고, 5 스텝 동안 고정하여 실행

그림 6 오른쪽 결과에서, ECoT 정책은 인간의 언어적 개입을 효과적으로 활용하여, 가장 어려운 평가 작업에서 성공률을 48% 증가시켰습니다.

비교 실험에서는 OpenVLA(Non-CoT)와 RT-2-X도 동일한 방식으로 평가하였습니다.

각 정책에 대해 한 번씩 인간의 언어적 개입(intervention)을 제공
공정한 비교를 위해 ChatGPT를 활용하여 수정된 Task instruction을 반영

그러나 OpenVLA(Non-CoT)와 RT-2-X는 인간 개입을 효과적으로 활용하지 못했음을 확인하였습니다.

5.5 Efficient Chain-of-Thought Inference

본 연구에서는 Chain-of-Thought (CoT) 정책 추론을 가속화하는 다양한 접근법의 성능을 비교하였습니다 (섹션 4.3 참고).

각 실행 스텝마다 CoT 추론을 수행하는 단순한(naïve) 방식과 비교하여 평가하였으며, 결과는 표 2에 제시되었습니다.
또한, Section 4.3에서 제안한 두 가지 방법이 단순한 CoT 실행 방식과 비교하여 속도를 얼마나 향상시켰는지(Speed-UP)도 측정하였습니다.

주요 결과

두 가지 방법 모두 추론 속도를 개선하면서 기존 성능을 유지하였습니다.
비동기 실행(Asynchronous Execution)은 가장 큰 속도 향상을 달성하였지만, 추론 시간 동안 두 개의 정책 인스턴스가 병렬로 실행되므로 연산 비용이 2배 증가하는 trade-off가 존재합니다.
이에 연구진은 최종 결과(표 1)에서 5-step freeze 방식을 사용,
- 이는 성능과 속도 간의 가장 균형 잡힌 trade-off를 제공하기 때문입니다.

실험은 작은 작업 subset을 사용하여 평가하였으며,

"put mushroom in pot",
"move mushroom to detergent or measuring tape",
"put the left/right object on the middle" 등의 작업이 포함되었습니다.

5.6 Additional Analysis

표 3. Success rate of ECoT trained with various design choises

Can weimprove speed and interpretability of the ECoT reasoning?

본 연구에서는 reasoning chain의 구조를 두 가지 방식으로 수정하여 성능을 테스트하였습니다.

Bounding Box 생성 시점을 조정
- Bounding Box 생성을 reasoning chain에서 더 앞쪽으로 이동하여 계획 직후 생성하도록 변경
- N-Step 추론(inference) 동안 Bounding Box를 고정할 수 있어 속도가 30~50% 향상됨
- Bounding Box 생성이 예측된 토큰의 상당한 비율을 차지하기 때문
미래 Gripper 위치 예측 추가
- 모델이 현재 Gripper 위치뿐만 아니라, 향후 4개의 미래 Gripper 위치도 예측하도록 학습
- 이를 통해 ECoT 정책의 예상 로봇 움직임을 대략적으로 시각화 가능
- 완벽한 예측은 아니지만, 정책의 동작을 예측하는 대략적인 지표로 활용 가능
- 특히 실제 로봇 rollout 환경에서 중요한 역할 수행

이러한 구조로 Out-of-Distribution 환경에서 106개의 실험을 수행하였습니다.

Bounding Box를 고정하는 방식의 정책은 기본 ECoT 모델보다 성능이 낮았으나,
모든 베이스라인 모델(Octo, OpenVLA(Bridge), RT-2-X)보다는 높은 성능을 기록 (표 3 참고)
속도 향상과 시각적 해석 가능성 덕분에 이후 실험에서 이 구조를 채택하였습니다.

Does co-Training with vision-language data help?

ECoT와 OpenVLA는 Fine-tuning 과정에서 기존 VLM(Vision-Language Model)의 자연어 질의 응답(Q&A) 능력을 잃는 문제가 있었습니다.
이를 해결하기 위해, 로봇 행동 데이터뿐만 아니라 Vision-Language 훈련 데이터를 함께 사용하는 공동 학습(Co-training)을 테스트하였습니다.

ECoT 모델을 로봇 데이터와 Prismatic VLM의 Vision-Language 데이터셋(3:1 비율)로 공동 학습
실험 결과, 공동 학습된 모델은 로봇 제어 성능에서 측정 가능한 향상을 보이지 않음 (표 3 참고)
그러나, Vision-Language Q&A 성능이 향상됨
- 예를 들어, "코카콜라 캔을 테일러 스위프트에게 가져다 줘" 같은 특정 작업에서 성공률이 4/4로 증가
- 유명인을 인식하는 능력이 향상됨

즉, 공동 학습(Co-training)은 로봇 제어 성능에는 영향을 주지 않았지만, Vision-Language 이해 능력을 개선하는 데 도움이 되었습니다.

Does ECoT capability transfer to other robots?

CoT 방식이 특정 로봇(WindowX)에서 학습되었을 때, 다른 로봇으로 전이(Transfer)될 수 있는지 테스트하였습니다.

사전 학습된 OpenVLA-7B를 Fine-tuning하여 ECoT 적용
- OpenVLA-7B는 27개의 로봇 데이터셋으로 사전 훈련됨
- 기존 BridgeData V2 대신 ECoT 데이터셋을 추가하여 Fine-tuning 진행
- 전체 학습 데이터의 약 13%를 ECoT 데이터로 대체
주요 결과
- Fine-tuning된 VLA가 처음부터 학습된 ECoT보다 훨씬 빠르게 학습됨
  - 20K step만 학습해도 기존 80K step 학습된 ECoT 모델과 거의 동일한 성능을 달성 (표 3 참고)
  - 2500 step만 학습해도 상당히 유사한 성능을 기록 (연산량 4배 및 30배 감소)
- Fine-tuning된 모델은 학습되지 않은 로봇 환경에서도 ECoT 추론을 수행 가능
  - 단순히 ECoT sequence의 시작 부분(예: "TASK")을 프롬프트로 입력하는 것만으로도 전이 가능 (그림 7 참고)
  - 로봇의 Gripper, 객체 및 해당 위치를 인식하고, 미래 Gripper 움직임을 예측할 수 있었음
  - 로봇의 외형, 장면, 레이아웃 및 카메라 설정이 크게 달라도 작동
- ECoT 학습 데이터로 단 하나의 로봇(WindowX BridgeDataV2 데이터셋)만 제공했음에도 성공적인 전이 가능
가설
- VLM의 사전 학습이 로봇의 End-effector 위치, 움직임, 객체의 정체성과 위치 개념을 일반화할 수 있도록 했을 가능성이 높음
SIMPLER real-to-sim 환경 평가
- Fine-tuned ECoT 모델을 SIMPLER real-to-sim 환경에서 Google Robot 작업 수행 평가
- real-to-sim domain gap으로 인해 reasoning chain에서 더 많은 오류 발생 → 성능 저하
- 결과적으로 ECoT 모델은 OpenVLA(Non-ECoT)와 비교하여 전반적인 성능 향상을 이루지 못함

6. Discussion and Limitations

이번 연구에서는 VLA(Vision-Language-Action) 정책이 Chain-of-Thought(CoT) 추론을 수행하도록 훈련하면, 추가적인 로봇 훈련 데이터를 수집하지 않고도 성능을 크게 향상시킬 수 있음을 입증하였습니다.

주요 실험 결과

단순한 언어 모델링 기반 CoT 적용이 아니라,
Bounding Box, End-effector, 저수준 로봇 움직임과 같은 로봇 환경과 강하게 연관된 reasoning step을 추가하는 것이 중요함을 확인

한계점

Reasoning chain의 구조가 작업(task)에 따라 유연하게 조정되지 않음
- 현재 모델은 고정된 순서대로 reasoning step을 수행하며, 모든 단계를 동일하게 적용
- 보다 효과적인 전략은 로봇과 장면 상태에 따라 reasoning step의 일부만 실행하는 방식
- 향후 연구에서는 가장 적절한 reasoning step을 자동으로 선택하는 모델 최적화 방법 탐색 필요
ECoT 학습을 Open-X Embodiment(OXE) 데이터셋으로 확장 필요
- 더 큰 데이터셋으로 학습하면, ECoT의 전이(Transfer) 능력이 향상되어 더 다양한 로봇에서 적용 가능
ECoT 정책의 실행 속도 문제
- Section 4.3의 런타임 최적화 덕분에 Control Frequency를 개선했으나, 여전히 제한적
- 향후 연구에서는 LLM 처리량(Throughput) 개선을 통해, 더 높은 주파수로 실행되는 로봇 제어 작업에서도 CoT reasoning을 활용할 수 있도록 해야 함

'Vision Language Action model' 카테고리의 다른 글

TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Modelsfor Robotic Manipulation (0)	2025.03.12
π0: A Vision-Language-Action Flow Model for General Robot Control (0)	2025.03.02
[Paper Review] 3D-VLA: A 3D Vision-Language-Action Generative World Model (0)	2025.02.21
OpenVLA: An Open-Source Vision-Language-Action Model (1)	2025.02.09
[Paper Review] RT-2: Vision-Language-Action Models TransferWeb Knowledge to Robotic Control (1)	2025.02.02

Embodied AI in Robotics

[Paper Review] Robotic Control via Embodied Chain-of-Thought Reasoning

Abstract

1. Introduction