[Paper Review] RT-2: Vision-Language-Action Models TransferWeb Knowledge to Robotic Control

이번에 리뷰해볼 논문은 Google DeepMind에서 공개한 RT-2: Vision-Language-Action Models TransferWeb Knowledge to Robotic Control 논문입니다. 이 논문은 어찌보면 VLA(Vision-Language-Action)의 시작이라고 하는 논문입니다.

논문 주소: https://arxiv.org/pdf/2307.15818

Github 홈페이지: https://robotics-transformer2.github.io

Abstract

이 논문은 인터넷 규모의 방대한 데이터로 사전 학습된 Vision-Language Mode을 활용하여 End-to-End 로봇 제어 시스템을 구축하고 그 일반화 능력을 획기적으로 향상시키는 방법을 탐구합니다. 연구의 궁극적인 목표는 로봇이 관찰(Vision)을 동작(Action)으로 직접 매핑하는 방법을 학습하고, 동시에 웹에서 수집된 대규모 언어 및 시각-언어 데이터셋의 이점을 온전히 누릴 수 있는 단일 End-to-End 학습 모델을 개발하는 것입니다.

이를 달성하기 위해, 연구진은 기존 접근 방식보다 오히려 더 단순하고 일반적인 통합 방법을 제안합니다. 핵심은 최신 VLM을 로봇의 궤적 데이터와 Internet-Scale Vision-Language 작업(예: Visual QnA) 데이터에 대해 공동으로 Fine-tuning하는 것입니다. 특히, 로봇의 동작을 자연어 텍스트 토큰으로 표현하여, 이를 일반적인 자연어 토큰과 동일한 방식으로 모델의 학습 데이터셋에 직접 통합하는 혁신적인 방식을 사용합니다.

이러한 접근 방식을 구현하여 저자들은 RT-2라는 새로운 모델을 제안했습니다. 광범위한 평가(총 6천만 번의 평가 시험)를 통해, 이 방법론이 매우 성능이 좋은 로봇 정책을 이끌어낼 수 있음이 입증되었습니다. 나아가, RT-2는 인터넷 규모의 사전 학습을 통해 여러 가지 Emergent Abilities을 습득할 수 있음을 증명했습니다. 이러한 능력에는 다음이 포함됩니다:

새로운 객체에 대한 일반화 향상: 학습 시 보지 못했던 객체에 대해서도 로봇이 효과적으로 작동합니다.
훈련 데이터에 없던 명령 해석 능력: 예를 들어, "특정 숫자나 아이콘에 객체 배치하기"와 같이 로봇 훈련 데이터에는 없었지만 VLM이 웹에서 학습한 개념을 로봇 동작으로 해석하여 수행할 수 있습니다.
사용자 명령에 대한 기본적인 추론 수행 능력: "가장 작거나 큰 객체 집기", "또 다른 객체에 가장 가까운 객체 집기"와 같이 단순히 명령을 따르는 것을 넘어 기초적인 추론을 통해 동작을 선택할 수 있습니다.
사고 연쇄(Chain-of-thought) 추론을 통한 다단계 의미론적 추론: 복잡하고 추상적인 명령을 여러 단계로 나누어 추론하고 수행할 수 있습니다. 예를 들어, "즉석 망치(돌멩이)로 사용하기 위해 어떤 물체를 집어야 하는지?"와 같이 용도에 맞는 객체를 식별하거나, "피로한 사람을 위해 가장 적합한 음료(에너지 드링크)를 선택하는 능력"과 같이 상황과 의미를 이해하여 최적의 선택을 하는 작업 등이 가능합니다.

이러한 연구 결과는 VLM의 방대한 지식이 로봇 제어에 직접적으로 전이되어, 로봇이 단순한 동작 수행을 넘어 높은 수준의 추론 능력까지 갖출 수 있음을 보여줍니다.

1. Introduction

웹 규모의 데이터셋에서 사전학습된 고용량 모델은 다양한 down stream Task을 수행할 수 있는 효과적이고 강력한 platform을 제공합니다. LLM은 유창한 Text 생성 능력 뿐 아니라, 문제 해결과 창의적인 prose 생성, 코드 생성을 가능하게 합니다. 또한,Vision-Language model은 Open-Vocabulary Visual recongnition을 가능하게 하며, 이미지를 통해 Object-agent의 상호작용에 대해 복잡한 추론 능력을 갖추었습니다. 이러한 semantic reasoning, problem solving, visual interpretation capabilities 는 실제 환경에서 다양한 작업을 수행해야하는 일반화된 로봇에게는 매우 유용할 것 입니다. 그러나 로봇이 이러한 능력을 어떻게 수행해야 할 수 있을지에 대해선 명확하지 않습니다. 비슷한 방법으로는 수 백만개의 로봇 상호작용 실험을 수집하는 것이 있을 수 있지만, 강력한 언어 모델과 VLM은 웹에서 수 십억 개의 Token과 Image를 통해 학습되어지기 때문입니다. - 이는 로봇 데이터로는 가까운 미래엔 따라 잡기 어려운 양입니다. 반면에 이렇게 만들어진 언어 모델이나 VLM을 직접 적용하는 것 또한 어렵습니다. 이러한 모델은 reason, semantics, labels 와 textual prompt를 처리하는 반면, 로봇은 Cartesian End-effector 명령과 같은 구체적인 low-level action을 요구하기 때문입니다. 최근 여러 연구에서는 LLM과 VLM을 로봇에 통합하려는 시도가 있었지만, 이러한 방법은 일반적으로 Robot Planning 중 "Higher level" 측면 만을 다루고 있습니다. 이는 명령을 해석하고 이를 개별 primitives(Ex: 객체 집기 및 놓기)로 구문 분석하는 상태 머신 역할을 하며, 이후 별도의 Low-level controller 의 의해 실행 됩니다. 이러한 Low-level controller는 훈련 중에 인터넷 규모 모델의 풍부한 semantic knowledge를 사용하지 못합니다. 따라서 본 논문에선 다음과 같은 질문을 제시합니다:

"대형 사전학습된 Vision Language model을 Low-level Robot controll에 직접 통합하여 일반화를 향상시키고, Emengent Semantic Reasoning을 가능하게 할 수 있을까?"

이를 위해, 간단하면서도 효과적인 접근 방식을 탐구하였습니다. 이는 대규모 Vision-Language 작업을 해결하기 위해 설계된 Open-Vocabulary Visual QnA 및 Visual dialogue 모델을 직접 훈련하여, 로봇의 저 수준 동작을 출력하도록 합니다. 이러한 모델은 일반적으로 자연어 Token을 생성하도록 학습되지만, 로봇의 궤적 데이터를 Texk Token으로 변환하여 학습하면, 카메라 관찰과 짝을 이루는 로봇 지시에 "응답"하는 방식으로 대응 동작을 생성하는 " multimodal sentences" 를 만들 수 있습니다. 이 접근 방식은 기존의 VLM을 로봇 정책에 통합하려는 다른 대안들이나 새로운 VLA Architecture을 처음부터 설계하는 방식과 대조됩니다. 대신에, 이미 막대한 계산 자원이 투자된 기존 VLM을 새로운 매개변수 추가 없이 텍스트로 Encoding된 동작을 출력하도록 학습합니다. 저자는 이러한 범주의 모델을 Vision-Language-Action 모델이라고 부르며, RT-1의 프로토콜을 기반으로 VLA 모델을 구현합니다. 유사한 데이터 셋을 사용하면서도 더 큰 Vision Language Backbone을 사용하는 모델로 확장하여 이를 "RT-2"라고 부릅니다. 전체 개요는 그림 1 과 같습니다.

이러한 VLM에서 유도된 로봇 정책이 로봇 데이터에서 학습된 물리적 동작과 웹 데이터에서 학습된 이미지 및 텍스트 해석 능력을 단일 모델로 결합하여 여러 놀라운 능력을 발휘하는 것을 관찰했습니다. 새로운 객체나 다양한 의미론적 지식에 대한 일반화 능력을 극적으로 향상시키는 예상된 이점 외에도, 다수의 Emergent capabilities가 나타났습니다. 모델의 물리적 기술은 여전히 로봇 데이터에서 본 기술의 분포에 한정되어 있지만, 웹에서 얻은 지식을 상요해 이미지와 언어 명령을 해석함으로 써, 새로운 방식으로 그림 2와 같은 다양한 분야에 활용하는 능력을 습득했습니다. 예를 들어, 로봇 데이터에서 학습된 Pick and Place 기술을 재활용하여 특정 숫자나 아이콘과 같은 semantically indicated locations에 객체를 배치하는 데 성공했습니다. 이러한 신호들은 로봇 데이터에는 포함되어 있지 않았다고 합니다. 또한, 모델은 객체 간의 관계를 해석하여 로봇 시연에서 이러한 관계가 제공되지 않았음에도어느 객체를 집고 어디에 배치해야 하는지를 결정할 수 있습니다. 더 나아가, 명령에 chain-of-thought prompting을 추가하면 모델은 더 복잡한 semantic reasoning 작업을 수행할 수 있습니다. 예를 들어, 임시 망치로 사용할 객체(돌)을 선택하거나, 피로한 사람에게 가장 적절한 음료(에너지 드링크)을 선택하는 작업이 가능해집니다.

이 연구의 주요 기여는 RT-2 입니다. RT-2는 웹 규모의 데이터로 학습된 대규모 VLM모델을 Fine-tuning 하여, 일반화 가능하며 의미적으로 인식하는 로봇 정책으로 작동하도록 만든 계열의 모델입니다. 실험에서는 최대 55억개의 매개변수를 가진 모델을 사용했으며, 인터넷 데이터와 이전 연구에서 가져온 명령이 주석된 로봇 궤적 데이터를 학습에 활용했습니다. 6 천번의 로봇 평가를 통해, RT-2는 객체, 장면,명령에 대한 일반화 성능을 크게 향상시키고, 웹 규모 Vision-Language 사전 학습에서 얻은 다양한 Emergent capabilities를 보여줍니다.

2. Related Work

Vision-language models

VLMs에는 여러가지 범주가 있으며, 그 중, 두 가지 장점이 있습니다.

(1) Representation models: 예를 들어 CLIP이 있는데, 이는 두 가지 모달리티에 대해 공동 임베딩을 학습합니다.

(2) {Vision,text} ⇒ {text}형태의 VLMs: vision 과 language를 입력으로 받아 자유형 텍스트를 제공하는 모델입니다.

두 가지 범주 모두 객체 분류, 탐지, 분할 등 하위 작업에 대한 사전학습을 제공하는 데 사용되었습니다. 본 연구에서는 (2)의 연구에 집중을 한다고 합니다. 이러한 모델들은 일반적으로 이미지 캡셔닝, Visual QnA, 여러 데이터셋에 대한 일반적인 언어 작업 등 다양한 작업을 동시에 학습합니다. 이전 연구들은 VLM을 로봇 공학을 포함한 다양한 문제와 설명에 대해 연구했지만, 본 연구에서는 VLM의 기능이 로봇의 Closed loop control이 어떻게 확장될 수 있는지에 집중하며, 이를 통해 로봇 행동 예측 능력을 부여하고, VLM에 이미 존재하는 지식을 활용하여 새로운 수준의 일반화를 가능하게 합니다.

Generalization in robot learning.

로봇 공학의 오랜 목표는 다양한 시나리오에 성공적으로 적용되는 제어기를 개발하는 것입니다. 이를 위해 로봇 조작에서 대규모의 다양한 데이터셋을 통한 학습이 유망한 접근법으로 제시되어 왔으며, 이를 통해 로봇이 새로운 객체, 기술 조합, 지침, 환경 등에 일반화할 수 있음이 입증되었습니다.

본 논문은 이러한 모든 일반화 축에 걸쳐 미지의 조건에도 대응할 수 있는 단일 모델을 개발하고 연구하는 것을 목표로 합니다. 핵심 접근 방식은 로봇 자체의 데이터보다 훨씬 더 광범위한 데이터에 노출된 사전 학습된 모델의 지식을 활용하는 것입니다.

Pre-training for robotic manipulation.

로봇 공학에서 사전 학습은 오랜 역사를 가지며, 주로 카메라 관찰을 위한 사전 학습된 시각적 표현(ImageNet 분류, 데이터 증강 등)이나 지침 인코더, 고수준 계획을 위한 언어 모델 통합에 집중되어 왔습니다.

본 논문의 저자는 이러한 개별 모델 대신 세상을 더 잘 이해하는 사전 학습된 Vision-Language Model(VLM)의 활용을 구체적으로 고려합니다. 이전 연구들 또한 로봇 공학에 VLM을 사용했지만, 주로 시각 상태 표현, 객체 식별, 고수준 계획 또는 감독/성공 감지에 활용되었습니다.

특히 CLIPort나 MOO와 같은 이전 접근법들이 사전 학습된 VLM을 End-to-End visuomotor 정책에 통합했음에도 불구하고, 정책에 상당한 구조를 포함하여 적용 가능성이 제한적이라는 점을 지적합니다. 이에 반해 본 연구는 제한된 2D 동작에 의존하지 않고 보정된 카메라를 필요로 하지 않으며, VLM을 활용하면서도 통합된 출력 공간을 제공하여 동작 전용 모델 레이어 구성 요소를 도입하지 않는다는 중요한 차별점을 가집니다.

3. Vision-Language-Action Models

본 논문은 Vision-Language Model을 훈련시켜 Closed-loop로봇 제어를 직접 수행할 수 있도록 하는 Model Family와 design choice을 소개합니다.

첫째, 모델의 일반적인 아키텍처와 이것이 기존 VL 작업용 모델에서 어떻게 파생될 수 있는지 설명합니다. 둘째, 웹 규모 데이터에서 사전 학습된 대형 VLM을 로봇 동작을 직접 출력하는 Vision-Language-Action 모델로 파인튜닝하는 recipe과 그 과정에서 발생하는 도전 과제들을 제시합니다. 셋째, 이러한 모델들을 로봇 작업에 실용적으로 만들기 위해 모델 크기와 추론 속도를 최적화하여 실시간 제어를 가능하게 하는 방법에 대해 설명합니다.

3.1. Pre-Trained Vision-Language Models

본 연구에서는 구축한 Vision-language model은 하나 이상의 이미지를 입력으로 받아 Natural Language text를 나타내는 Token sequence를 생성한다. 이러한 모델은 이미지의 구성을 추론하는 것부터 개별 객체와 그 객체들이 다른 객체와의 관계에 대하여 광범위한 visual interpretation 과 reasoning을 수행할 수 있습니다. 이러한 다양한 작업을 수행하기 위한 지식을 나타내기 위해선, 대형 모델과 웹 규모 데이터셋이 필요합니다. 본 연구에서는 이전에 제안된(PaLM-x, PaLM,E) 두 가지 VLM을 로봇 동작을 수행할 수 있는 VLA 모델로 적용시킵니다. 이들 모델의 VLA 버전을 RT-2 PaLM-X와 RT-2 PaLM-E라고 부를 것입니다. 연구에서는 수 십억개에서 수 백억 개의; 파라미터를 갖는 다양한 크기의 모델을 활용하였습니다.

3.2 Robot-Action Fine-tuning

Vision Language Model이 로봇을 제어하도록 훈련하려면, 이 모델들이 직접 Action을 출력해야 합니다. 본 연구는 이 문제에 대해 직접적인 접근 방식을 취하여, 로봇 동작을 모델 출력에서 Language Token과 동일하게 처리되는 토큰으로 표현합니다. 이러한 동작 인코딩은 RT-1 모델의 Discretization 방식을 기반으로 합니다.

동작 공간은 로봇 엔드-이펙터의 6자유도(위치 및 회전) 이동, 그리퍼 확장 수준, 그리고 에피소드 종료를 알리는 특수 이산 명령을 포함합니다. 연속적인 차원(종료 명령 제외)은 256개의 구간(bin)으로 균등하게 이산화됩니다. 따라서 로봇 동작은 8개의 정수 숫자로 이산화된 bin의 순서를 사용하여 표현될 수 있습니다.

이처럼 이산화된 동작을 VLM을 VLA모델로 Fine-tuning하기 위해, 모델의 기존 토큰화 방식에서 동작 bin과 연결된 토큰을 연관시켜야 합니다. 이를 위해 256개의 토큰을 동작 토큰으로 예약하는 과정이 필요하며, 어떤 토큰을 선택할지는 각 VLM의 특정 토큰화 방식에 따라 달라집니다(이는 다음 섹션에서 설명됩니다). VLM의 미세 조정 대상을 정의하기 위해, 동작 벡터는 각 차원의 동작 토큰을 공백 문자로 연결하여 하나의 문자열 형태로 변환됩니다.

이런 형태의 대상은 예를 들어, "1,128,91,241,5,101,127" 과 같이 나타낼 수 있다. 저자는 실험에서 미세 조정한 두 개의 VLM, PaLM-X, PaLM-E는 서로 다른 Tokenization을 사용한다고 설명합니다. PaLM-X의 경우, 1,000까지의 정수마다 고유한 Token이 있으므로 Action bin을 해당 점수를 나타내는 Token과 연상시킵니다. PaLM-E 모델의 경우, 숫자로 표현을 제공하지 않기에, 256개의 Token 중 덜 자주 사용되는 Token을 덮어씌어 동작 Action vocabulary를 표현한다고 합니다.VLM을 훈련하여 기존 Token을 action Token으로 덮어 쓰는 것은 symbol tuning한 형태로, 이전 연구에서 VLM에 잘 작동한다는 것을 증명해낸 바가 있습니다.

위에서 설명한 동작 표현을 사용하여 로봇 데이터를 VLM 미세 조정에 적합하도록 변환합니다. 여기서 Input은 로봇 카메라 이미지와 텍스트 작업 설명(표준 VQA 형식인 "Q: 로봇이 [작업 지시]를 수행하기 위해 취해야 할 행동은 무엇인가? A:")이며, 출력은 로봇 동작을 나타내는 숫자/ 가장 덜 자주 사용되는 Token 문자열로 format 됩니다.

Co-Fine-Tuning.

로봇 성능을 향상시키는 훈련 레시피의 중요한 기술적 세부 사항은 단순히 로봇 데이터만으로 미세 조정하는 것이 아니라, 원래의 웹 데이터를 함께 Co-Fine-Tuning하는 것입니다. 저자들은 이 Co-Fine-Tuning 방식이 정책의 일반화 가능성을 높인다는 것을 발견했습니다. 그 이유는 정책이 로봇 동작뿐만 아니라 웹 규모 데이터의 추상적인 시각적 개념까지 동시에 접하며 학습하기 때문입니다. Co-Fine-Tuning 시에는 훈련 배치에서 로봇 데이터와 웹 데이터의 균형을 조정하여 로봇 데이터 세트에 대한 샘플링 가중치를 증가시킵니다.

Output Constraint.

RT-2와 표준 Vision-Language Model(VLM)의 핵심적인 차이점은 RT-2가 실제 로봇에서 실행 가능한 유효한 action token을 출력해야 한다는 점입니다. 이를 보장하기 위해, RT-2는 로봇-동작 작업을 수행할 때만 출력 어휘를 유효한 동작 토큰으로 제한하여 샘플링합니다. 반면, 표준 VLM 작업에서는 모델이 자연어 토큰의 전체 범위를 출력할 수 있도록 허용합니다.

3.3 Real-Time Inference

최신 Vision-Language Model은 수십억 개의 파라미터를 가지며, 본 연구의 55B 파라미터 모델처럼 큰 모델은 표준 데스크탑이나 로봇 내 GPU에서 직접 실시간 로봇 제어를 수행하기 어렵습니다. 이러한 대규모 Closed-loop 모델의 효율적인 실시간 추론을 가능하게 하기 위해 새로운 해결책이 필요합니다.

이에 저자들은 RT-2 모델을 로봇에서 실행할 수 있도록 하는 프로토콜을 개발했습니다. 이 프로토콜은 모델을 다중 TPU 클라우드 서비스로 배포하고, 로봇이 네트워크를 통해 이 서비스를 질의(query)하는 방식을 사용합니다.

이 솔루션을 통해 적절한 제어 주파수를 달성할 수 있으며, 하나의 클라우드 서비스로 여러 로봇을 지원하는 것도 가능해집니다. 평가 결과, 가장 큰 모델인 55B 파라미터의 RT-2 PaLI-X-55B 모델은 1-3 Hz 주파수에서, 가장 작은 5B 파라미터 모델은 약 5 Hz 주파수에서 실행될 수 있음을 확인했습니다.

4. Experiment

이 연구에서 실험은 RT-2의 실제 환경에서의 일반화 능력과 새로운 기능을 평가하는 데 중점을 두며, 다음 질문에 답하는 것을 목표로 합니다:

RT-2는 본 작업에서 어떻게 수행되며, 더 중요한 것은 새로운 객체, 배경 및 환경에 대해 얼마나 잘 일반화하는가?
RT-2에서 어떤 emergent capabilities가 나타나는지 관찰하고 측정할 수 있는가?
일반화 성능은 파라미터 수와 다른 설계 결정에 따라 어떻게 달라지는가?
RT-2는 Vision-language 모델처럼 chain-of-thought reasoning의 징후를 나타낼 수 있는가?

본 연구는 약 6,000개의 평가 궤적을 다양한 조건에서 7자유도(7-DoF) 매니퓰레이션을 활용하여 RT-2 모델을 평가합니다. 이를 위해 두 가지 RT-2 인스턴스를 훈련했습니다: 5B 및 55B PaLI-X 기반의 RT-2-PaLI-X, 그리고 12B PaLM-E 기반의 RT-2-PaLM-E입니다.

훈련 데이터는 Visual Q&A, 캡셔닝, 비구조화된 이미지-텍스트 예시와 같은 기존 VLM 훈련 데이터에 로봇 시연 데이터를 결합하여 사용합니다. 이 로봇 시연 데이터는 13대의 로봇으로 17개월간 사무실 및 주방 환경에서 수집되었으며, 각 궤적에는 수행된 작업을 설명하는 자연어 지침(예: "pick"과 같은 동사, "7up Can"과 같은 명사)이 주석으로 달려 있습니다. 모든 RT-2 훈련에서는 원본 PaLI-X 및 PaLM-E 논문의 학습률, 스케줄러, 정규화 방법을 포함한 하이퍼파라미터를 그대로 채택했습니다.

4.1. How does RT-2 perform on seen tasks and more importantly, generalize over new objects, backgrounds, and environments?

본 연구는 RT-2-PaLI-X와 RT-2-PaLM-E 모델의 성능과 일반화 능력을 네 가지 기준선(baseline)과 비교 평가합니다.

분포 내(In-distribution) 성능 평가:

RT-1과 동일한 지침 세트를 사용하며, 물체 집기, 치기, 세우기, 이동, 서랍 열고 닫기, 물건 넣고 빼기 등 200개 이상의 다양한 조작 작업이 포함됩니다.
이 평가에서도 물체 배치, 시간대, 로봇 위치 등 실제 환경의 변동성에 대한 일반화 능력이 요구됩니다.

일반화 능력 평가 (그림 3 예시):

모델의 일반화 능력은 보지 못했던 카테고리(객체, 배경, 환경)로 나누어 쉬운 사례와 어려운 사례를 통해 평가됩니다.
- 보지 못한 객체: 잡기 어렵거나 독특한 물체(예: 장난감)가 어려운 사례에 해당합니다.
- 보지 못한 배경: 더 다양하거나 새로운 물체가 포함된 배경이 어려운 사례입니다.
- 보지 못한 환경: 모니터와 액세서리가 있는 시각적으로 구별되는 사무실 책상 환경이 어려운 사례이며, 주방 싱크대가 쉬운 환경으로 사용됩니다.
이 일반화 평가는 주로 물건 집기 및 놓기 기술에 초점을 맞추며, 280개 이상의 작업을 포함합니다.

평가 결과, RT-2 모델은 보았던(in-distribution) 작업에서는 RT-1 모델과 유사한 성능을 보였고, 다른 기준선들보다는 높은 성공률을 기록했습니다.

특히, 다양한 일반화 실험에서 RT-2와 기준선 간의 성능 차이가 가장 두드러지게 나타났습니다. 이는 Vision-Language-Action 모델인 RT-2의 강점이 인터넷 규모의 사전 학습 데이터를 통해 더 일반화 가능한 시각적 및 의미론적 개념을 전이하는 데 있음을 시사합니다.

평균적으로 RT-2의 두 인스턴스(RT-2-PaLI-X와 RT-2-PaLM-E)는 비슷한 성능을 보였으며, RT-1 및 MOO 대비 약 2배, 다른 기준선 대비 약 6배 향상된 성능을 나타냈습니다. 세부적으로는 RT-2-PaLM-E 버전이 더 어려운 일반화 시나리오에서 RT-2-PaLI-X보다 우수했지만, 쉬운 시나리오에서는 성능이 낮아 전반적인 평균 성능은 유사했습니다.

Open Source Language Table Benchmark

추가적인 비교 지점을 제공하기 위해, 오픈 소스 Language-Table 시뮬레이션 환경을 활용합니다. 위 실험 결과에서도 RT-2-PaLI-3B 모델이 우수한 성능을 보이는 것을 확인할 수 있습니다.

4.2. Can we observe and measure any emergent capabilities of RT-2?

이 연구는 로봇 데이터에서 시연된 능력 외에, RT-2 모델이 웹에서 지식을 전이하여 새로운 능력을 얼마나 활성화할 수 있는지를 평가하는 것을 목표로 합니다. 이러한 능력을 emergent capabilities 이라고 부르며, 인터넷 규모의 사전 학습을 통해 전이되어 나타나는 것입니다. 이는 새로운 로봇 동작을 기대하기보다는, 로봇 데이터에서 보지 못했던 관계나 명사를 포함한 Semantic및 시각적 개념들이 효과적으로 전이될 것임을 기대합니다.

Qualitative Evaluations.

RT-2-PaLI-X 모델을 실험한 결과, 장면 맥락에서 의미론적 이해와 기본적인 추론 측면에서 다양한 발현적 능력을 확인했습니다. 예를 들어, "딸기를 올바른 그릇에 넣기" 작업에서는 딸기와 그릇에 대한 이해뿐만 아니라 다른 과일들과의 맥락적 추론이 필요했고, "테이블에서 떨어지려는 가방 집어 올리기"에서는 두 가방을 구별하고 불안정하게 놓인 물체를 인식하는 물리적 이해를 보여주었습니다. 이 모든 상호작용은 로봇 데이터에서는 이전에 학습된 적이 없어, 시각-언어 데이터로부터 의미론적 지식이 성공적으로 전이되었음을 입증합니다.

Quantitative Evaluations.

이러한 emergent capabilities를 정량적으로 평가하기 위해, 이전 평가에서 상위 두 기준선인 RT-1과 VC-1을 사용하고, 이를 두 모델인 RT-2-PaLI-X와 RT-2-PaLM-E와 비교합니다. 실험의 변동성을 줄이기 위해, A/B Test Framework(Fisher, 1936)를 사용하여 네 모델 모두 동일한 조건에서 차례대로 평가합니다.

본 연구는 RT-2의 emergent capabilities을 reasoning과 Semantic Understanding를 포함하는 세 가지 카테고리로 나누어 평가합니다 (그림 8 참고).

Symbol Understanding: RT-2 정책이 로봇 데이터에 없던 시맨틱 지식을 VLM 사전 학습에서 전이했는지 테스트합니다. 예시로는 "사과를 3으로 옮기기" 또는 "코카콜라 캔을 심장 위로 밀기"와 같은 지침이 있습니다.
Reasoning: VLM의 다양한 추론 능력을 제어 작업에 적용하는 것을 보여줍니다. 여기에는 시각적 추론("사과를 같은 색의 컵으로 옮기기"), 수학적 추론("두 개의 숫자 더하기와 X를 가까이 옮기기"), 다국어 이해("mueve la manzana al vaso verde") 등이 포함됩니다.
Human Recognition Tasks: 사람 중심의 이해와 인식을 보여주기 위해 "안경 쓴 사람에게 코카콜라 캔을 옮기기"와 같은 작업을 포함합니다.

이 평가에 사용된 전체 지침 목록은 부록 F.2에 명시되어 있습니다.

이 실험의 결과는 그림 6a에 제시되어 있으며, 모든 수치 결과는 부록 H.2에서 확인할 수 있습니다.

주요 결과:

Vision-Language-Action 모델들은 모든 카테고리에서 baseline보다 현저히 우수한 성능을 보였습니다.
가장 뛰어난 RT-2-PaLI-X 모델은 다음 기준선인 RT-1보다 평균 3배 이상의 성공률을 달성했습니다.
RT-2-PaLI-X 기반 모델은 평균적으로 기호 이해, 추론, 사람 인식에서 더 나은 성과를 보였습니다.
반면, RT-2-PaLM-E 기반 모델은 수학적 추론 작업에서 우위를 나타냈습니다.

이러한 PaLM-E의 수학적 강점은 PaLM-E가 PaLI-X(대부분 시각적 사전 학습)와 달리 다양한 데이터 혼합으로 사전 학습되어 수학 계산에 더 능숙한 특성을 가졌기 때문으로 분석됩니다.

4.3. How does the generalization vary with parameter count and other design decisions?

이 비교에서는 RT-2-PaLI-X 모델을 사용합니다. PaLM-E 모델은 모델 크기 면에서 제한이 있기 때문에(PaLM과 ViT 모델 크기가 일정한 범위로만 제한됨), RT-2-PaLI-X 모델의 크기 조정에 더 유연성이 있습니다. 특히 5B와 55B 모델 크기 두 가지와, 세 가지 다른 훈련 루틴을 비교합니다:

사전 학습된 VLM 가중치를 사용하지 않고 모델을 처음부터 훈련하는 것
로봇 동작 데이터만 사용하여 사전 학습된 모델을 미세 조정하는 것
공동 미세 조정(co-fine-tuning): 본 연구에서 주로 사용되는 방법으로, VLM 사전 학습 데이터와 로봇 데이터를 모두 사용하여 VLM을 미세 조정합니다.

본 실험은 모델의 일반화 능력에 중점을 두어, 보았던 작업 평가는 제외했습니다. 결과는 그림 6b와 부록 표 6에서 확인할 수 있습니다.

첫째, 매우 큰 모델을 처음부터 훈련하는 것은 성능이 매우 저조함을 확인하여, 55B PaLI-X 모델의 초기 훈련 평가는 생략되었습니다.
둘째, Co-Fine-Tuning 방식(원본 웹 데이터와 함께 미세 조정)이 로봇 데이터만 사용한 미세 조정보다 더 나은 일반화 성능을 보였습니다. 이는 원본 데이터를 훈련에 포함시켜 모델이 VLM 훈련 중 학습한 이전 개념을 유지하기 때문으로 설명됩니다.
마지막으로, 예상대로 모델 크기가 증가할수록 더 나은 일반화 성능을 나타냈습니다.

4.4. Can RT-2 exhibit signs of chain-of-thought reasoning similarly to vision-language models?

본 연구에서는 LLM의 Chain-of-Thought(CoT) Prompting 방법에서 영감을 받아, RT-2의 PaLM-E 버전을 수백 번의 Gradient 단계만으로 훈련하여 언어와 동작을 결합한 더 정교한 추론 행동을 유도하고자 했습니다.

이를 위해 데이터를 보강했는데, 로봇이 취할 동작의 목적을 자연어로 설명하는 "Plan" 단계를 먼저 추가한 뒤, 실제 동작 토큰이 따르도록 구성했습니다. 예를 들어, "지시: 배고파요. 계획: rxbar 초콜릿을 집으세요. 동작: 1 128 124 136 121 158 111 255." 와 같은 형태입니다. 이 데이터 보강 방식은 VQA 데이터셋과 조작 데이터셋 간의 다리 역할을 합니다.

chain-of-thought reasoning을 적용한 RT-2가 자연어로 동작을 계획하는 공간을 먼저 제공받기 때문에 더 복잡한 명령을 더 잘 처리할 수 있다는 것을 질적으로 관찰했습니다. 이는 LLM이나 VLM을 계획자로 사용하고, 이를 저수준 정책과 결합할 수 있다는 초기 증거를 제공합니다. Chain-of-thought reasoning을 적용한 RT-2의 실행 예시는 그림 7에서 확인할 수 있습니다.

5. Limitations

RT-2는 유망한 일반화 특성을 보이지만, 이 접근법에는 여러 가지 한계가 있습니다. 첫 번째로, 우리는 웹 규모 사전 학습을 VLM을 통해 포함하면 Semantic 및 Visual 개념에서의 일반화가 향상된다는 것을 보여주었지만, 로봇은 이 추가 경험을 통해 새로운 동작을 수행하는 능력을 얻지 못합니다. 모델의 물리적인 기술은 여전히 로봇 데이터에서 본 기술 분포에 제한되며, 새로운 방식으로 그 기술들을 활용하는 법을 배웁니다.연구진은 데이터셋이 기술 축을 따라 충분히 다양하지 않아서 이런 결과가 나온 것이라고 생각합니다. 향후 연구의 흥미로운 방향은 새로운 데이터 수집 패러다임, 예를 들어 인간의 비디오 등을 통해 새로운 기술을 습득할 수 있는 방법을 연구하는 것입니다.

두 번째로, VLA 모델을 실시간으로 실행할 수 있다는 것을 보여주었지만, 이러한 모델들의 계산 비용은 매우 높습니다. 이 방법들이 고주파수 제어를 요구하는 설정에 적용될 경우, 실시간 추론은 주요 병목 현상이 될 수 있습니다. 향후 연구에서 흥미로운 방향은 양자화 및 Distillation을 탐구하여 이러한 모델들이 더 높은 속도로 실행되거나 더 저렴한 하드웨어에서 실행될 수 있도록 하는 것입니다. 또한, 현재의 또 다른 한계는 RT-2를 만들기 위해 사용할 수 있는 일반적으로 제공되는 VLM 모델이 소수에 불과하다는 점입니다. 더 많은 오픈 소스 모델이 제공되기를 기대하며(예: https://llava-vl.github.io/), 상용 모델들이 그들의 미세 조정 API를 공개하여 VLA 모델을 구축하는 데 충분한 요구 사항을 제공하기를 희망합니다.

'Vision Language Action model' 카테고리의 다른 글

[Paper Review] 3D-VLA: A 3D Vision-Language-Action Generative World Model (0)	2025.02.21
OpenVLA: An Open-Source Vision-Language-Action Model (1)	2025.02.09
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (5) (1)	2025.01.22
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (4) (0)	2025.01.22
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (3) (0)	2025.01.22

Embodied AI in Robotics

[Paper Review] RT-2: Vision-Language-Action Models TransferWeb Knowledge to Robotic Control

Abstract

1. Introduction