TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Modelsfor Robotic Manipulation

논문 주소: https://arxiv.org/pdf/2409.12514

깃허브: https://tiny-vla.github.io/

Abstract

Vision-Language-Action (VLA) 모델은 visuomotor control과 instruction comprehension에서 높은 가능성을 보여주었습니다. 그러나 기존 VLA 모델은 느린 추론 속도와 방대한 로봇 데이터를 사전 학습해야 하는 문제로 실제 환경에서의 배포가 어렵습니다. 본 논문은 이러한 문제를 해결한 새로운 소형 모델인 TinyVLA를 소개합니다. TinyVLA는 더 빠른 추론 속도와 향상된 데이터 효율성을 제공하며, 사전 학습이 불필요합니다. 핵심 요소로는 강력한 Multimodal 모델로 초기화된 Policy backbone과 doffusion policy decoder의 fine-tuning이 있습니다. 실험 결과, TinyVLA는 OpenVLA보다 더 빠르고 데이터 효율성이 뛰어나며, 다양한 환경에서 강력한 일반화 능력을 보입니다.

I. INTRODUCTION

Multitasking 로봇을 모방 학습 방식으로 훈련하는 것은 제한된 데이터와 물리적 움직임 학습의 어려움으로 도전적입니다. 기존 로봇 모델들은 다양한 작업과 환경에서 방해 요소, 조명 조건, 배경 변화 등에 쉽게 영향을 받습니다. 최근 연구에서는 LLMs을 활용하여 장면 설명, 객체 affordance, 위치 정보 등을 생성하고, 미리 정의된 motion planner를 통해 작업을 수행하는 방법이 주목받고 있습니다. Vision-Language-Action(VLA) 모델이 이러한 문제를 해결할 수 있는 가능성을 보였으나, 추론 속도가 느리고 대규모 로봇 데이터셋에 대한 사전 학습이 필요하다는 단점이 있습니다.

본 연구에서는 이러한 문제를 해결한 TinyVLA라는 빠른 추론을 위한 소형 VLA 모델을 제안합니다. TinyVLA는 작은 규모의 Vision-Language 모델과 diffusion 기반 head를 결합하여, 대규모 로봇 데이터셋에서 훈련 없이도 효과적으로 적응할 수 있습니다. 실험 결과, TinyVLA는 OpenVLA보다 빠른 속도와 더 높은 성능을 보였으며, 특히 실제 환경에서 25.7% 더 높은 성공률을 기록했습니다. 또한, TinyVLA는 관찰적 및 공간적 일반화 능력에서 우수한 성능을 보여주었고, 일부 경우에서는 OpenVLA를 능가하기도 했습니다.

II. RELATED WORKS

MultiModal Models은 vision과 language를 연결하며, LLMs가 멀티모달 입력을 처리할 수 있도록 추론 능력을 확장해줍니다. 이 방향으로 VLA에 관련한 다수의 연구가 제안되었습니다. 이러한 MLLMs는 일반적으로 7B 에서 70B에 이르는 파라미터를 가지며, 이는 주로 추론 비용을 과도하게 높여 더 많은 사용자들에게 MLLMs가 활용되는 것을 제한합니다. 최근에는 효율적인 Multimodal learning에 관한 파라미터 수가 3B 미만인 효율적인 멀티모달 모델을 다양한 관점에서 탐구하기 시작했습니다,

Robot learning은 로보틱스 분야에서 주용한 주제로 여겨집니다. 여러 연구들은 embodied control 영역에 vision-language 모델을 도입했으며, 대표적인 예로 RT-2 및 OpenVLA가 있습니다. 본 논문에서는 대규모 로봇 데이터 사전 학습이 필요 없으면서, 빠른 추론이 가능한 컴팩스한 버전의 VLA 모델을 제안합니다.

III. METHOD

이 섹션에서는 제안된 TinyVLA에 대한 종합적인 개요를 제공합니다. TinyVLA는 몇 가지 중요한 설계를 포함합니다.

사전 학습된 멀티모달 모델을 policy network의 초기화로 채택합니다.
로봇 데이터를 학습하는 동안, 사전 학습된 부분을 동결하고, LoRA라는 parameter-effective fine-tuning 기법을 활용하며, 이 때 학습 가능한 파라미터는 전체 모델의 5%의 불가합니다.
Policy decoder를 도입하여, 이를 간단하지만 효율적인 linear projection을 통해 사전 학습된 멀티모달 모델과 연결하고, 최종적으로 로봇이 실행가능한 action을 출력합니다.

모델에 대한 Architecture는 위 그림 2.를 참고하시면 됩니다.

A. Building TinyVLA with Efficient Vision-Language Models

첫 번째 단계는 사전 학습된 멀티모달 언어 모델을 확보하는 것입니다. 기존 연구들은 일반적으로 30억 개 이상의 파라미터를 가진 vision-language 모델을 대상으로 하지만, 우리는 4천만~ 14억 개의 파라미터를 가진 더 컴팩트한 vision-language 모델을 훈련하였습니다.

언어 모델로는 Pyrhia를 language model backend로 사용하며, LLaVA의 학습 파이프라인을 따라 vision-language 데이터셋을 활용하여 이 VLM 계열을 학습시켰습니다. 로봇 데이터에 대한 fine-tuning 과정에서는 visual backbone과 alignment module을 포함한 모든 VLM 모듈을 유지하였습니다.

B. Robot Data Finetuning for Manipulation

Frozen weight and low-rank adaptaion.

연구진은 LoRA 라는 parameter-efficient training method를 활용하였습니다. LoRA는 저차원 공간에서만 gradient를 업데이트하도록 제한하며, 이를 통해 계산 비용을 줄입니다. 이 과정은 다음과 같이 이루어집니다:

원래의 가중치 행렬 $ W ∈ lR^ {d×k} $ 을 수정하여 $ W_0 + ∆W = W_0 + BA $ 로 표현합니다.

여기서 $ B ∈ lR^{d×r} $ and $A ∈ lR^{r×k}$이며 r 값은 d 또는 k 보다 훨씬 작습니다. 이후 Transformer의 attention 매커니즘의 가중치(Q,K,V)의 저차원 행렬을 적용하며, 나머지 가중치는 동결(freeze)합니다.

또한 모델이 기존 언어 모델이 보유한 내제적 지식을 유지해야합니다. 이를 위해 학습 가능한 파라미터는 Transformer 전체 파라미터의 5%의 불과하도록 설정하였습니다. 이러한 접근법을 통해 사전 학습된 모델이 언어적 표현을 최대한 정확하게 유지하면서도, 로봇 제어를 위한 유연성을 확보할 수 있다고 가정합니다. 훈련 완료된 후에는 LoRA 모듈을 표준 언어 모델에 원활하게 통합하기 위해 re-parameterization기법을 적용하며, 이를 통해 추론 속도를 향상시킵니다.

Learning action with diffusion policy decoder.

로봇을 제어하기 위해서는 action 공간을 표현하는 방법이 필요합니다. 기존 방법(Ex: RT-2)는 행동을 discrete token 형태로 변환하는 방식을 사용하지만, 이러한 Tokenization 방식은 연속적이거나 고차원적인 데이터 학습에 매우 어렵고, 대량의 데이터를 필요로 하며, 단일 상태로 수렴하는 경향이 있습니다.

따라서, 위 연구진은 행동을 토큰 공간으로 변환하는 대신, policy head를 사용하여 로봇의 행동 공간을 추가적으로 학습하는 방식을 채택했습니다. 이 방식은 다음과 같습니다:

1) Diffusion Policy(DP) 적용

위 논문에서는 Diffusion Policy(DP)를 활용하였습니다. DP는 Denoising Diffusion Probabilistic Modules(DDPMs)을 활용하여 로봇 정책을 정식화하며, 이 과정은 크게 두 가지로 구성됩니다:

Noise Addition
- 훈련 중, 0 부터 N 사이의 렌덤 값 K 를 선택하여 Gaussian noise를 원래 행동 데이터에 K번 추가
Denoising
- DP는 추가된 noise를 예측하여 denoising 하는 방식으로 노이즈 없는 행동을 복원.

2) 추론 과정에서 DP를 활용한 Action 생성

추론 시, 순수한 노이즈 $a_N$ 을 가우시안 분포에서 샘플링하여 시작.
이후, 중간 단계 행동들 ${ a_n, a_{n-1},..., a_1}$을 순차적으로 생성하며 최종적으로 노이즈 없는 행동

IV. EXPERIMENTS

위 실험에서는 다음과 같은 질문들을 탐구하고자 합니다.

TinyVLA는 다중 작업 로봇 조작에서 기존 방법보다 더 높은 성공률을 달성할 수 있는가?
TinyVLA는 새로운 명령을 해석하고 따를 수 있는가?
TinyVLA는 보지 못한 환경에서도 일반화가 가능한가? 즉, 새로운 배경, 조명 조건 변화, 카메라 뷰 변경, 그리고 새로운 방해 요소(distractors)에도 강인한가?
TinyVLA는 모델 크기가 증가할수록 성능과 일반화 능력이 향상되는 scaling law를 따르는가?

A. Experimental Setup

모델 크기를 보다 명확하게 구분하기 위해, TinyVLA를 세 가지 크기로 분류하였습니다.(Tiny-VLA-S, Tiny-VLA-M, Tiny-VLA-H)

1) Simulation Benchmark

본 연구에서는 MetaWorld 환경에서 접근법을 평가하였습니다. MetaWorld는 50개의 작업(task)으로 구성되며, 난이도에 따라 easy, medium, hard, very hard로 분류됩니다.

Baseline:

위 방법을 Diffusion Policy와 비교하였습니다.
모든 방법은 50개의 시연(demonstrations)을 활용한 다중 작업 학습(multi-task learning) 방식으로 훈련되었습니다.
평가 시, 3개의 랜덤 시드(seed)를 사용하였으며, 각 시드당 5번의 반복 실험을 수행하여 평균 성공률을 보고하였습니다.

2) Real Robot Setup

위 연구는 Franka Panda 7Dof 단일 팔(single-arm) 로봇과 두 개의 UR5 로봇 암을 활용한 양팔(bimanual) 설정에서 TinyVLA를 평가하였다. 실험 환경은 그림 3에 나타나 있습니다.

단일 팔(single-arm) 환경에서는 ZED 2 스테레오 카메라 2대를 사용하여 로봇 양쪽에서 장면을 포착하였습니다.
양팔(bimanual) 환경에서는 Realsense D435i 카메라를 활용하였으며,
- 두 개의 손목 카메라
- 하나의 상단(top-view) 카메라를 추가로 사용하였습니다.

Tasks. (실험에서 수행한 작업들)

Single-arm - 5개 작업
1. 서랍 닫기 (CloseDrawer)
2. 핑크색 큐브를 파란색 큐브 위에 쌓기 (StackCubes)
3. 상자 뚜껑 열기 (OpenBox)
4. 테니스공을 상자 안에 넣기 (PlaceTennisBall)
5. 쓰러진 머그컵 세우기 (FlipMug)
Bimanual - arm - 3개 작업
1. 빵을 접시에 옮기기 (TransferBread)
2. 가방을 열고 테니스공을 넣기 (PlaceTennisBag)
3. 접시 위에 큐브 쌓기 (StackCubes)

각 작업의 행동(action) 공간은 매우 다릅니다.

예를 들어, FlipMug는 로봇이 큰 회전 동작을 수행해야 하는 반면,StackCubes는 단순한 pick & place 동작을 요구한다.
같은 작업이라도 경로(trajactory) 길이에 차이가 발생합니다. 예를 들어, StackCubes의 경로 길이는 100~300 사이에서 다양합니다.

이러한 점은 TinyVLA가 학습해야할 난이도를 증가시킵니다.

Data Collection . 위 연구는 원격 조작(teleoperation)을 통해 데이터셋을 수집하였습니다. 로봇의 전체 제어 과정 동안 두 개의 카메라 뷰에서 RGB 스트림을 기록하고, 로봇 상태(예: 조인트 위치)를 저장합니다. TinyVLA는 6D 자세(포즈)를 예측하며, 여기에는 위치(x, y, z)와 회전(roll, pitch, yaw)이 포함됩니다. 모든 작업에서 추가적인 방해 요소(distractors)를 추가하지 않으며, 단 상자의 뚜껑을 제거하는 작업(remove the lid of the box task)에서는 모델의 방해 요소에 대한 일반화(generalization) 능력을 보다 잘 평가하기 위해 방해 요소를 추가하였습니다. 총 5개 작업에 대해 각 작업당 100개의 경로(trajectories)를 수집하여 데이터 분포의 균형을 맞추었습니다.

Baseline. 비교 방식은 Diffusion Policy, Multimodal Diffusion, OpenVLA이 3가지 모델을 통해 저자가 제안한 방식을 비교하였습니다. 비교의 공정성을 보장하기 위해 몇 가지 수정 작업을 수행하였습니다: 1) 기본 OpenVLA(vanila OpenVLA)는 single view에서 finetuning 되었으며, 이는 연구진이 주장한 접근 방식과 호환되지 않습니다. OpenVLA가 모든 카메라 뷰를 활용할 수 있도록 하기 위해, 우리는 서로 다른 뷰에서 이미지를 개별적으로 처리한 후, 이를 shared visual backbone을 통해 통합하였습니다. 이후, visual tokens을 연결하여 언어 모델에 입력하였습니다. 둘째, 기본 DP(vanilla DP)는language instructions를 포함하지 않습니다. 따라서, RT-1 및 YAY 방법을 따라, FiLM을 활용하여 visual backbone에 언어 정보를 통합하였습니다.

B. Experimental Results on Multi-Task Learning

Simulation experimental results. 실험 결과는 위 표 1을 참고하시면 됩니다. 구체적으로, TinyVLA의 평균 성공률은 Diffusion Policy 보다 21.5% 더 높습니다. 특히, 복잡한 작업일수록 성능 차이가 더욱 커지는데, 예를 들어 MetaWorld Hard 시나리오에서 TinyVLA의 성능은 Diffusion Policy보다 6배 더 높습니다. 이러한 결과는 저자가 제안한 방법의 우수성을 보여줍니다.

Real-world experimental results. 실험 결과는 위 표 2에 제시되어 있습니다. 단일 팔 환경에서 각 모델을 작업 당 20회로 평가하였습니다. 연구진은 각 3개의 체크포인트에서 평균 및 표준 편차를 보고하였습니다. 특히 TinyVLA-H는 머그컵 뒤집기 작업(FlipMug)와 큐브를 쌓는 작업(StackCubes)에서 98.3%의 성공률을 달성했으며, 테니스 공을 배치하는 작업(PlaceTennis)에서 90%의 성공률을 기록하며 다른 베이스라인 모델보다 큰 차이를 보였습니다. 또한, PlaceTennis와 StackCubes는 Position에 민감한 작업이며, 두 객체 모두 rigid body이므로 작업이 더욱 어렵습니다. 5개의 작업에 대한 평균 성공률은 TinyVLA-H는 OpenVLA보다 25.7% 높은 성공률을 기록하였습니다.

C. Generalization to Unseen Instructions

본 연구에서는 TinyVLA-H의 일반화 성능을 평가하였습니다. 이 모델은 실제 환경과 시뮬레이션에서 가장 우수한 성능을 보였습니다. TinyVLA는 사전 학습된 멀티모달 모델을 backbone으로 사용하기 때문에, 학습된 버전이 RT-2처럼 QnA 데이터를 학습하지 않았음에도 불구하고 유사한 Embodied capabilities를 보여줍니다.

위 그림 4에서 Pick the [object]와 같은 고정된 명령을 사용하여 평가를 수행하였습니다. 여기서 [object]는 학습 데이터에서 보지 못한 무작위 객체입니다. 여기서는 머그컵, 장난감 자동차, 핑크 큐브 등 세가지 객체를 테스트 하였습니다.

첫 번째 단계에서는 TinyVLA가 학습 데이터에서 본 색상과 보지 못한 색상을 구별할 수 있는지 평가하였습니다.
- 구체적으로, 테이블 위에 본 적 있는 색상의 머그컵과 보지 못한 색상의 머그컵을 두고, TinyVLA에게 "초록색 머그컵을 뒤집어라(Flip the green mug)"라고 지시하였습니다.
- 초록색은 학습 데이터에서 등장하지 않은 색상이지만, TinyVLA는 해당 작업을 성공적으로 수행하여, 객체 속성(attribute)에 대한 내재적 이해를 보여주었습니다.
두 번째 단계는 객체를 집는(grasping) 작업을 포함합니다.
- 이 단계에서 제시된 두 개의 객체는 학습 데이터에 포함된 적이 있습니다.
- 모델에게 "큐브를 집어라(pick the cube)"라는 명령을 내렸습니다. 비록 환경(environment)과 명령(instruction)이 학습 데이터에 포함되지 않았지만, TinyVLA는 큐브를 성공적으로 집어 들었습니다.
- 이는 TinyVLA가 텍스트 설명을 실제 물리적 객체에 효과적으로 매핑할 수 있음을 의미합니다.
난이도를 올리기 위해 세 번째 단계를 설계하였습니다.
- 모델은 "장난감 자동차를 집어(pick a toy car)" 그리고 "그것을 상자 안에 넣어라(place it into the box)"라는 지시를 받았습니다.
- 장난감 자동차는 학습 데이터에 존재하지 않는 객체입니다.
- 모델이 명령을 올바르게 이해했는지 평가하기 위해, 장난감 자동차 옆에 핑크 큐브를 배치하였습니다.
- 또한, "상자 안에 넣어라(place into the box)"라는 명령은 새로운 skill-object 조합을 요구하며, 모델이 기존 객체를 새로운 기능으로 인식할 수 있는지 테스트하는 것입니다.

TinyVLA가 이 작업도 역시 성공적으로 수행함으로 서, 모델이 새로운 객체(novel object)를 인식할 수 있을 뿐 아니라, 익숙한 객체(familiar object)의 새로운 기능(noew functionalities)까지도 파악할 수 있음을 보여주었습니다.

D. More Real-World Experiments: Bimanual Robot

연구에서는 양팔 UR5 로봇을 사용하여 PlaceBread, StackCube, PlaceTennisBag 세 가지 작업에 대한 실험을 수행하였습니다. 이 작업들은 작업 시간과 필요한 기술 측면에서 차이가 크며, Multi-task policy learning에 어려움을 줍니다.

표 III에 따르면,

Diffusion Policy는 PlaceTennisBag 작업에서 우수한 성능을 보였으나,
TinyVLA-H는 평균 성공률 44.5%를 기록하여, Diffusion Policy의 38.2%를 초과하였다.
특히, OpenVLA는 모든 실험에서 실패하였다.

OpenVLA의 경우, OpenX 데이터셋에서 사전 학습 되었기 때문에 위와 같은 결과가 나왔을 것이라고 추측합니다. OpenX 데이터셋은 single-arm 로봇 데이터만 포함되어 있으므로 양팔 로봇에 적용할 경우 제대로 동작하지 않는 것으로 보입니다.

E. Experiments on Generalization

사전 학습된 멀티모달 모델과 Diffusion Policy head를 결합하여 로봇 행동을 생성하는 접근 방식을 사용하였습니다. 이 접근법은 행동 출력을 최적화할 뿐 아니라, 다양한 환경에서의 적응성(adaptability)을 크게 향상시킵니다. 모든 일반화 실험에서는 각 설정별로 한 번씩 실허을 진행하였으며, DP3 평가 기준과 모델 실패는 ❌ cross mark, 성공은 ✅ checkmark로 표시하였습니다.

Generalization to new views.

Imitation learning은 제한된 시점에서 학습 되었을 때, 새로운 시점에서 학습된 능력을 일반화하는 데 어려움을 겪습니다. 위 그림 5에서처럼 TinyVLA와 Diffusion Policy의 view-generalization 성능을 비교하였습니다.

Diffusion Policy는 시점(viewpoint) 변화에 매우 민감하여, 약간의 변형에도 실패하는 경향이 있습니다.
반면, TinyVLA는 시점 일반화에서 강인함을 보였습니다.
예를 들어, StackCube(큐브 쌓기) 및 FlipMug(머그컵 뒤집기)와 같이 높은 정밀도를 요구하는 작업에서도,
- TinyVLA는 카메라 시점이 좌우로 최대 30도까지 변경되어도 작업을 수행할 수 있었습니다.
- 물론, 일부 경우 실패하기도 하지만, TinyVLA는 Diffusion Policy 및 OpenVLA보다 훨씬 강력한 시점 일반화(view generalization) 성능을 보였습니다.

이러한 결과는 Diffusion-based policy head를 사용하는 것이 일반화 성능을 향상하는 데 기여함을 강조합니다.

Background Generalization

다양한 색상과 재질의 tablecloth를 사용하요 배경을 변화시켰으며, 배경 스타일로는 나무 테이블, 마우스 패드, 책상매트 등 총 6가지를 사용했습니다. Task A에서는 세 가지 배경을, Task B에서는 나머지 세 가지 배경을 사용하였습니다. 위 그림 6에서 볼 수 있듯이, TinyVLA는 다양한 배경에서도 정확하게 객체를 찾고, 작업을 성공적으로 수행하였습니다. 특히, 테니스 공 배치와 같은 Position-sensitive 작업에서도 높은 성능을 기록하였으며, OpenVLA와 유사한 성능을 보이며 일반화 능력을 입증했습니다.

Generalization to different light conditions.

기존의 Conventional Policy networks는 조명 변화에 민감 합니다. 그림 7 하단에서 세 가지 조명 환경에서 성능을 분석하였습니다.(기본 조명 환경, 천장 조명을 끈 상태, 모든 조명을 끈 상태) 여기서 TinyVLA가 이러한 조명 변화에 영향을 받지 않는다는 것을 확인하였습니다. 반면, OpenVLA는 조도가 낮은 환경에서 작업을 실패하는 모습을 확인하였습니다. 이러한 결과는 위 방법이 배경 조명 변화에 대해 강력한 내성을 가지고 있음을 재확인할 수 있습니다.

Generalization to distractor

Diffusion Policy는 방해 요소(distractors)에 민감한 것으로 알려져 있으며, 즉 훈련 데이터에 포함되지 않은 객체가 등장하면, 정책(policy)이 작업을 수행하는 데 실패하는 경향이 있습니다. 강력한 데이터 증강을 적용하면 이러한 문제를 완화할 순 있지만, 데이터 증강 없이도 모델이 방해 요소에 대해 강인함을 가질 수 있는지 평가 하고자 하였습니다. 위 그림 7 상단에서는 StackCube 작업에서 추가적인 방해 요소를 배치하였으며, 이를 난이도에 따라 두 개의 수준(difficulity levels)로 분류 하였습니다. 실험 결과, TInyVLA는 모든 난이도에서 방해 요소를 효과적으로 처리할 수 있었습니다. 반면, Diffusion Policy와 OpenVLA는 두 난이도 모두에서 실패하는 경향을 보였습니다. 이러한 결과는 사전 학습된 멀티모달 모델을 활용하는 것이 방해 요소가 있는 환경에서 일반화 성능을 크게 향상시킨다는 것을 입증합니다.

F. Spatial Generalization

Spatial Generalization은 객체의 배치가 훈련 데이터에서 보지 못한 새로운 환경에서도 일반화하여 작업을 수행할 수 있는 능력을 의미하며, 이는 공간 및 객체에 대한 물리적 상식(physical common sense)이 필요합니다. 위 그림 9에서는 본 연구에서 주장한 방법이 spatial generalization 측면에서 어떻게 수행되는지를 보여줍니다. 흥미롭게도, TinyVLA 모델은 훈련 데이터에서 특정 객체의 위치를 학습하지 않았음에도 불구하고, 해당 객체가 포함된 작업을 성공적으로 수행하였습니다. 또한, 훈련 데이터에서 등장한 위치와 상당한 거리가 있는 환경에서도 TinyVLA를 테스트 하였으며, 그 결과 역시 그림 9에 있습니다. 실험 결과, OpenVLA는 TinyVLA 보다 다소 우수한 성능을 보였습니다. 이는 OpenVLA가 대규모 로봇 데이터로 훈련되었기 때문에, 사전 학습 중 더 다양한 로봇 행동을 학습할 수 있었기 때문으로 보입니다. 반연 Diffusion Policy는 동일한 데이터에서 훈련되었음에도 불구하고, 테스트된 모든 위치에서 spatial generalization에 실패하였습니다.

G. Visual Generalization

Visual Generalization은 novel visual texture에 대한 적응력을 의미합니다. 로봇 조작 작업에서는 배경 색상, 객체의 텍스처, 주변 조명 변화에서 이러한 일반화 능력을 확인할 수 있습니다. 이러한 시각적 변화는 객체 및 목표의 위치와 같은 작업의 기본 구조에서는 영향을 주지 않지만, 로봇이 시각적 단서를 올바르게 해석하고, 이해해야한다는 점에서 중요한 요소입니다.

Appearance generalization

타겟 객체(target objects)의 색상을 변경하여 실험을 진행하였습니다. 이 실험은 위 그림 8 오른쪽에 나와있습니다. 초기 조건은 머그컵은 갈색, 뚜껑은 흰색으로 설정하고, 이후 머그컵과 뚜껑의 색상을 변경하며 테스트 하였습니다. 실험 결과, TinyVLA는 색상이 변경된 객체에서도 작업을 성공적으로 수행하며, OpenVLA와 유사한 성능을 보였습니다. 특히, TinyVLA는 훈련 과정에서 데이터 증강 없이도 이러한 외형 일반화를 달성했습니다. 이는 위 모델이 일반화 능력이 사전 학습된 VL 데이터에서 비롯되었음을 시사합니다.

V. CONCLUSION

본 연구에서는 사전 학습된 멀티모달 모델을 Robot Manipulation에 활용할 가능성을 탐구하였습니다. 본 연구의 접근 방식은 이전 방법들의 한계를 극복하며, 빠른 추론(fast infrerence)를 가능하게 하고, 훈련에 필요한 계산 지원(computational resource)을 크게 줄이는 것을 목표로 합니다. 연구에서는 시뮬레이션과 실제 환경 실험을 통해 위 방법의 효과성을 입증하였습니다. 또한, 본 연구의 접근 방식이 빠르고 data-effecient VLA 모델을 구축하는 데 새로운 해결책을 제공할 것이라고 믿습니다.

'Vision Language Action model' 카테고리의 다른 글