VLATest: Testing and Evaluating Vision-Language-ActionModels for Robotic Manipulation

논문 주소: https://arxiv.org/pdf/2409.12894

Abstract

생성형 AI 및 멀티모달 foundation model의 급속한 발전은 로봇 매니퓰레이션 분야의 진전을 이끌 잠재력을 보여주고 있습니다. 특히 Vision-Language-Action 모델은 대규모 Vision-:Language Data와 로봇 시연 데이터를 활용함으로 써, Visuomotor control을 위한 유망한 접근법으로 떠오르고 있습니다. 그러나 현재의 VLA 모델들은 대부분 소수의 수작업으로 구성된 장면에서만 평가되기 떄문에, 다양한 시나리오에서의 일반적인 성능과 견고성을 대부분 탐색되지 않은 채로 남아있습니다. 이러한 한계를 해결하기 위해, VLA 모델을 테스트하기 위한 로봇 매니퓰레이션 장면을 생성하는 fuzzing 프레임워크인 VLATest를 제안합니다.

VLATest를 기반으로, 7개의 대표적인 VLA 모델의 성능을 평가하는 실증적인 연구를 수행하였습니다. 연구 결과, 현재의 VLA 모델들은 실제 적용에 필요한 견고성을 갖추지 못하고 있음을 확인하였습니다. 또한, 혼란을 유발하는 confounding objects, 조명 조건, 카메라 시점, 보지못한 객체, 그리고 작업 지시문의 변형과 같은 다양한 요소들이 VLA 모델의 성능에 어떤 영향을 미치는지도 분석하였습니다.

이 연구는 기존 VLA 모델들의 한계를 강조하며, 신뢰할 수 있고 실용적인 VLA응용을 위해서는 추가적인 연구가 필요함을 시사합니다.

1 Introduction

로봇 매니퓰레이션은 사이버-물리 시스템(CPS)의 핵심 분야이며, 산업 자동화, 헬스케어, 물류 등 다양한 영역에 적용되고 있습니다. 최근 AI의 발전과 함께 연구자들은 로봇 매니퓰레이션의 계획(planning) 및 제어(control)에 AI를 통합하려는 시도를 활발히 하고 있으며, 특히 딥 강화 학습(deep reinforcement learning)을 통해 미지의 시나리오에 대한 적응력을 높이고 있습니다.

LLM 및 VLM과 같은 foundation model의 등장은 AI 기반 로봇 매니퓰레이션에 새로운 가능성을 열었습니다. 특히, VLA는 사용자의 자연어 입력과 시각적 관찰을 기반으로 로봇 행동을 직접 생성하도록 개발된 모델입니다. RLHF와 같은 기법은 VLA가 자연어 명령에서 인간의 의도를 더 잘 해석하도록 돕고, 이를 통해 단순히 프롬프트만으로 로봇이 매니퓰레이션 작업을 수행할 수 있게 되었습니다. Foundation model의 대규모 사전 학습 특성 덕분에 특정 작업이나 환경에 맞춘 별도 설계 없이도 다양한 Downstream manipulation control에 쉽게 적응할 수 있으며, 최신 SOTA VLA 모델인 RT-2는 학습 시 보지 못한 복잡한 작업에도 확장 가능함을 보여주었습니다.

VLA 모델은 데이터 중심적 특성으로 인해 해석이 어렵고, 이는 실제 로봇 응용에서의 safety와 applicability을 저해합니다. 따라서 VLA 모델의 신뢰성과 안정성을 높이기 위한 테스팅, 디버깅, 복구(repairing)와 같은 품질 보증 기술 개발이 시급합니다. 현재 VLA 모델 평가는 소수의 수작업으로 설계된 장면에만 의존하며, 이는 포괄성과 효과성이 부족하여 일반적인 성능과 행동 특성이 제대로 탐색되지 못하고 있습니다. 또한, VLA 모델은 멀티모달 지각 능력을 갖추고 있어 혼란을 주는 객체(confounding objects), 조명 조건(lighting conditions), 카메라 포즈(camera pose)와 같은 시각적 요소가 성능에 큰 영향을 미칠 수 있지만, 이러한 환경 요인에 대한 견고성(robustness) 이해는 아직 부족합니다.

위에서 언급된 문제들을 해결하기 위해, 본 연구에서는 인기 있는 VLA 모델들의 전반적인 성능과 견고성을 평가하기 위한 대규모 실증 연구를 수행했습니다. 이를 위해, 로봇 매니퓰레이션에서 VLA 모델을 평가할 수 있도록 설계된 최초의 테스트 프레임워크 중 하나인 VLATest를 제안합니다. VLATest는 총 10개의 테스트 작업을 설계하고, fuzzing 기반의 장면 생성 프레임워크를 구축하여 다양한 조건 하에서 VLA 모델의 성능과 견고성을 평가할 수 있도록 합니다. VLATest는 ManiSkill2 시뮬레이션 환경 위에 구현되었으며, VLA 모델을 활용한 로봇 매니퓰레이션에서 발생 가능한 잠재적 오류를 효과적으로 식별하는 데 기여합니다.

본 논문에서는 다음과 같은 6가지 연구 질문(RQ)을 통해 VLA 모델의 신뢰할 수 있는 사용 가능성을 분석하였습니다:

RQ1: VLA 모델은 대표적인 로봇 매니퓰레이션 작업에서 어떤 성능을 보이는가?
RQ2: 혼란 객체의 수는 VLA 모델의 성능에 어떤 영향을 미치는가?
RQ3: 조명 조건 변화는 VLA 모델의 성능에 영향을 미치는가?
RQ4: 카메라 시점 변화는 VLA 모델의 성능에 영향을 미치는가?
RQ5: VLA 모델은 보지 못한(unseen) 객체에 대해 얼마나 견고한가?
RQ6: 동일한 작업 지시문이 표현(paraphrase)만 달라졌을 때, VLA 모델은 얼마나 견고한가?

이러한 질문을 분석하기 위해, 4가지 로봇 매니퓰레이션 작업에 대해 총 18,604개의 테스트 장면을 생성하였고, RT-1-1k, RT-58k, RT-400k [7], RT-1-X, Octo-small, Octo-base, OpenVLA-7B 등 총 7개의 대표적인 공개된 VLA 모델을 선택하여 실험을 진행하였습니다. 총 78,604회에 걸친 시뮬레이션 실행이 포함되었으며, 580 GPU 시간 이상이 소요되었습니다.

분석 결과를 요약하면, 현재의 VLA 모델들은 기본적인 매니퓰레이션 작업에서도 낮은 성능을 보였으며, 혼란 객체 수가 많아질수록, 정확한 객체를 탐지하고 조작하는 데 성능이 급감하였습니다. 또한 조명 조건이나 카메라 시점이 달라지면 기본 세팅 대비 성능 저하가 헌저합니다. 반면, 대규모 사전 학습된 모델일수록 이러한 조건 변화에 상대적으로 강한 견고성을 보였습니다. 하지만, unseen object와 지시문 변형(mutated instruction에 대해서는 여전히 심각한성능 저하를 보입니다.

위 연구의 기여를 요악하자면 다음과 같습니다:

실증적 연구: 7개의 대표적인 VLA 모델에 대해 다양한 조건에서 성능과 견고성을 평가하는 대규모 실험을 수행함
테스트 프레임워크: 다양한 연산자 기반의 장면을 자동 생성하여 평가하는 fuzzing 기반 프레임워크 VLATest 제안 및 구현
실무 시사점: 현재의 VLA 모델들이 가지는 한계와 개선 방향 제시
오픈소스 아티팩트 제공: 재현 가능한 실험 패키지 및 테스트 장면을 GitHub에 공개
→ https://github.com/ma-labo/VLATest

2. Background: Vision-Language-Action Models

Vision-Language-Action 모델은 사용자의 자연어 입력을 작업 지시로 받아들이고, 카메라로부터의 시각 입력을 관찰 정보로 받아들이는 Deep-Neural network의 일종입니다. VLA의 출력은 이러한 작업 지시에 따라 로봇 매니퓰레이션을 수행하기 위한 일련의 action으로, 예를 들어 로봇 팔의 관절을 움직이거나 그리퍼를 여는 동작 등을 필요로 합니다.

2.1 VLA Model for Robotic Manipulation

위 그림 1은 VLA 모델의 일반적인 Architecture을 나타냅니다. 첫 번째 Timstep에서 자연어 입력 $T$와 이미지 입력 $I_1$ 이 주어지면, VLA 모델은 자연어 tokenizer와 visual encoder를 사용하여 각각 $T=(t_1,..., t_m), I_1 = (i_{11},....,i_{1n})$ 형태의 token 집합으로 투영됩니다.

이러한 Token 들은 하나의 시퀀스로 concat되어 transformer 모델로 입력되며, 이는 첫 번째 action token $A_1$을 예측합니다. 그 후, Action head 레이어가 이 $A_1$을 de-tokenize 하여 실제 로봇이 수행할 행동 값인 $[Δx_1,Δθ_1,Δgrip_1]$ 을 출력합니다. 여기서 각 요소는 3차원 위치 이동의 x,y,z 방향, 회전 벡터, gripper 동작 제어(ex: 열기, 닫기)의 의미를 가지고 있습니다. 이러한 동작은 해당 시점에서의 관찰 이후 수행되어야 할 end-effector의 제어 값을 의미합니다.

로봇은 이 동작을 수행한 후, 시점 $t_2$에서의 새로운 시각 관찰을 기반으로 얻은 이미지 $I_2 = (T,I_1,A_1,I_2)$ 와 이전의 $T, I_1, A_1$을 함께 사용하여 concat하여 새로운 입력시퀀스 $(T,I_1,A_1,I_2)$.를 구성하고 transformer에 다시 입력하여 새로운 행동 토큰 $A_2$를 예측합니다. 이러한 과정은 작업이 완료되거나, 사전에 정의된 최대 스텝 수에 도달할 때까지 반복됩니다.

2.2 Training and Evaluation of the VLA Model

Training.

VLA 모델의 학습은 일반적으로 다음 두 가지 방식으로 이루어집니다:

Training from scratch
- 로봇 시연 데이터에 기반하여 VLA 모델을 처음부터 직접 학습
- 예: RT-1, Octo 등은 비교적 소규모 아키텍처(1억 개 미만 파라미터)를 대상으로 하며, 제한된 계산 자원으로도 가능.
Fine-tuning a general-purpose VLM
- 대규모 사전 학습된 모델(LLaVA) 등을 로봇 작업에 맞게 미세조정.
- LlaVA는 다양한 도메인에서 수많은 이미지-텍스트 쌍으로 학습되었으며, 파라미터 수가 10억 개 이상인 모델을 재사용함으로 써 일반화 성능이 높아짐
- 특히 보지 못한 객체나 작업에 대한 적응력 향상에 유리함.

Evaluation.

VLA 모델은 일반적으로 특정 스킬 단위로 성능을 측정하는 데 평가됩니다. 예를 들어, 장면 내에서 객체를 집기라는 작업이 포함됩니다. 이러한 작업을 평가하기 위해서는 다음과 같은 조건이 사전에 준비되어야 합니다:

Test 장면 생성
- 목표 객체(target object), 혼란 객체(confounding objects), 조명 조건 등 환경 요소를 구성.
자연어 프롬프트 구성
- 조작 작업에 적절한 자연어 입력을 정교하게 설계.

이후 모델의 수행 결과를 평가하기 위해 일반적으로 다음과 같은 성능 평가 지표를 설정합니다:

올바른 객체를 정확히 집었는가?
객체를 들어올리는 데 성공했는가?
일정 시간 이상 객체를 유지하며 들고 있었는가?

VLA 모델과 로봇의 실행은 시뮬레이션 환경 또는 real world에서 이루어질 수 있습니다. 시뮬레이션에서는 이러한 metric을 자동으로 측정할 수 있는 반면, 실제 환경에서는 일반적으로 manual labeling을 통해 metric을 계산해야 합니다.

3. VLATest

본 절에서는 먼저 로봇 매니퓰레이션 작업을 위한 테스트 장면에 포함되는 operator들을 소개하고, 이어서 VLATest에서 테스트 장면을 생성하는 알고리즘을 설명합니다.

3.1 Operators

위 그림 2에서 제시된 바와 같이, VLATest는 총 4개의 카테고리에 걸쳐 10개의 testing operator를 정의합니다. 이 연산자들은 로봇 매니퓰레이션 작업을 구성하는 데 있어 가장 핵심적인 요소들이며, 따라서 VLATest는 다양한 작업에 쉽게 적용될 수 있습니다. 또한 이 연산자들만 변경함으로써도, 생성된 장면의 작업의 본질적 속성은 유지되므로, 훈련 중에 수행되지 않았던 행동을 모델에게 요구하지 않게 됩니다. 이는 VLA 모델의 일반화 평가에 있어서 핵심적인 점입니다.

Target object(s): 작업 수행 대상이 되는 객체 또는 참조 역할을 하는 객체(Ex: 들어올려야 할 객체, 그 위에 다른 객체를 올려야 하는 객체 등), 세 가지 연산자를 고려합니다: 1) 객체 유형, 2) 객체 위치, 3) 객체 방향.
Confounding object(s): 타겟 객체와 달리, 작업과 직접적 관련은 없지만 환경에 존재하며, 로봇은 이들과의 충돌을 피해야 합니다. 타겟 객체와 동일한 3가지 연산자 외에도, 혼란 객체의 수(number of confounding objects)를 추가 연산자로 포함시킵니다.
Lighting: 조명 조건은 카메라로 캡처되는 이미지의 렌더링의 영향을 주며, 이는 곧 VLA 모델의 시각 입력에 영향을 미칩니다. 본 논문에서는 조명의 밝기를 하나의 연산자로 고려합니다.
Camera: 카메라로 pose 또한 VLA 모델의 시각 입력에 영향을 미칩니다. 따라서 카메라의 취리 와 방향을 각각 별도의 연산자로 고려합니다.

3.2 Testing Scene Generation

VLATest의 장면 생성 알고리즘은 Algorithm 1에 요약되어 있으며, 다음과 같은 단계로 구성됩니다.

Semantically valid target object 샘플링
Confounding object 샘플링 (옵션)
조명 조건 변형 (옵션)
카메라 시점 변형 (옵션)

Sampling semantically valid target object(s).

객체 데이터 베이스 $O$ 에서 중복 없이 타겟 객체를 random 하게 Sampling (Lines 5-9)을 진행합니다. 이후 선택된 객체가 작업의 조건에 의미론적으로 유효한지를 확인합니다(Line 4). 예를 들어, Task 3(어떤 객체를 다른 객체 위에 올리기) 에서는 사과를 접시 위에 올리는 건 유효하지만, 사과를 공 위에 올리는 것은 물리적으로 안정적이지 않아 유효하지 않습니다. Task 4(어떤 객체를 다른 객체 안에 넣기)에서는 사과를 콜라 캔 안에 넣는 것은 불가능합니다. 이는 유효하지 않습니다. 이를 위해, Task 3와 Task 4에 대해 사전 정의된 invalid object list를 사용합니다. 타겟 객체의 위치 및 방향도 렌덤 샘플링하며, 두 객체 이상일 경우, 일정 거리 이상 떨어지도록 구성합니다.( > 𝑠𝑎 𝑓 𝑒_𝑑𝑖𝑠t) 예를 들어, 이미 A객체가 B 객체 위에 있는 상태에서 샘플링하면 테스트 장면이 비정상으로 간주됩니다.

Sampling confounding objects.

혼란 객체 수 $N_{confound) > 0 $ 인 경우 실행합니다(Line 11). 객체 데이터 베이스 $O$ 에서 혼란 객체를 중복 없이 샘플링 합니다.(Line 12-16). 이는 동일한 카테고리지만 다른 의미을 가진 객체는 다른 것으로 간주합니다.(예: 콜라 vs 펩시 캔은 서로 다른 객체) 각 객체의 위치 및 방향도 타겟 객체와 동일한 방식으로 샘플링을 진행합니다.

Mutating Lighting and Camera Pose

조명 조건으로는 조명 밝기 값을 변형하기 위해 계수 α를 렌덤으로 생성합니다(Lines 18-20). 카메라 조건으로는 카메라의 위치를 거리 d만큼 이동하고, 방향을 각도 θ만큼 회전합니다.(Lines 21-23). 단, 전체 장면이 카메라 시야 내에 유지되도록 d와 θ는 작은 값으로 제한합니다. α,d,θ는 지정된 범위 내에서 렌덤 생성됩니다.

이후 중복 장면을 방지하기 위해, 장면 생성 후 기존 장면과 구성을 비교하여 중복 여부를 확인합니다. 실험 전체 동안 중복 장면은 한번도 생성되지 않았다고 합니다.

4. Empirical Study

VLATest를 기반으로 본 연구에서는 최신 SOTA VLA 모델들의 성능을 평가하기 위한 실증적 연구를 수행하였습니다. 이 장에서는 먼저 research question을 제시하고, 이어서 실험 설정을 설명합니다. 실험 설정에는 사용된 VLA 모델, 로봇 매니퓰레이션 작업, 프롬프트 템플릿, 구현 세부사항이 포함됩니다.

4.1 Research Questions

본 연구는 신뢰할 수 있는 로봇 매니퓰레이션을 위한 주요 요인을 규명하기 위해 다음과 같은 여섯 가지 연구 질문을 다룹니다. 이들은 다음과 같이 범주화 될 수 있습니다: 기본 성능 평가 (RQ1), 작업 복잡도 (RQ2),시각 인식 견고성 (RQ3, RQ4),OOD 견고성 (RQ5),언어 명령 견고성 (RQ6).

RQ1. How do VLA models perform in popular robotic manipulation tasks?

이 질문은 최신 VLA 모델들이 다양한 로봇 매니퓰레이션 작업에서 어떤 성능을 보이는 지 평가하는 데 목적이 있습니다. 기존 연구들은 소수의 수작업 기반 테스트 케이스에 의존하였으나, 본 연구에서는 VLATest를 통해 대규모 자동 생성 테스트 케이스를 활용하였습니다. 이를 통해, SOTA VLA 모델들의 전반적인 성능을 보다 포괄적으로 평가하며, 현재 존재하는 과제와 가능성을 함께 조망하고자 합니다.

RQ2. How does the number of confounding objects affect a VLA model’s performance?

혼란 객체는 작업 지시와 무관한 객체들로, 이들이 많아질수록 로봇 매니퓰레이션의 난이도가 상승하는 것은 직관적으로 명확합니다. 그러나 VLA 모델이 처리 가능한 복잡도의 상한선이 존재하는지에 대한 실증적 근거는 부족합니다. 따라서, 본 연구에서는 혼란 객체의 수를 조절한 실험을 통해, 혼란도 증가에 따른 성능 저하 양상을 분석하고, 실무자에게 유용한 통찰을 제공하고자 합니다.

RQ3. Does the change in lighting conditions affect a VLA model’s performance?

VLA 모델을 실제 환경에 배치할 경우, 외부 조명 조건은 예측 불가능하게 변할 수 있습니다. 따라서 다양한 조명 밝기 조건에서도 모델이 견고한 성능을 유지할 수 있어야 합니다. 이 연구 질문은 다양한 조명 조건에서 VLA 모델이 어느 정도의 견고성을 유지하는지 평가함으러 써, 실무자에게 실용적인 배치 가이드라인을 제공하는 것을 목표로 합니다.

RQ4. Does the change of camera pose affect a VLA model’s performance?

VLA 모델은 대규모 시각 데이터셋을 기반으로 사전 학습되므로, 다양한 각도에서 촬영된 이미지에 대해 강건한 성능을 보여주어야 합니다. 본 질문은 카메라 위치와 각도 변화에 따라 모델 성능이 어느 정도 까지 유지되는지를 분석하는 데 목적이 있습니다.

RQ5. How robust do VLA models perform against unseen objects?

실제 로봇 환경에서는, 훈련 데이터에 포함되지 않았던 새로운 객체들이 등장할 수 있습니다. 대규모 사전 학습을 통해 VLA 모델이 이러한 객체들에 대해 얼마나 일반화할 수 있는지는 명확하지 않습니다. 또한, Seen-object vs unseen-object 작업 간 성능 격차에 대한 분석 역시 미비합니다. 이 질문은 외부 객체 데이터베이스를 활용하여 unseen object에 대한 모델의 한계와 도전 과제를 분석하고자 합니다.

RQ6. How robust do VLA models perform against task instruction mutations?

자연어 기반 로봇 매니퓰레이션에서 task instruction은 매우 중요한 역할을 수행합니다. 하나의 의미를 다양한 문장 구조나 표현 방식으로 바꿔 표현할 수 있으며, 이 경우에도 VLA 모델은 같은 의미를 인식하고 동일한 행동을 수행할 수 있어야 합니다. 본 질문은 다양한 지시문 변형에 대해 VLA 모델이 일관된 성능을 유지할 수 있는지, 즉 language model robustness를 갖추었는지를 평가하고자 합니다.

4.2 Subject VLA Models

연구 질문을 탐색하기 위해, 다음 네 가지 계열의 Open source VLA 모델을 분석하였습니다.

● RT-1

Google Research에서 공개한 모델
시각 입력 및 언어 지시문을 토크나이징하기 위해 ImageNet 으로 사전 학습된 FiLM EfficientNet-B3 을 사용
이후 transformer로 연결되어 로봇 매니퓰레이션 행동을 생성함
Google에서 수집한 비공개 13만 개의 로봇 시연을 기반으로 학습됨

● RT-1-X

Google DeepMind에서 공개한 모델
모델 아키텍처는 RT-1과 동일함
그러나 학습 데이터는 오픈소스 Open X-Embodiment 를 사용함
- 이 데이터셋은 22개의 서로 다른 로봇으로부터 수집된 16만 개 시연을 포함함

● Octo

UC Berkeley에서 공개한 모델
backbone으로 Vision Transformer 을 사용
모델 구조에 “readout token”을 도입하여, downstream fine-tuning 시 observation 입력 또는 action 출력을 유연하게 추가할 수 있도록 설계됨
학습 데이터는 Open X-Embodiment의 약 6.5만 개 시연 서브셋을 사용
두 가지 변형 모델 존재:
- Octo-small: ViT-S 기반, 약 27M 파라미터
- Octo-base: ViT-B 기반, 약 93M 파라미터

● OpenVLA-7b

Stanford University에서 최근 공개한 가장 최신의 VLA 모델
Visual encoder는 총 6억 파라미터 규모이며,
- SigLIP 및 DinoV2로 사전 학습됨
Language backbone 은 7B 파라미터 규모의 Llama 2
이후 Open X-Embodiment 데이터셋을 기반으로 Fine-tune 수행됨

4.3 Robotic Manipulation Tasks

본 연구는 네 가지 서로 다른 로봇 매니퓰레이션 작업을 포함하였습니다. 각 작업은 아래와 같이 간단히 소개하며, 작업 별 비디오 데모는 부록 자료를 참고하길 바랍니다.

Task 1: Pick up an object: 이 작업은 VLA 모델이 타겟 객체를 식별하고, 해당 객체를 집고 들어올릴 수 있는 제어 신호를 생성헤야 합니다. 작업 성공 조건으로는 로봇이 올바른 객체를 집고, 해당 객체를 연속된 5프레임 동안 최소 0.02m 이상 들어 올려야 합니다.

Task 2: Move object A to object B: VLA 모델이 먼저 출발 객체를 식별하고, 이를 대상 객체 B 근처로 이동시키는 제어 신호를 출력해야 합니다. 작업 성공 조건은 로봇이 정확한 객체를 식별하고, 객체 A를 객체 B로부터 0.05m 이내 거리로 이동시켜야 합니다.

Task 3: Put object A on top of object B. Task 2와는 달리 이 작업은 객체 A를 단순히 근처로 옮기는 것이 아니라, 객체 B 위에 안정적으로 쌓는(stack) 방식의 제어 신호를 생성해야 합니다. 작업 성공 조건은 객체 A가 객체 B 위에 안정적으로 놓여 있어야 합니다.

Task 4: Put object A into object B. Task 3과는 달리, 이번 작업은 객체 A를 객체 B안에 넣는 것을 목표로 합니다. 예를 들어, 사과를 싱크대나 바구니 안에 넣는 경우를 의미하고, 작업 성공 조건은 객체 A가 객체 B 내부에 완전히 들어가 있어야 합니다.

각 작업에 대해, VLATest는 Task specification (예: 들어올린 높이 등)을 기준으로 VLA 모델이 작업을 성공적으로 수행헀는지 여부를 자동으로 검증합니다.

4.4 Prompt Templates

RQ1부터 RQ5까지의 각 작업에 대해, 기존 VLA 연구들을 따라 standard prompt template를 사용하였습니다. 각 작업에 대한 프롬프트는 다음과 같습니다.

pick up [object name]
move [object name] near [object name]
put [object name] on [object name]
put [object name] into [object name]

한편, RQ6 에서는 위의 표준 템플릿을 변형한 프롬프트들을 사용하여 실험을 수행하였습니다.

4.5 Implementation Details

모든 실험은 다음과 같은 서버 환경에서 수행되었습니다:

CPU: AMD 5955WX
GPU: NVIDIA RTX A6000 × 2
운영체제: 64비트 Ubuntu 20.04 LTS
Python version: 3.10
CUDA version: 12.2

VLATest는 Maniskill2 시뮬레이션 환경에서 구현되었습니다. 사용된 객체 데이터베이스는 다음 두 가지입니다: RQ1~RQ4 및 RQ6에서 사용: Maniskill2의 기본 객체 데이터 베이스 (N = 18), RQ5에서는 YCB 객체 데이터 베이스 (N = 56)이 사용되었습니다.

각 메니퓰레이션 작업 1건당 평균 실행 시간은 약 19.8초였으며, 본 실증 연구 전체에는 약 586 GPU 시간이 소요되었습니다.

5 Results

5.1 RQ1: How Do VLA Models Perform in Popular Robotic Manipulation Tasks?

이 연구 질문을 탐구하기 위해, VLATest를 이용하여 각 매니퓰레이션 작업(Task 1~4)에 대해 총 1,000개의 장면을 자동으로 생성하였습니다. 장면 구성 시 Target 객체는 무작위로 선택되었고, 0~3개의 confounding objects)를 렌덤하게 샘플링하였습니다. 또한 충돌 방지를 위해 객체 간 최소 거리를 0.15m 이상 유지하였습니다. 조명 조건과 카메라 시점은 기본 설정을 사용하였습니다. Table 2에서는 이 네가지 작업에서 7개의 VLA 모델이 수행한 성능이 요약되어 있습니다. 전반적으로, 현재의 VLA 모델들은 이 네가지 매니퓰레이션 작업에서 우수한 성능을 보이지 못했습니다.

Finding 1

위 실험 결과, 모든 VLA 모델은 실험에 포함된 네 가지 로봇 매니퓰레이션 작업에서 전반적으로 저조한 성능을 보였습니다. 특히, 여러 개의 타겟 객체를 식별해야하는 작업 (Task 2, Task 3, Task 4)에서의 성능이 더욱 떨어졌습니다. 이러한 결과는 VLA 모델의 개발이 아직 초기 단계에 있으며, Real-world scenarios에 배포하기에는 아직 준비가 충분하지 않다는 것을 시사합니다.

이들 VLA 모델이 저조한 성능을 보인 이유를 파악하기 위해, 각 테스트 장면을 작업 성공에 필요한 세부 단계 별로 분석하였습니다. 구체적으로, Table 2에서 제시된 바와 같이 네 가지 작업 각각에 대해 단게별 성공률을 측정하였습니다. 예를 들어, Task 1은 다음 세 가지 단계를 포함합니다: 1. Target 객체를 grasp(Table 2의 Grasp 열), 2. 객체를 눈에 띄게 lift(Lift 열) 3. 5프레임 연속 유지하며 들어올리기(Success 열) 모든 작업에서 단게가 진행될수록 성공률이 크게 감소하는 경향을 보였습니다. 예를 들어, Task 1의 경우, 타겟 객체를 정확히 잡는 단계의 평균 성공률은 23.3%, 들어올리는 단계는 15.7%, 5 프레임 동안 유지하는 단계는 12.4%로 점차 감소하였습니다. 이는 현재의 VLA 모델들이 여러 개의 연속 동작을 요구하는 자연어 지시문을 제대로 해석하고 실행하는 데 어려움을 겪고 있음을 시사합니다.

Task 2, Task 3, Task 4, 에서 VLA 모델들은 source object를 집는 데에는 16~25%의 성공률을 보였습니다. 그러나 이후 단계인 target object 식별 및 이동에서는 실패율이 높았습니다. 정확히 이동된 비율은 0.6% ~ 13.7% 정도였고, 정확히 위치된 비율은 0.5% ~ 6.0% 에 불과하였습니다. 이러한 결과를 개선하기 위한 방안으로, LLM에서의 chain-of-thought prompting 개념을 고려할 수 있습니다. 즉 복잡한 작업 지시문을 단일한 action step 도 분리하여, VLA 모델이 step-by-step 프롬프트를 받아 처리하도록 하는 방식입니다.

Finding 2

현재의 VLA 모델은 여러 단계의 동작(Multi-step action)이 요구되는 작업을 성공적으로 수행하지 못하며, 이는 task instruction을 정확히 해석하는 능력의 개선이 시급함을 시사합니다.

Testing Sufficiency.

VLATest가 생성한 Test 장면의 품질을 평가하기 위해, Test coverage(Test 범위)를 추가로 계산하였습니다. 그러나 현재까지 VLA 모델이나 로봇 매니퓰레이션에 직접 적용 가능한 기존의 coverage 지표는 존재하지 않습니다. 예를 들어, Neuron coverage와 같은 메트릭은 계산 비용이 매우 높습니다. 왜냐하면, VLA 모델은 수백만 ~ 수십억 개의 파라미터를 가진 대규모 모델이기 때문입니다. 따라서 본 연구에서는 자율주행 분야의 선행 연구를 참고하여, trajectory coverage를 구현하였습니다. 이는 실용적인 coverage 측정 대안으로 간주되며 그 한계는 Sec.8 에서 논의됩니다. 구체적으로는, 로봇 매니퓰레이션 플랫폼(예: 책상) 기준으로, 타겟 객체의 위치 다양성이 얼마나 포괄되었는지를 측정하였습니다. 위 Table 3과 같이, 생성된 test case 수 n을 10에서 1000으로 증가시켰을 대, 모든 Task에 대해 100%의 coverage를 달성하였습니다. 이는 VLATest가 생성한 테스트 장면이 충분한 다양성과 포괄성을 갖추었음을 의미합니다.

5.2 RQ2: How Does the Number of Confounding Objects Affect a VLA Model’s Performance?

RQ2를 조사하기 위해, VLATest를 사용하여 각 작업에 대해 고정된 수의 혼란 객체 $n$을 포함하는 100개의 장면을 생성하였으며, $n$은 0,1,2,3,4로 설정되었고, 결과적으로 작업 당 총 500개의 작업이 생성되었습니다. 결과는 위 그림 3과 같습니다.이 ㄱ연구 질문을 조사하는 동안 기본 조명 조건과 카메라 시점을 사용하였습니다. 첫 번째 두 작업(Task 1과 Task 2)에서의 혼란 객체의 수가 증가함에 따라 VLA 모델의 성공률이 감소하는 것을 관찰하였습니다. Task 1 과 Task 2에서 혼란 객체의 수를 0개에서 4개로 증가시켰을 때, 서로 다른 VLA 모델과 장면에 대한 평균 성공률은 각각 17.3% 에서 8.3%로, 그리고 8.3%에서 1.1%로 떨어졌습니다.

하지만 Task 3와 Task 4에서는 위와 같은 패턴을 발견하지는 못했습니다. 이는 주로 VLA 모델이 혼란 객체가 없는 경우$(n=0)$에도 성능이 저조했기 때문일 수 있습니다. Task 3과 Task 4에서 서로 다른 VLA 모델과 장면에 대한 평균 성공률은 $n=0$ 일때 각각 1.2%와 0.7% 였으며, $n=4$ 일때는 각각 1.1%와 0.4% 였습니다.

Finding 3

혼란 객체의 수는 VLA 모델의 성능에 영향을 미치며, 이는 VLA 모델이 더 복잡한 환경에서 신뢰할 수 없게 됨을 나타냅니다. 장면의 혼란 객체가 4개 있는 경우, VLA 모델은 각각 Task 1, Task 2, Task 3, Task 4에서 단지 8.2%, 2.3%, 1.0%, 0.4%의 장면에서만 테스트를 통과하였습니다.

RQ1과 유사하게, 각 테스트 장면과 그 안에 개별 단계에서의 성공 여부를 분석해 보았습니다. 여기서 각 단계에서 성공한 테스트 장면의 수를 집계하였고, 그 결과는 위 그림 4에서 확인 가능합니다. 본 연구에서는 현재의 VLA 모델들이 직면한 주요 과제가 올바른 객체를 식별하지 못하는 데에 있다는 것을 발견하였습니다. 네 가지 작업 모두에서, 혼란 객체의 수가 증가함에 따라 타겟 객체를 잡는 성공률이 감소하였습니다.이 결과는 혼란 객체가 여러 개 있을 때 VLA 모델이 조작해야 할 올바른 객체를 찾는 데 어려움을 겪는 다는 것을 나타냅니다. 구체적으로 혼란 객체가 없을 때 VLA 모델은 각각 Task 1, Task 2, Task 3, Task 4에서 700개의 장면 중 199, 196, 137, 152개에서 조작해야 할 객체를 성공적으로 찾았습니다. 하지만 혼란 객체가 4개 있을 떄, 네 가지 작업에서 성공적으로 올바른 객체를 찾은 장면의 수는 각각 107,152,78,65 개 였습니다. VLA 모델 전반의 평균 grasp 성공률은 네 가지 작업에 대해 각각 53.7%, 77.6%, 47.4%, 42.8%로 감소하였습니다.

Finding 4

장면에 confounding objects가 존재할 경우, VLA 모델이 조작해야 할 올바른 객체를 정확히 찾아내는 능력이 크게 저하될 수 있습니다.

옆 그림 5는 Task 1의 서로 다른 두 테스트 장면을 보여줍니다. 두 장면 모두에서, VLA 모델 RT-1-X는 Pepsi 캔을 집으라는 지시를 받았습니다. 여기서 Confounding objects가 없는 경우, RT-1-X는 Pepsi 캔을 성공적으로 잡고 들어올렸습니다. 그러나 혼란 객체가 두 개 (7 Up 캔과 Red bull캔)가 있는 경우, RT-1-X는 Pepsi캔을 찾는 데 실패하였고, 결국 7 Up 캔을 집었습니다.

The Impact of Confounding Objects’ Similarity, 혼란 객체의 수 외애도, VLA 모델의 성능읋 영향을 미칠 수 있는 또 다른 요인은 혼란 객체와 타겟 객체 와의 유사성입니다. 본 연구에서는 객체 데이터베이스를 수동으로 조사하여, 다음과 같은 두 그룹의 유사한 객체들을 식별하였습니다. 첫 번째로 서로 다른 브랜드의 음료 캔이고 두 번째로 서로 다른 색상의 큐브입니다. 그런 다음, RQ2의 실험 결과를 두 그룹으로 분류 하였습니다. 첫 번째 그룹은 타겟 객체와 혼란 객체가 유사할 경우, 두 번째 그룹은 타겟 객체와 혼란 객체가 유사하지 않은 경우 입니다. 연구진은 이 두 그룹 간의 성공률을 각기 다른 혼란 객체의 수($n$)에서 네 개의 작업에 대해 비교하였습니다. 구체적으로, Mann-Whiteny U 검정을 수행하였고, 그 결과 두 그룹 간의 성능 차이는 통계적으로 유의하지 않음을 확인하였습니다.

네 가지 작업에 대한 𝑝-값은 각각 0.443, 0.614, 0.657, 0.443
효과 크기(effect size)는 각각 0.291, 0.234, 0.271, 0.257

이러한 결과는 타겟 객체와 혼란 객체 간의 유사성은 VLA 모델의 성능에 거의 영향을 미치지 않는다는 것을 나타냅니다.

5.3 RQ3: Does the Change in Lighting Conditions Affect a VLA Model’s Performance?

이 연구 질문에 답하기 위해, 본 연구에서는 먼저 RQ1에서 각 VLA 모델이 성공적으로 실행한 장면들을 수집하였고, 그 결과 총 1,434개의 성공한 테스트 케이스가 확보 되었습니다. 그 후, 이 테스트 케이스들을 조명 세기를 무작위로 증가 또는 감소 시켜 3 회씩 다시 실험하였습니다. (총 $N=4,302$). 구체적으론 조명 강도를 증가시킬 때는 $ α∈(1,20]$ 범위에서, 감소시킬 때는 $α∈[1/20,1)$ 범위에서 무작위로 계수 α를 샘플링하였습니다. 이 계수는 RQ1에서 사용된 기본 조명 강도에 곱해져 적용되었습니다. 본 연구진은 과 α=1/20의 극단적인 경우도 수동으로 확인하였고, 그러한 조명 조건에서도 인간의 이미지를 식별하는 데에는 문제가 없을을 확인하였습니다.

전반적으로, 조명 조건을 무작위로 변형하는 것은 VLA 모델의 성능에 상당한 영향을 미쳤습니다. 기본 조명 조건에서 성공한 1,434개의 테스트 케이스 중 조명 변형 후에도 성공한 평균 케이스 수는 878.4개에 불과하였습니다. 특히, 조명 변화는 Task 1, Task 3, Task 4에서 큰 영향을 주었으며, 이 경우 절반 이하의 테스트 케이스만이 여전히 성공적으로 수행되었습니다. 반면, Task 2에서는 7개의 VLA 모델 중 5개가 조명 변화에도 불구하고 강인한 성능을 유지하였습니다.

Finding 5~7

전반적으로, VLA 모델은 조명 변화에 대해 충분히 강인하지 않습니다. 변형된 조명 조건에서 61.3%의 테스트 케이스만이 성공적으로 수행되었습니다. 7개의 VLA 모델 중에서는 OpenVLA-7b가 조명 변화에 가장 높은 강인성을 보였습니다. 추가적으로 조명 세기가 증가할수록 VLA 모델의 성능은 저하됩니다. 기본 조명 대비 8개 이상의 조도에서는 VLA 모델이 성공하는 테스트 케이스는 40% 이하로 떨어집니다. 그나마 조명 강도를 낮추는 경우, 그 영향은 조명을 증가시킬 때보다 덜 심각합니다. 기본 조명의 15% 수준으로 줄이더라도 VLA모델은 여전히 60%의 테스트 케이스를 성공적으로 수행할 수 있습니다.

5.4 RQ4: Does the Change of Camera Pose Affect a VLA Model’s Performance?

RQ3와 유사하게, RQ1에서 수집된 1,434개의 성공한 테스트 케이스를 카메라를 무작위로 이동 및 회전 시킨 후 3회를 다시 실행하였습니다. 구체적으로, 카메라를 각 축을 기준으로 -5 °에서 5 ° 사이의 각도로 무작위 회전 시켰으며, 카메라 중심으로 부터 0cm에서 5cm 사이의 거리로 무작위 이동시켰습니다.

실험 결과는 Table 5와 같습니다. 전반적으로 카메라 시점이 변경되었을 때, VLA 모델의 성능이 크게 저하되었습니다. 기본 카메라 시점에서는 통과했던 테스트 케이스 중 변경된 카메라 시점에서도 여전히 통과된 비율은 평균 34%에 불과하였습니다. 이러한 결과는 현재의 VLA 모델이; 카메라 외적 보정 결과에 매우 민감하다는 것을 나타냅니다. 즉, 실제 VLA 모델을 배포할 때, 훈련에 사용된 로봇의 시점데이터와 유사한 카메라 시점 설정을 필요로 합니다. 하지만, 이는 VLA 모델의 일반화 능력을 제한할 수 있습니다. 향후 연구에서는 다양한 카메라 조건에 대한 강인성을 높이기 위해 데이터 증강을 고려해볼 수 있겠습니다

Finding 8,9

현재의 VLA 모델은 변형된 카메라 시점에 대해 강인하지 않으며, 기본 시점에서 벗어난 각도에서 시각 입력이 들어올 경우 성능이 크게 저하됩니다. 카메라를 최대 5도 회전, 5cm 이동한 경우, 기본 시점에서 성공했던 테스트 중 평균 34.0%만 성공하였습니다.

7개의 VLA 모델 중, RT-1-400k는 카메라 시점 변화에 대해 가장 강인한 모델이였습니다. Octo 계열 모델은 다른 모델들보다 현저히 낮은 강인성을 보였습니다. 이는 Octo 모델들이 다른 모델에 비해 약 절반 수준의 로봇 시연 데이터로 학습되었기 때문일 수 있습니다.

5.5 RQ5: How Robust Do VLA Models Perform Against Unseen Objects?

이 연구 질문을 조사하기 위해 외부 객체 데이터셋인 YCB 데이터셋을 사용하였습니다. YCB는 7개의 VLA 모델이 학습/미세조정에사용한 Open-x-Embodiment 데이터셋에 포함되지 않은 총 56개의 객체를 포함하고 있습니다. RQ1과 유사하게, 본 연구에서ㅗ는 VLATest를 활용하여 YCB 데이터셋에 타겟 객체와 혼란 객체를 샘플링하여, 4개의 로봇 메니퓰레이션 작업 각각에 대해 1,000개의 테스트 장면을 생성하였습니다. 그 후, YCB 객체를 대상으로한 VLA 모델의 성능을 RQ1의 결과와 비교하였습니다. 위 Table 6은 7개의 VLA 모델이 이미 본 객체와 보지못한 객체를 조작할 떄의 성능을 보여줍니다. 전반저긍로 보지 못한 객체를 조작할 떄, 각 VLA 모델의 성능은 보았던 객체를 조작할 떄 보다 크게 감소되었습니다. 주목할 점은, 일부 모델은 seen 객체에서도 실패했던 경우를 제외하면, unseen 객체에 대해 완전히 실패한 모델은 없었다는 것입니다. 이러한 결과는 다음을 시사합니다: 모든 VLA모델은 어느 정도의 unseen 객체에 대한 일반화 가능성을 가지고 있지만, 그 성능은 여전히 신뢰할 수준이 아닙니다.

Finding 10,11

현재의 VLA 모델은 일반화 가능성을 어느 정도 보여주지만, 보지 못한 객체를 다루는 데에는 여전히 신뢰할 수 없으며, 성능은 평균적으로 20~ 74.2% 감소합니다. 또한 현재의 VLA 모델은 보지 못한 객체를 인식하는 데 어려움을 겪고 있으며, 이는 대부분의 테스트 장면에서 실패한 주요 원인입니다.

5.6 RQ6: How Robust Do VLA Models Perform Against Task Instruction Mutations?

이 연구 질문을 조사하기 위해, 각 작업에 대해 기본 작업 지시문과 동일한 의미를 전달하는 10개의 변형 지시문을 GPT-4o에게 생성하도록 프롬프트를 주었습니다. 모든 변형이 의미적으로 동등한지 수동으로 검토할 수 있도록 생성된 변형의 수는 제한적으로 설정하였습니다. 두 명의 저자가 모든 변형 지시문이 해당 기본 지시문과 의미적으로 동일함을 수동적으로 확인하였습니다. 그 후, RQ1에서 생성된 각 작업의 테스트 장면에 대해, 무작위로 선택된 하나의 변형 지시문을 적용하여 모든 테스트 장면을 다시 실행하였습니다. 이후 변형 지시문드은 저자들의 Git에서 확인할 수 있습니다.

성능은 위 그림 7과 같습니다. 위 결과를 보면 모델 규모가 클수록 지시문 변형에 더 강인하다는 사실을 확인하였습니다. 예를 들어, OpenVLA-7b는 Task 1과 Task 4에서 변형된 지시문으로 오히려 더 나은 성능을 보였으며, Task 2와 Task 3에서는 성능 차이가 거의 없었습니다. 이러한 강인성은 아마도 OpenVLA-7b가 Llama 2를 언어 모델로 사용한 덕분 일 수 있으며, 이로 인해 언어 이해 능력이 향상되었을 가능성이 있습니다.

예를 들어, Task 2의 변형된 지시문 중 하나는 다음과 같을 수 있습니다:

place [OBJECT A] near [OBJECT B]

이러한 지시문을 입력받았을 때, OpenVLA-7b는 17.6%의 테스트 장면을 성공적으로 수행하였습니다. 반면, 다른 VLA 모델들은 어느 하나도 5% 이상을 성공하지 못하였습니다.

Finding 12

현재의 VLA 모델들은 작업 지시문 변형에 대해 제한적인 강인성만을 보여주었습니다. 그러나 Llama 2-7b와 같은 대규모 언어 모델을 통합한 VLA모델은 훨씬 더 높은 강인성을 나타내었습니다.

6 Discussion

본 연구는 Vision-Language-Action(VLA) 모델이 로봇 매니퓰레이션에 미치는 영향과 한계를 분석하고, 향후 개선 방향을 제시하고자 하였다. 주요 논의 내용은 다음과 같습니다.

VLA models for robotic manipulation—too good to be true for now.

VLA 모델은 로봇 매니퓰레이션을 혁신할 수 있는 잠재력을 가지고 있지만, RQ1과 RQ2에서의 실험 결과는 본 연구 시점에서 현재의 VLA 모델들이 여전히 일반적인 로봇 매니퓰레이션 작업에 대해 신뢰할 수 없음을 보여준다. 고위험성(high-stakes) 및 안전이 중요한 실세계 응용 분야에 VLA 모델을 배포하는 것은 여전히 비현실적입니다.

자세한 분석에 따르면, 이러한 한계는 주로 복잡한 작업 요구사항을 정확히 해석하고, 조작 대상이 되는 정확한 객체를 찾는 능력의 부족에서 기인한다. 우리는 이러한 문제들을 해결하기 위한 개선 여지가 매우 크다고 판단한다. 한 가지 가능한 해결책은 모델 크기를 확장하는 것이다. 현재 연구에서 가장 큰 모델인 OpenVLA-7b조차 70억 개의 파라미터만을 가지고 있는데, 이는 다른 도메인의 최신(state-of-the-art, SOTA) 모델들과 비교했을 때 상당히 작은 규모이다. 예를 들어, 대표적인 오픈소스 LLM인 Llama 3.1은 4,050억 개의 파라미터를 가지고 있으며, GPT-4나 Claude-3.5와 같은 폐쇄형 LLM들은 일반적으로 이보다 훨씬 더 많은 파라미터 수를 가진다. 따라서 모델의 규모를 키움으로써 VLA 모델에서 새로운 emergent capability(자발적 고차 기능)가 발현될 가능성이 있다.

모델의 크기를 키우는 것 외에도, 보다 효과적인 프롬프트 전략을 탐색하는 것 역시 매우 유망한 방향일 수 있다. 기존 연구들은 수학 문제 해결, 코드 생성 등 다양한 작업에서 프롬프트 개선이 LLM의 성능을 상당히 향상시킬 수 있음을 입증해왔다. 본 논문의 Finding 2는, 현재의 VLA 모델들이 복잡한 작업 지시문을 여러 단계의 행동으로 분해하는 데에 어려움을 겪고 있음을 시사한다.
이 문제를 해결하기 위해, VLA 모델에게 단계별(step-by-step)로 프롬프트를 제공하는 방식을 고려할 수 있다. 이는 LLM 분야에서 널리 알려진 프롬프트 전략 중 하나인 Chain-of-Thought(연쇄적 사고) 프롬프트 전략과도 일맥상통한다. 본 연구는 아직 가장 기본적인 형태의 프롬프트만을 실험했지만, 향후 연구에서는 보다 정교한 프롬프트 기법들을 탐색하고, 그것이 VLA 모델의 성능에 미치는 영향을 체계적으로 평가할 필요가 있다.

VLA 모델의 성능을 프롬프트 설계를 통해 개선할 수 있는 가능성을 입증하기 위해, 우리는 Task 4에 대해 프롬프트를 두 단계로 나눈 새로운 프롬프트를 구성하였다:

pick up [object name]
put [object name] into [object name]

이 새로운 프롬프트를 적용하여 RQ1에서 생성한 Task 4의 1,000개 테스트 장면을 다시 실행하였고, 그 결과를 기존 프롬프트와 비교하였다. Table 8의 결과에 따르면 다음과 같은 변화가 나타났다:

전체 7개 VLA 모델 중 3개 모델에서 정확한 grasping(집기) 성공률이 증가하였다.
5개 모델에서는 올바른 객체를 목표 위치로 옮기는(move) 성공률이 향상되었다.
특히, 정확하게 이동한 비율의 평균은 기존 0.6%에서 6.2%로 증가하였다.

비록 전체 작업의 최종 성공률(task completion rate)은 큰 폭으로 증가하지는 않았지만,
이러한 결과는 프롬프트 전략의 설계 및 개선이 VLA 모델 성능을 높이는 유망한 연구 방향임을 시사한다.

또한, 한 가지 추가적인 연구 방향으로는 멀티 에이전트 시스템(multi-agent systems)을 도입하여, 복잡한 로봇 매니퓰레이션 작업을 여러 개의 VLA 에이전트로 분할 수행하게 하는 방식도 고려할 수 있다. 이는 다른 AI 분야에서도 널리 사용되고 있는 전략이다.

Addressing the robustness challenges.

RQ3과 RQ4에서 도출된 연구 결과에 따르면, 현재의 VLA 모델은 조명 조건이나 카메라 시점(camera pose)과 같은 외부 요인에 대한 강인성이 부족하다는 점이 드러났다. 또한, 대규모 사전 학습을 거쳤거나, 더 많은 양의 로봇 시연 데이터(robot demonstration data)로 학습된 모델일수록, 다른 모델보다 강인성이 뛰어나다는 사실도 발견되었다. 이러한 결과는 향후 유망한 연구 방향으로서, 로봇 시연 데이터의 다양성과 양을 풍부하게 확장하는 것이 중요하다는 점을 시사한다.

하지만 현실 세계에서 로봇 시연 데이터를 수집하는 일은 라벨링에 많은 인력과 비용이 소요되므로, 연구자들은 다음과 같은 방법을 고려할 수 있다:

데이터 증강(data augmentation) 기법을 활용하여 기존 데이터를 변형/확장하거나,
시뮬레이션 환경(simulation environments)을 활용한 sim-to-real 변환을 통해 학습 데이터를 대량으로 확보하는 방식을 도입하는 것이다.

예를 들어, 향후 연구에서는 잘 설계된 전통적인 제어기(traditional controller)를 활용하여, 로봇이 특정 테스트 장면을 해결하도록 유도하고, 이 과정에서 생성된 시연 데이터를 re-training 또는 fine-tuning에 활용할 수 있다.

Assessing the capabilities of VLA models.

Finding 10과 11(RQ5)은 현재의 VLA 모델들이 unseen object를 포함하는 작업에서 성능이 현저히 저하됨을 보여준다. 실제 응용 상황에서 모든 가능한 작업 시나리오에 대해 VLA 모델이 완벽한 조작을 수행하리라 기대하는 것은 비현실적이다. 따라서, 보다 강력하고 일반화된 VLA 모델을 개발하는 것과 동시에, VLA 모델의 능력을 체계적으로 평가할 수 있는 새로운 기법을 설계하고,
적절한 사용 가이드라인을 도출하는 것도 중요하다.

이러한 목적을 달성하기 위한 잠재적 해결책으로는 다음 두 가지가 있다:

오프라인 벤치마킹 (Offline Benchmarking)
온라인 위험 평가 (Online Risk Assessment)

온라인 위험 평가 관점에서VLA 모델이 실제 환경에서 동작할 때 발생 가능한 위험을 실시간으로 평가하는 것도 중요하다. 다른 도메인에서 활용되는 최신 기술 중 일부는 다음과 같다:

불확실성 추정 (Uncertainty Estimation)
안전 모니터링 (Safety Monitoring)

이러한 일반적인 기술들을 VLA 기반 로봇 매니퓰레이션 분야에 직접 적용할 수도 있지만, 실제로 이러한 기술들이 VLA 모델의 의사결정 품질과 신뢰성을 어느 정도까지 평가할 수 있는지는 명확하지 않다.

Towards efficient testing for VLA models

우리의 VLATest는 다양한 VLA 모델에서 많은 실패 사례를 효과적으로 식별했지만, 테스트 장면 생성에 상당한 시간과 리소스가 소요되었다는 점에서 한계도 존재한다.현재는 target object와 confounding objects를 무작위로 샘플링하고 있는데, 이 접근은 반드시 가장 효율적인 방식이라고는 할 수 없다. 향후 연구에서는 Algorithm 1의 pose sampler를 최적화하여, 다음을 실현할 수 있다:

객체와 혼란 요소의 위치 및 방향을 전략적으로 배치
테스트 장면 생성에 있어 효율성 향상

예를 들어, 다음과 같은 방법론이 사용될 수 있다:

Metamorphic 기반 기법
Search 기반 테스트 생성 방법

뿐만 아니라, 다음과 같은 테스트 효율성 기법도 탐색할 수 있다:

테스트 우선순위화 (Test Prioritization)
테스트 선택 전략 (Test Selection)

'Vision Language Action model' 카테고리의 다른 글

Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V (0)	2025.06.03
A Unified Framework for Real-Time Failure Handling in RoboticsUsing Vision-Language Models, Reactive Planner and Behavior Trees (0)	2025.06.02
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models (0)	2025.05.11
[Paper Review] AHA: A Vision-Language-Model for Detecting andReasoning Over Failures in Robotic Manipulation (1)	2025.04.01
Gemini Robotics: Bringing AI into the Physical World (0)	2025.03.25