논문 주소: https://arxiv.org/pdf/2512.09927
깃허브: https://github.com/Jasper-aaa/TEAM-VLA
ABSTRACT
대규모 멀티모달 데이터셋에서 사전 학습된 Vision-Language-Action (VLA) models는 로봇 인지 및 제어를 위한 강력한 토대로 등장했습니다. 하지만 종종 수십억 개의 파라미터에 달하는 거대한 규모는 동적인 환경에서 추론의 연산 비용이 비싸고 지연 시간에 민감하기 때문에, 실시간 배포에 상당한 어려움을 초래합니다. 이를 해결하기 위해, 태스크 성능을 유지하면서 VLA 추론을 가속화하는 training-free 토큰 압축 프레임워크인 Token Expand-and-Merge-VLA (TEAM-VLA)를 제안합니다. TEAM-VLA는 attention에 의해 강조된 영역의 공간적 인근에서 추가적인 정보 토큰을 식별하고 샘플링하는 dynamic token expansion mechanism을 도입하여 맥락적 완전성을 향상시킵니다. 이렇게 확장된 토큰들은 이후 action-aware guidance하에 깊은 레이어에서 선택적으로 merged되어, 의미론적 일관성을 유지하면서 중복성을 효과적으로 줄입니다. 단일 feed-forward pass 내에서 expansion과 merging을 결합함으로써, TEAM-VLA는 어떠한 retraining이나 파라미터 업데이트 없이도 효율성과 효과성 사이의 균형 잡힌 trade-off을 달성합니다. LIBERO 벤치마크에 대한 광범위한 실험은 TEAM-VLA가 전체 VLA 모델의 태스크 성공률을 유지하거나 심지어 능가하면서도 추론 속도를 일관되게 향상시킨다는 것을 입증합니다.
I. INTRODUCTION

Vision–Language–Action (VLA) 모델은 최근 대규모 Vision–Language Models (LVLMs)의 강력한 표현 능력 덕분에 실세계와 시뮬레이션 로봇 제어 태스크 모두에서 강력한 성능을 입증해 왔습니다. LVLM backbones는 풍부한 멀티모달 이해와 견고한 일반화 능력을 제공하지만, 동시에 상당한 연산 및 메모리 오버헤드를 발생시킵니다. 이는 실시간 조작, closed-loop feedback policies, 그리고 온디바이스 로보틱스와 같이 고주파수, 저지연 제어가 필요한 시나리오에서 이들의 실용성을 크게 제한합니다. 결과적으로, 액션 추론 능력을 희생하지 않으면서 VLA 모델의 연산 효율성을 개선하는 것은 확장 가능한 배포를 위해 여전히 중요하지만 아직 충분히 탐구되지 않은 과제로 남아 있습니다.
기존 연구들은 종종 VLA backbone에 의해 처리되는 visual tokens의 수를 줄임으로써 추론을 가속화하는 token-level pruning을 통해 이러한 연산 부담을 완화합니다. 이러한 접근 방식은 효과적이기는 하지만, 중요한 foreground 토큰을 식별하고 유지하기 위해 일반적으로 학습 가능한 query-mechanisms나 프레임 간의 cross-frame temporal cues 에 의존합니다. 이러한 설계는 추가적인 훈련이나 추론 중 이전 관측치 $O_{t-1}$에 대한 접근을 요구하며, 이는 시스템 복잡도를 높이고 메모리 오버헤드를 도입하며, 시간적 연속성이 신뢰할 수 없는 경우(예: 급격한 시점 변화 또는 부분적 관측 가능성) 견고성을 저하시킬 수 있습니다. 결과적으로, 실용적인 VLA 배포를 위해 training-free이며 시간적으로 독립적인 토큰 압축 전략이 매우 절실한 상황입니다.
본 논문에서는 관측지만을 활용하는 training-free 토큰 압축 방법인 Token Expanding And Merging for Vision–Language–Action models (TEAM-VLA)를 제안합니다. TEAM-VLA는 학습 가능한 queries나 시간적 버퍼링에 의존하지 않고, 오직 현재 프레임으로부터 전경 관련 visual tokens를 식별합니다. 이전 연구들은 투영된 visual tokens와 언어 임베딩 간의 유사성이 객체 관련성의 지표가 될 수 있음을 시사합니다. 그러나 그림 1에서 보듯, 모든 태스크 언어 토큰에 대한 최대 유사도는 매우 sparse한 응답을 생성합니다. 이러한 희소성은 태스크 설명에 "put", "the", "on"과 같이 객체가 아닌 용어가 많이 포함되어 있어 각각이 고립되고 의미적으로 무관한 픽셀에 매핑되는 반면, 객체 중심의 문구(예: "both moka pots")조차 소수의 토큰 레벨 앵커에만 대응하기 때문에 발생합니다. 이는 이러한 희소한 단서들로부터 기본 객체의 전체 공간적 범위를 재구성해야 할 필요성을 시사합니다. 이를 해결하기 위해, 높은 유사도를 가진 seeds를 일관된 공간 영역으로 전파하는 Token Expanding 메커니즘을 도입합니다. 언어적으로 의미 있는 영역을 선택적으로 확장하기 위해 smoothing convolutional scan이 적용되며, 노이즈가 있거나 반응이 약한 영역은 잠재적인 전경 후보를 보존하기 위해 제어된 무작위 확장을 통해 보충됩니다. 전체적인 구조적 완전성을 유지하기 위해, 무작위로 샘플링된 소량의 contextual tokens으로 확장된 영역을 더욱 풍부하게 만듭니다.
확장을 넘어, VLA backbone의 중간 레이어에서 발생하는 action–text 상호작용이 태스크 관련 동작 단서나 공간 구조를 인코딩하는 추가적인 visual tokens를 드러낸다는 것을 관찰했습니다. 이러한 토큰들은 객체 관련성이 약할 수 있지만, 이를 버리는 것은 중요한 기능적 정보를 잃을 위험이 있습니다. 따라서 TEAM-VLA는 상위 $M$개의 action–text-responsive 토큰을 유지하고, 남은 토큰들을 의미적으로 정렬된 그룹으로 압축하기 위해 soft bipartite merging 메커니즘을 적용합니다. 이를 통해 정보가 풍부하면서도 미묘한 단서들이 압축된 형태로 보존되도록 보장합니다. LIBERO 벤치마크에 대한 광범위한 실험은 TEAM-VLA가 강력한 실행 성능을 유지하면서도 추론을 실질적으로 가속화하여 탁월한 success–latency trade-off를 달성함을 입증합니다.
요약하자면, 본 연구의 기여는 다음과 같습니다:
- 본 연구에서는 추가적인 감독, 과거 버퍼링 또는 모델 재학습이 필요 없는, Vision–Language–Action 모델을 위한 완전한 training-free 및 관측 전용 토큰 압축 프레임워크인 TEAM-VLA를 도입합니다.
- 본 연구에서는 (i) 희소한 vision–language 단서로부터 조밀한 전경 영역을 재구성하는 빠른 유사도 기반 Token Expanding 모듈과, (ii) 필수적인 의미 구조를 보존하면서 깊은 레이어의 토큰을 압축하는 action-guided soft-bipartite Token Merging 메커니즘을 결합한 foreground-aware 토큰 압축 파이프라인을 개발합니다.
- LIBERO 벤치마크에 대한 광범위한 실험은 TEAM-VLA가 토큰 감소와 액션 성공률 사이의 뛰어난 절충안을 달성하여, VLA 배포를 위한 실용적인 가속화 전략을 제공함을 입증합니다.
II. RELATED WORK
A. Vision-Language-Action Models
Vision–Language–Action (VLA) 모델은 visual–language encoder를 action-generation head와 통합함으로써 대규모 vision–language models의 능력을 확장합니다. 이러한 통합 아키텍처는 로봇이 다양한 환경 내에서 인지하고, 해석하고, 행동할 수 있게 하며, 시뮬레이션과 실세계 배포 모두에서 강력한 성능을 보여줍니다. 이 방향의 초기 노력으로는 pretrained VLMs를 대규모 로봇 데모와 결합한 RT-series 모델들이 있으며, 이는 견고한 의미론적 이해와 신뢰할 수 있는 제어를 달성하는 VLA 시스템의 잠재력을 보여주었습니다. 이후 연구들은 이 패러다임을 더욱 발전시켰습니다. $\pi_0$와 OpenVLA는 광범위한 실세계 데이터셋 학습을 통해 놀라운 zero-shot generalization을 입증했으며, OpenVLA-OFT는 action chunking 및 parallel decoding과 같은 기술을 도입하여 실행 정확도를 크게 높여 LIBERO 벤치마크에서 95% 이상의 성능을 달성했습니다. 이러한 발전은 VLA 아키텍처의 성숙도가 높아지고 있음을 나타내며, 실세계 배포를 위한 효율적이고 확장 가능한 방법의 중요성을 강조합니다.
B. Token Compression for VLA
대규모 VLMs는 VLA 시스템에 강력한 semantic grounding을 제공하지만, 무거운 Transformer backbones는 긴 시각적 토큰 시퀀스를 처리할 때 상당한 연산 오버헤드를 유발합니다. 결과적으로, 중복된 visual tokens를 pruning하는 것이 multimodal LVLMs의 효율성을 개선하기 위한 효과적인 전략으로 부상했습니다. token pruning의 핵심 과제는 정보가 풍부한 토큰과 중요하지 않은 토큰을 구별하는 것입니다. 이전 연구들은 어떤 패치 토큰을 유지할지 결정하기 위해 흔히 text–image cross-attention maps를 활용하며, 이 접근 방식은 일반적인 LVLMs에서 풍부하고 다양한 언어 임베딩을 포함하고 있어 효과적으로 작동합니다. 하지만 robot manipulation에서 언어 토큰은 일반적으로 태스크 지시문으로 제한되어 있어 sparse 가이드만을 제공합니다. 이러한 희소성은 cross-attention 기반 pruning의 성능을 저하시키며, 종종 불충분한 attention signals를 보완하기 위해 추가적인 학습 가능 모듈이나 어댑터를 요구하게 됩니다.
정적인 cross-attention pruning을 넘어, 여러 연구는 프레임 간 변화를 통해 관심 영역을 식별함으로써 로봇 인지의 스트리밍 특성을 활용합니다. VLA-Cache 및 SpecPrune-VLA와 같은 방법은 동적 또는 전경 관련 토큰을 선택하기 위해 두 프레임 비교 전략을 채택하여 모션 단서를 효과적으로 보존합니다. . 그러나 이러한 접근 방식은 이전 프레임의 시간적 정보에 의존하므로, 버퍼링과 프레임 간 일관성에 대한 가설에 종속됩니다. 이와 대조적으로, 본 연구에서는 오직 현재 프레임에서만 작동하는 training-free, observation-only token pruning and merging 프레임워크를 제안합니다. 첫 번째 레이어의 pruning과 깊은 레이어의 merging을 결합함으로써, TEAM-VLA는 시간적 단서나 추가적인 훈련, 또는 프레임 간 사전 정보(cross-frame priors)에 의존하지 않고도 경쟁력 있는 성능을 달성합니다.
III. PRELIMINARIES
A. Vision-Language-Action Models
전형적인 vision-language action model $\pi_\theta$는 일반적으로 sensory encoder, language model backbone, 그리고 action head로 구성됩니다. sensory encoder는 대개 image encoder, language encoder, 그리고 로봇의 proprioception (state) encoder를 포함합니다. 이러한 인코더들은 각각의 관측 이미지 $o_t$, 태스크 지시문 $l$, 로봇 상태 $s$를 임베딩 $E_{img}, E_{lang}, E_{state}$로 변환하며, 이는 액션 $a$를 생성하기 위해 language backbone과 action head로 전달됩니다. 공식적으로, 단일 관측을 조건으로 하는 vision language action model은 다음과 같이 정의됩니다:
B. Token Pruning
language model의 입력으로 토큰 시퀀스 $T = {t_1, t_2, t_3, \dots, t_L}$이 주어질 때, token pruning 기술은 토큰의 일부를 제거하고 subset $T_{pruned} \subset T$만을 유지합니다. VLMs와 VLAs 모두에서 self-attention mechanism은 $O(n^2)$의 연산 복잡도를 도입하며, 이는 전체 연산량이 토큰 수에 따라 이차적으로 증가함을 의미합니다. 따라서 token pruning은 모델의 파라미터를 수정하지 않고도 모델에 필요한 연산 시간을 실질적으로 줄일 수 있습니다.
IV. METHODS

이 섹션에서는 제안된 TEAM-VLA의 상세 아키텍처를 제시합니다. 먼저 TEAM-VLA의 전체 아키텍처를 설명한 후, 제안된 context sampling 및 highlight expanding 모듈에 대해 설명합니다. 마지막으로 action-guided merging 전략을 소개합니다.
A. Overall Framework
그림 2에 나타난 바와 같이, TEAM-VLA는 early pruning과 mid-layer merging의 이중 전략을 통해 추론을 가속화합니다. sensory encoder가 시각적 특징을 추출한 후, 먼저 context pruning과 similarity expansion을 수행하여 중복된 배경 토큰들이 LLM backbone에 들어가기 전에 폐기합니다. 이는 공간적으로 정보가 없는 토큰의 상당 부분을 가장 초기 단계에서 제거합니다. 그 후, 중간 backbone layer에서 action-guided soft bipartite merging을 적용하여 action token과 가장 관련이 깊은 상위 $M$개의 토큰을 보존함으로써 표현을 압축합니다. (이미 토큰 수가 적어진) 깊은 레이어에서만 pruning을 수행하는 이전의 training-free 방법들과 달리, dual-reduction 설계는 backbone 진입 전과 내부 모두에서 중복성을 제거하여, 태스크 성능을 희생하지 않으면서도 훨씬 더 큰 속도 향상을 가능하게 합니다.
B. Token Pruning

1) Motivation: Token pruning은 관심있는 foreground 영역에 대응할 가능성이 높은 토큰들을 효율적으로 유지하는 것을 요구합니다. 직접적인 해결책은 segmentation 모델(그림 1)을 적용하는 것이짐나, Grounded-SAM과 같은 강력한 파운데이션 모델들은 속도가 느리고 task 지시문으로 객체를 localize하는 데 종종 실패하여 실시간 제어에는 부적절합니다. 다른 접근 방식들은 시간적 차이를 통해 동적인 토큰을 감지하지만, 이전 프레임을 버퍼링해야 하고, task specific prior를 주입해야 하므로 범용성이 제한됩니다. Similarity- 또는 cross-attention–based 방법들은 효율적이지만, training-free 설정에서는 text–image alignment가 약하기 때문에 첫 번째 레이어에서 종종 지나치게 희소한 일치 결과(그림 1의 하얀 활성화 지점들)를 생성합니다. 이러한 제한점들은 language backbone에 입력하기 전에 현재 프레임으로부터 직접 잠재적 전경 토큰을 식별하기 위한 빠르고 training-free인 메커니즘을 개발하도록 동기를 부여했습니다.
2) Similarity Sampling and Token Expanding: token expanding의 목표는 task relevant token과 희소한 영역을 확대하는 것입니다. 이를 위해 먼저 이미지 토큰과 언어 토큰 사이의 cosine similarity를 계산하여 task 관련 sparce token을 식별합니다. 공식적으로, 언어 임베딩 $E_{lang}$과 이미지 패치 임베딩 $E_{img}$가 주어질 때, 다음의 cosine similarity 방정식을 사용하여 각 언어 토큰에 대해 가장 관련성이 높은 이미지 토큰을 계산합니다.
그 중에서는 각 언어 토큰에 대해 가장 높은 유사도 ($\text{Argmax}_i$)를 가진 patch token을 식별하고, 이 토큰들을 이미지 내의 foreground anchors로 취급합니다. 각 언어 토큰에 대해 가장 관련성이 높은 이미지 토큰을 식별한 후, 결과 유사도 점수를 이진화하여 Boolean mask $M \in {0,1}^{p \times p}$를 얻습니다. 여기서 $p = H(W)/s$는 높이와 너비를 따른 패치의 수이고 $s$는 패치 크기입니다($H$와 $W$는 입력 이미지의 높이와 너비). 주목받는 영역의 local density를 추정하기 위해, 모든 엔트로피가 1이고 zero padding을 사용하는 커널 $K \in \mathbb{R}^{k \times k}$를 사용하여 컨볼루션 연산 $F = \text{Conv}(M;K)$를 적용합니다. resulting density feature map $F \in \mathbb{R}^{p \times p}$는 각 공간 위치에 대해 $k \times k$ 이웃 내에 있는 관련 패치의 수를 기록합니다(그림 3 참조). 그런 다음 두 가지 유형의 regional expansion을 통해 마스크를 업데이트합니다. 다음과 같이 dense neighborhoods에 있는 위치에 대해서는,
대응하는 이웃 내의 원래 무관했던 모든 위치에 1(관련됨)을 할당하여 효과적으로 deterministic dilation을 수행합니다. 다음과 같은 sparse neighborhoods에 대해서는,
각 $(i, j) \in S$의 국소 이웃에 있는 무관한 위치 중 하나를 0(무관함)에서 1(관련됨)로 무작위로 반전시켜, 파편화되지 않으면서 최소한의 공간적 커버리지를 보장합니다. 그림 3에 예시된 것처럼, 희소한 유사도 영역(boolean mask)에만 의존하는 것은 객체의 전체 범위를 복구하는 데 불충분합니다. 대조적으로, 본 연구의 방법은 이러한 희소한 단서들을 일관된 전경 표현 (하얀색 및 빨간색 영역)으로 확장함으로써 완전한 task relevant region을 보존합니다. 여러 이미지 입력이 있더라도 배치 입력을 처리하는 컨볼루션 커널의 능력(즉, wrist-view 및 agent-view)을 활용함으로써, 전경 식별 프로세스를 단 1~2ms로 효과적으로 단축합니다.
3) Context Sampling: 전경 token을 식별한 후 complementary context 으로서 배경 토큰의 작은 서브셋을 무작위로 샘플링합니다. 이를 효율적으로 달성하기 위해, 파라미터 $u \in [0,1]$에 의해 제어되는 전체 토큰 시퀀스에 대한 interval-based sampling 전략을 채택합니다. 이는 장면 구조의 가벼운 부분이 보존되도록 보장하여, 모델이 중복성을 최소로 유지하면서 spatial awareness를 유지할 수 있게 합니다.
C. Token Merging
1) Motivation: VLMs 및 transformer 기반 비전 모델에서 널리 채택됨에도 불구하고, VLAs에서 token merging은 대체로 간과되어 왔습니다. 본 연구에서는 초기 레이어 pruning이 중복된 공간 정보를 효과적으로 제거하고 전경에 집중력을 높이는 반면, 후속 단계에서는 토큰 수를 더 줄이더라도 이렇게 추출된 전경 정보를 보존하는 것을 우선시해야 한다고 주장합니다. 이 과정에서 정보 손실을 완화하기 위해, action semantics 과의 관련성에 따라 토큰을 선택적으로 통합하는 action-guided token merging 전략을 도입합니다.
2) Task-Guided Bipartite Merging: : Token merging은 일반적으로 이미지 토큰 세트 $IT$를 소스 세트 $S$와 타겟 세트 $T$로 나눕니다. 여기서 $|S| + |T| = |IT|$ 이고 $S \cap T = \emptyset$ 입니다. 본 연구의 방법에서는 텍스트 및 액션 토큰을 모두 활용하여 가장 관련성이 높은 상위 $M$개의 이미지 토큰을 소스 세트 $S$로 식별합니다. 이러한 설계는 무작위 또는 순차적 선택 전략과 달리, 병합 프로세스가 가장 액션의 결정적인 시각 정보를 보존한다고 보장합니다. 식 (2)와 동일한 유사도 계산을 따라 상위 $M$개의 토큰을 추출하여 $S$를 형성하고, 나머지 토큰들이 $T$를 구성합니다. 그런 다음 soft bipartite matching 스킴을 통해 소스-타겟 병합을 수행합니다. 구체적으로, $S$와 $T$ 사이의 similarity matrix를 계산하며, 이는 weighted merging 프로세스 동안 각 타겟 토큰이 가장 가까운 소스 토큰에 어떻게 기여하는지를 결정합니다. 이는 효율적인 토큰 감소를 달성하면서 의미론적 구조를 보존합니다.
이는 soft matching matrix $W \in \mathbb{R}^{N_T \times N_S}$를 정의합니다. 매칭된 타겟 표현들은 각 소스 위치로 다시 집계됩니다.
그 결과 $A \in \mathbb{R}^{N_S \times d}$가 생성됩니다. 각 소스 토큰이 받은 총 soft-matching 가중치를 계산합니다.
각 소스 토큰은 집계된 타겟 특징들을 더하고 총 소프트 가중치로 정규화함으로써 업데이트됩니다.
여기서 나눗셈은 element-wise로 이루어집니다. 각 타겟 토큰은 가장 유사한 소스 토큰으로 병합되어, 의미론적으로 관련된 정보가 보존되도록 보장하고 공격적인 토큰 감소 체제 하에서도 주요 정보 손실을 방지합니다.
V. EXPERIMENT
A-B. Benchmark & Experiment Setup
본 연구는 로봇의 공간 추론, 물체 인식, 목표 일반화 및 장기 태스크 수행 능력을 평가하기 위해 LIBERO 벤치마크의 4가지 서브셋을 사용했습니다. 비교 방법론으로는 VLA-Cache, EfficientVLA, SparseVLM, SpecPrune-VLA 등 최신 토큰 효율화 기법들을 선정하였으며, Success Rate (SR), FLOPs, CUDA latency를 평가지표로 활용했습니다. 구현에는 OpenVLA-OFT를 기반으로 하였고, NVIDIA A100-40GB GPU 환경에서 실험을 진행했습니다. 특히 태스크 난이도에 따라 context sample ratio ($u$)와 merging token ($m$) 수를 다르게 설정하여 최적의 성능을 유도했습니다.
C. Main Result


실험 결과, TEAM-VLA는 다른 최신 기법들과 비교해 경쟁력 있는 성능을 입증했습니다. OpenVLA-OFT의 추론 시간을 109ms에서 72.1ms로 단축하며 1.5배 이상의 속도 향상을 달성함과 동시에 성공률 저하를 방지했습니다. EfficientVLA와 비교했을 때 단 1.5ms의 추가 시간만으로 7.7% 더 높은 성공률을 기록했습니다. 특히 이전 프레임의 정보에 의존하는 VLA-Cache나 SpecPrune-VLA와 달리, 본 모델은 오직 현재의 관측치(current observation)에만 의존하면서도 초기 레이어에서 중복성을 제거하여 실질적인 속도 이득을 얻었습니다.
D. Ablation Study



각 구성 요소에 대한 절제 연구 결과, 제안된 Token Expanding 방식은 단순 샘플링 대비 성공률을 1.7% 향상시켰으며, 이는 첫 번째 레이어에서 pruning을 수행할 때 시각적 맥락을 복구하는 데 핵심적인 역할을 함을 보여주었습니다. 또한 merging 위치에 대한 실험에서는 중간 레이어에서 병합을 수행할 때 가장 높은 성공률을 기록했습니다. 밀도 임베딩 임계값($\tau$) 실험에서는 $\tau=1$일 때 연산량을 대폭 줄이면서도 96.6%의 높은 정확도를 유지하여 최적의 효율성을 나타냈습니다.
E. Further Analysis
추가 분석에 따르면, 깊은 레이어에서 토큰을 단순히 삭제(pruning)하는 것보다 의미론적으로 유사한 그룹으로 통합(merging)하는 것이 정보 손실 방지에 더 효과적이었습니다. 최종 유지 토큰 수 실험에서는 토큰을 80개로 유지할 때 성공률 93.8%를 기록하며 속도와 정확도의 최적 지점을 찾았습니다. 시각화 자료를 통해서도 확인할 수 있듯이, 매우 희소했던 초기 유사도 패치들이 본 연구의 expansion 기법을 통해 공간적으로 연속적인 전경 영역으로 재구성됨으로써 모델이 더 풍부한 시각 정보를 활용할 수 있게 되었습니다.
VI. CONCLUSION
본 논문에서는 foreground token을 효율적으로 식별하고 action-guided merging을 수행하는 training-free 프레임워크인 TEAM-VLA를 제시합니다. 이전 방법들과 달리, TEAM-VLA는 사전 지식이나 temporal cues를 요구하지 않습니다. 대신, 희소한 유사도 신호로부터 객체 전경 영역과 로봇팔을 재구성하기 위해 density-expansion 전략을 사용합니다. 중간 레이어의 merging module은 필수적인 semantic을 보존하면서 추론을 더욱 가속화합니다. 광범위한 TEAM-VLA가 training-free 접근 방식들 사이에서 최첨단(state-of-the-art) 성능을 달성하며, VLA 모델에 대해 강력한 accuracy–efficiency trade-offs을 제공함을 보여줍니다.