EfficientVLA: Training-Free Acceleration andCompression for Vision-Language-Action Models

논문 주소: https://arxiv.org/pdf/2506.10100

Abstract

VLA모델,특히 diffusion-based architectures는 embodied intelligence를 위한 혁신적인 잠재력을 보여주었으나, 광범위한 내재적 및 추론 시간의 중복성에서 비롯된 높은 computational and memory demands로 인해 심각하게 저해받고 있습니다. 기존의 가속화 노력들은 종종 고립된 비효율성을 목표로 하지만, 이러한 단편적인 해결책들은 대개 전체 VLA pipeline에 걸친 다양한 computational and memory bottlenecks를 총체적으로 해결하는 데 실패하며, 이로 인해 실질적인 deployability가 제한됩니다.

본 연구에서는 다각적인 중복성을 응집력 있게 활용하여 이러한 장벽을 체계적으로 제거하는 structured 및 training-free inference acceleration 프레임워크인 EfficientVLA를 소개합니다. EfficientVLA는 세 가지 타겟 전략을 시너지 효과로 나도록 통합합니다:(1) 레이어 간 중복 분석을 통해 language module에서 기능적으로 중요하지 않은 레이어를 pruning합니다. (2) task-criticality와 정보 커버리지 사이의 균형을 맞추어 콤팩트하고 다양한 visual tokens 세트를 선택하는 task-aware strategy를 통해 시각 처리 경로를 최적화합니다. (3) 반복적인 diffusion-based action head 내의 핵심 중간 features를 전략적으로 캐싱하고 재사용함으로써 temporal computational redundancy를 완화합니다.

이 방법을 표준 VLA 모델인 CogACT에 적용하여, SIMPLER benchmark에서 success rate 하락을 단 0.6%로 유지하면서도 1.93배의 inference speedup을 달성하고 FLOPs를 28.9%로 줄였습니다.

1 Introduction

시각과 언어를 통합한 multimodal understanding의 발전을 바탕으로, Vision-Language-Action (VLA) 모델은 변혁적인 embodied intelligence를 가능하게 합니다. OpenVLA, CogACT 등의 시스템은 입력을 actions로 직접 번역하며 복잡한 로봇 조작 작업을 해결하지만, Diffusion-based VLA 아키텍처는 추론 시 발생하는 막대한 computational and memory overheads로 인해 자원이 제한된 플랫폼에서의 실제 배포에 큰 장벽이 되고 있습니다.

Diffusion-based VLA 아키텍처는 vision encoder, LLM 코어, diffusion-based action decoder로 구성됩니다. 이러한 모듈식 설계는 강력한 성능을 내지만 본질적으로 큰 계산 부하를 초래합니다. 연구에 따르면 language module과 반복적인 diffusion head가 latency의 주요 원인이며, visual token pruning은 초기 계산은 줄여주지만 시스템이 LLM에 의해 memory-bound 상태가 되면 그 효과가 급격히 감소합니다.

이전의 가속화 노력들은 고립된 수정에 집중하여 이득이 미미했습니다. 이러한 단편적 접근은 한 모듈의 최적화가 병목 현상을 다른 곳으로 옮길 뿐인 VLA의 통합적 특성을 무시하기 때문입니다. TinyVLA는 특수 구조에만 집중하고, Mole-VLA는 비용이 많이 드는 retraining이 필요하며, VLA-Cache는 LLM의 memory footprint에 의해 성능이 제한됩니다. 결과적으로 기존 방식들은 비효율성의 지형을 탐색하는 총체적인 솔루션을 제공하지 못합니다.

더 효과적인 전략을 위해 각 모듈의 중복성을 체계적으로 분석합니다. language module은 레이어 간 높은 유사성으로 인해 깊이 방향의 표현 중복성을 나타냅니다. 시각 처리 경로는 low task-relevance 토큰을 처리하며 LLM의 memory-bound 조건을 심화시키고, 반복적인 diffusion action head는 인접한 denoising steps 간의 높은 유사성으로 인해 심각한 temporal redundancy를 보이며 광범위한 재계산을 반복합니다.

이를 겨냥하여 구조적 training-free 가속 프레임워크인 EfficientVLA를 소개합니다. LLM의 메모리 병목을 해결하기 위해 similarity-derived importance metric으로 중요하지 않은 레이어를 pruning하여 모델의 깊이를 줄입니다. 또한 task-aligned tokens를 선택하고 다양성을 보장하는 시각적 전략을 통해 task relevance를 유지하며 중복을 해결합니다. 마지막으로 중간 attention 및 MLP 출력을 캐싱하여 action generator의 중복 계산을 억제함으로써 GPU 계산 및 메모리 병목을 총체적으로 완화합니다.

본 연구의 주요 기여는 다음과 같이 요약됩니다:

현대적인 Diffusion-based VLA 아키텍처 내의 핵심적인 계산 및 메모리 병목 현상과 다각적인 중복성을 식별하는 체계적인 분석을 제시하여 구조적 가속의 필요성을 강조합니다.
정보적 영향력에 따라 language module에서 중복 레이어를 시너지 있게 pruning하고, VLA task relevance와 이미지 특징의 다양성을 모두 고려하여 콤팩트하고 작업 중심적인 visual tokens 하위 집합을 전략적으로 선택하는 새로운 training-free 구조적 추론 가속 프레임워크인 EfficientVLA를 제안합니다.
반복적인 denoising 과정 중에 중간 attention 및 MLP 계산을 위한 caching mechanism을 도입하여 diffusion-based action head의 시간적 중복성을 활용함으로써 효율성을 더욱 향상시킵니다.
SIMPLER 환경의 CogACT에서 광범위한 실험을 통해 EfficientVLA의 효능을 입증하며, 단 0.6%의 정확도 저하만으로 1.93배의 inference speedup을 달성하고 FLOPs를 28.9%로 줄였습니다. 이는 실제 세계의 자원 제한적인 로봇 플랫폼에서 대규모 VLA의 적용을 용이하게 할 것입니다.

2 Related Work

Vision-Language-Action Models.

Vision-Language-Action (VLA) 모델은 시각적 이해와 언어 추론을 통합한 Vision-Language Models에 액션 생성 기능을 추가하여 인지와 행동 사이의 간극을 메웁니다. 이러한 모델은 시각 및 텍스트 입력을 이해하고 로봇 조작이나 물체 회수와 같은 작업에 대응하는 액션을 생성할 수 있게 해줍니다. VLA 모델은 일반적으로 사전 학습된 VLMs를 사용하여 시각 및 언어 데이터를 공유된 표현으로 인코딩하며, 여기서 액션은 이산형 토큰이나 연속형 수치로 생성됩니다. 최근 VLA 분야의 두드러진 트렌드는 일관된 연속 액션 시퀀스를 생성하기 위해 diffusion models를 채택하는 것이며, 이는 CogACT, DexVLA, DiVLA, π0, TinyVLA 등의 모델에서 잘 나타납니다. 이러한 diffusion-based VLAs 중 상당수는 모듈화된 설계를 채택하고 있습니다. 즉, 기초가 되는 VLM이 시각 및 언어 입력을 처리하여 축약된 특징 표현을 생성하면, 이를 조건으로 별도의 diffusion-based action module이 정밀한 액션 궤적을 반복적으로 생성합니다. 이 과정에서 VLM의 출력은 특수화된 액션 디코더 내의 denoising 과정을 유도하는 역할을 합니다.

Efficient Vision-Language-Action Models.

Vision-Language Models의 높은 계산 복잡도는 신속한 의사결정이 필요한 로봇 제어와 같은 실시간 배포 환경에서 큰 도전 과제가 됩니다. 이를 해결하기 위해 최근 VLA 모델 가속화 연구는 크게 training-aware 방식과 training-free 방식으로 나뉩니다. RoboMamba, EfficientVLM, DeeR-VLA와 같은 training-aware 접근 방식은 모델 구조를 최적화하거나 압축 기술을 적용한 후 재학습(retraining)하는 데 집중하여, 성능을 유지하면서 상당한 속도 향상을 달성합니다. 예를 들어, DeeR-VLA는 동적 재파라미터화와 효율적인 pruning 전략을 활용하여 계산 비용을 줄이고 유연한 모델 배포를 가능하게 합니다. 또한 Mole-VLA는 태스크별 필요에 따라 모델 레이어의 일부만 동적으로 활성화하여 계산 비용을 절감합니다. 반면, VLA-Cache와 같은 training-free 방식은 연속된 프레임 사이에서 변하지 않은 토큰에 대해 이전에 계산된 결과를 재사용함으로써 효율성을 높이며, 이는 시각적 입력의 변화가 적은 시나리오에서 특히 유용합니다.

3 Method

3.1 Preliminaries: Vision-Language-Action Models

Vision-Language-Action (VLA) 모델은 인지, 언어 이해, 그리고 로봇 행동 사이의 간극을 메우기 위해 설계된 multimodal systems의 한 종류를 나타냅니다. 이러한 모델은 일반적으로 이미지 관찰값과 자연어 지침을 일련의 전문화된 모듈을 통해 처리하여 실행 가능한 action sequences를 생성합니다. 본 연구에서의 기본 VLA 모델의 초기 단계는 DINOv2 및 SigLIP과 같은 강력한 사전 학습된 인코더로 구성된 Vision Module을 사용하여 원시 시각 입력 $O_{img}$를 풍부한 특징 임베딩인 $F_V$ 세트로 변환합니다. 이러한 시각적 특징 $F_V$는 토큰화된 언어 지침과 함께 language model backbone으로 유입됩니다. 이 LLM은 multimodal fusion 및 문맥적 추론을 수행하여 장면과 지시된 목표에 대한 이해를 캡슐화하는 작업 지향적 표현 또는 컨디셔닝 신호인 $F_{VL}$을 도출합니다. 마지막으로, Diffusion-based Action Head는 출력 특징 $F_{VL}$에서 추출된 인지 특징을 입력으로 받아 7자유도(7 DoF)를 가진 그리퍼의 최종 액션 공간을 예측합니다.

3.2 Vision-Language Model Pruning

3.2.1 Layer Redundancy Analysis

VLA 모델 내의 language module은 일반적으로 다중 레이어 Transformer decoder로 구성되며, multimodal reasoning에는 필수적이지만, 종종 상당한 계산 오버헤드를 유발합니다. 이러한 Transformer의 각 레이어 $\ell$은 residual transformation을 통해 입력 은닉 상태 $x^{(\ell)} \in \mathbb{R}^{d \times S}$를 업데이트합니다: $x^{(\ell+1)} = x^{(\ell)} + f(x^{(\ell)}, \theta^{(\ell)})$. 여기서 $f(\cdot)$은 파라미터 $\theta^{(\ell)}$을 가진 레이어별 함수이고, $d$는 은닉 차원, $S$는 시퀀스 길이입니다. Figure 1 (b)에 예시된 본 연구에서의 경험적인 분석 이 language module 구성 요소 내에서 상당한 깊이 방향의 depth-wise representational redundancy를 드러냅니다. 구체적으로, 수많은 레이어, 특히 더 깊은 레이어에서 입력 $x^{(\ell)}$과 출력 $x^{(\ell+1)}$ 상태 사이에 높은 cosine similarity를 관찰했습니다.이는 이러한 레이어들이 부여하는 유효한 변환 $f(x^{(\ell)}, \theta^{(\ell)})$이 미미함을 나타내며, 따라서 이들은 기능적으로 덜 중요하고 task 성능에 미치는 영향 없이 추론 효율성을 높이기 위한 pruning의 주요 후보가 됩니다.

3.2.2 Importance-Driven Non-Contiguous Layer Pruning

VLA 모델의 language module 내에서 식별된 깊이 방향 중복성을 해결하기 위해, 먼저 각 레이어의 기능적 중요도를 엄격하게 정량화 합니다. 본 연구의 접근 방식은 은닉 상태 표현의 변환에 최소환으로 기여하는 pruning후보가 되는 레이어들을 식별하는 것을 목표로 합니다. 입력에 상당한 변화를 주는 레이어가 출력이 입력을 밀접하게 모방하는 레이어보다 더 중요하다는 원칙에 기반하여 특정 레이어 $\ell$에 대한 중요도 점수 $I^{(\ell)}$를 정의합니다. 구체적으로, $I^{(\ell)}$은 VLA 훈련 샘플의 대표 데이터셋 $D$와 각 샘플 내의 모든 $L$개 토큰 위치에 대해 입력 및 출력 은닉 상태 간의 평균 cosine similarity를 1에서 뺀 값으로 정량화됩니다:

여기서 $x_{i,j}^{(\ell)}, x_{i,j}^{(\ell+1)} \in \mathbb{R}^d$는 레이어 $\ell$에 대해 샘플 $i$의 위치 $j$에서의 입력 및 출력 은닉 상태 벡터를 각각 나타냅니다. 높은 cosine similarity는 레이어 함수 $f(x^{(\ell)}, \theta^{(\ell)})$에 의한 변환 효과가 최소임을 의미하며, 결과적으로 낮은 중요도 점수 $I^{(\ell)}$와 기능적 중복성을 나타냅니다.

이러한 중요도 점수를 바탕으로 본 연구에서는 non-contiguous pruning 전략을 채택합니다. $N$개의 레이어로 구성된 LLM에 대해 모든 레이어 $\ell \in {1, \dots, N}$에 대한 중요도 점수 $I^{(\ell)}$를 계산합니다. 그런 다음 이 점수들을 오름차순으로 정렬하여 $I^{(\ell(1))} \leq I^{(\ell(2))} \leq \dots \leq I^{(\ell(N))}$이 되도록 정렬된 레이어 인덱스 리스트 $L_{ranked} = [\ell(1), \ell(2), \dots, \ell(N)]$를 얻습니다. 결과적으로 이 리스트의 첫 $n$개 레이어 ${\ell(1), \ell(2), \dots, \ell(n)}$가 모델에서 제거 대상으로 선택됩니다.

3.3 Task-Relevance and Diversity-Driven Visual Token Pruning

VLA 모델에서 처리되는 시각적 토큰 스트림은 풍부한 정보 콘텐츠에도 불구하고 빈번하게 심각한 중복성을 나타내며, 이는 상당한 계산 및 메모리 오버헤드를 초래합니다. 이러한 중복성은 대개 두 가지 주요 형태로 나타납니다: (i) 특정 VLA 태스크 목표와 관련성이 낮은 토큰, 그리고 (ii) 입력 내의 고유한 시각적 유사성으로 인해 정보가 중복되는 토큰입니다. 이러한 불필요함을 해소하기 위해, 훈련이 필요 없는 새로운 VLA task-aware visual token pruning 방법론을 도입합니다. 본 접근 방식은 입력 이미지에서 파생된 초기 토큰 임베딩 세트 $V$로부터 미리 결정된 크기 $K_{final}$의 콤팩트하면서도 정보가 극대화된 하위 집합 $V_{pruned} \subset V$를 전략적으로 추출합니다. 이는 먼저 attention analysis를 통해 식별된 태스크 크리티컬 토큰으로 선택의 중심을 잡고, 이후 유사도 측정을 통해 기능 다양성을 명시적으로 촉진하면서 태스크 관련성을 조화롭게 유지하며 이 핵심 세트를 확장함으로써 달성됩니다.

3.3.1 Quantifying Task Relevance

Visual token pruning을 가이드하기 위해, 우리는 선택된 VLM layers의 cross-attention scores를 활용하여 각 초기 visual token $v_i$에 대한 task relevance를 정량화합니다. 이 점수들은 $v_i$가 task를 정의하는 $L_{ctx}$개의 contextual embeddings(예: 언어 지시문)에 대해 갖는 attention을 포착합니다. $H$개의 전체 헤드 중 $h$번째 헤드에서 visual token $v_i$가 $j$번째 contextual token으로 보내는 attention을 $A_{i,j}^{(h)}$라고 할 때, $v_i$에 대한 raw task relevance score $r_i$는 먼저 각 visual-contextual pair $(i, j)$에 대해 모든 $H$개 헤드에 걸친 attention 기여도를 평균낸 후, 이 평균된 attentions를 모든 $L_{ctx}$ contextual elements에 대해 합산하여 계산됩니다:

Task context와 토큰의 전반적인 관여도를 나타내는 이러한 raw scores $r_i$는 이후 견고한 비교와 토큰 선택을 위해 표준화된 점수 $s_i \in [0, 1]$로 normalized됩니다.

3.3.2 Selection of Key Task-Relevant Tokens

Normalized task relevance scores ${s_i}$를 바탕으로, pruning의 첫 번째 단계는 VLA task에 가장 높은 relevance를 보이는 $K_{key}$개의 초기 visual tokens 세트를 식별합니다. 이 토큰들은 핵심적이고 필수적인 visual token set인 $V_{key}$를 구성합니다:

$V_{key}$에 포함된 토큰들은 무조건적으로 $V_{pruned}$에 유지되며, task 이해와 성공적인 실행에 필수적이라고 간주되는 시각적 단서의 기초적인 골격을 형성합니다. 추가 고려를 위해 남겨진 candidate tokens 세트는 $V_{rem} = V \setminus V_{key}$로 표기합니다.

3.3.3 Augmentative Selection Balancing Relevance and Diversity

핵심 세트 $V_{key}$를 보완하고 최종 목표 토큰 수 $K_{final}$을 달성하기 위해, $V_{rem}$에서 추가적인 $K_{aug} = K_{final} - K_{key}$개의 토큰이 세심하게 선택됩니다. 이 중요한 augmentation 단계는 비율 $\alpha \in [0, 1]$에 의해 유도되며, 이는 task relevance에 대한 지속적인 강조와 informational diversity의 도입을 동시에 촉진하는 hybrid selection strategy를 조율합니다.

Task-Driven Augmentation

Augmentation 할당량의 일부인 $K_{task} = \lfloor \alpha \cdot K_{aug} \rfloor$ 토큰은 높은 task relevance scores $s_i$를 기반으로 토큰의 우선순위를 정하여 $V_{rem}$에서 선택됩니다. $V_{task}$는 초기 $K_{key}$ 정예 멤버는 아니지만 여전히 강력한 relevance signals를 보이는 추가 토큰을 통합함으로써 pruned representation의 task-centric한 특성을 강화합니다.

Diversity-Driven Augmentation

나머지 $K_{div} = K_{aug} - K_{task}$ 토큰은 이미 선택된 핵심 토큰들과 비교하여 feature diversity를 최대화하는 명시적인 목표를 가지고 업데이트된 $V_{rem}$에서 선택됩니다. 각 candidate token $v_j \in V_{rem}$에 대해 $V_{key}$ 세트와의 dissimilarity가 계산되며, 일반적인 척도는 cosine distance를 사용하여 선택된 토큰들이 embedding space에서 뚜렷하게 구분되도록 보장합니다

이미 선택된 토큰들과 가장 크게 차이 나는(즉, 불일치 점수가 가장 높은) $V_{rem}$ 내의 $K_{div}$ 토큰들이 선택되어 $V_{div}$ 세트를 형성합니다. 이렇게 diverse tokens를 표적화하여 포함함으로써, 최종 선택이 특정 영역에만 지나치게 치우치지 않고 더 풍부한 contextual understanding을 유지하도록 보장합니다.

Final Pruned Visual Token Set.

Pruning 후 유지되는 시각적 토큰의 종합적인 세트는 다음과 같이 전략적으로 선택된 구성 요소들의 합집합입니다:

$K_{final}$의 cardinality를 갖는 이 최종 세트 $V_{pruned}$는 이후 VLA 모델 내의 모든 downstream processing에 활용됩니다. 이러한 visual sequence length의 체계적인 감소는 중요한 task-specific 정보와 다양한 시각적 정보를 보존하면서 계산 요구량을 크게 완화합니다.

3.4 Caching Intermediate Features in Action Prediction

Diffusion-based VLA 모델을 사용하여 high-fidelity action sequences를 생성하는 과정은 $T$ timesteps에 걸쳐 반복적인 self-attention 및 MLP 계산을 요구하며 상당한 연산량을 수반하는 iterative denoising process를 포함합니다. 우리는 action generation 중에 생성되는 중간 features에서 강력한 temporal coherence를 관찰했으며(Figure 1 (c)), 이는 timesteps 전반에 걸쳐 상당한 중복성이 존재함을 나타냅니다. 이러한 비효율성을 해결하고 action generation 단계를 가속화하기 위해, 우리는 static caching mechanism을 제안합니다. 이 전략은 고정된 간격 $N$마다 중요한 중간 attention 및 MLP output을 주기적으로 재계산하여 캐싱하고, action sequences 생성 시 그 사이의 time steps 동안 이 캐싱된 값들을 재사용합니다. 이러한 선택적 계산은 action sequence의 품질을 보존하면서 생성과 관련된 계산 비용을 상당히 줄이는 것을 목표로 합니다.

3.4.1 Feature Generation and Temporal Coherence in DiT Blocks

$t$를 초기 $T_{start}$부터 1까지 반복되는 현재 denoising timestep이라고 정의합니다. 각 timestep $t$의 DiT block 내에서, 입력 features $z_t$(상위 VLM modules에서 추출된 cognitive features $f_t$와 현재 noise estimate를 포함할 수 있음)는 self-attention module과 MLP module에 의해 순차적으로 처리되어 중간 hidden states를 생성합니다:

이러한 features $h^{attn}{t}$와 $h^{mlp}{t}$는 diffusion model의 denoising 능력에 핵심적입니다. 많은 $t$와 모듈 유형에 대해 $h^{module}{t} \approx h^{module}{t-1}$이라는 높은 temporal coherence에 대한 우리의 관찰은 주기적인 캐싱과 재사용의 동기가 되었습니다.

3.4.2 Static N-Step Caching Implementation

cache interval $N$ ($1 \leq N < T_{start}$)을 정의합니다. 초기 timestep $t = T_{start}$에서, features $h^{attn}{T{start}}$와 $h^{mlp}{T{start}}$는 수식 6과 7을 통해 계산되어 $C_{attn}$ 및 $C_{mlp}$로 명명된 영구 캐시에 저장됩니다. $t < T_{start}$인 후속 timestep에 대해, $t \pmod N = 0$인 경우에만 이 features들이 재계산되고 캐시가 업데이트됩니다. 따라서 이러한 재계산 timesteps에 대해 다음이 수행됩니다:

이 단계의 출력은 $h^{attn}_{t} = C_{attn}$ 및 $h^{mlp}{t} = C{mlp}$가 됩니다. $t \pmod N \neq 0$인 다른 모든 timesteps에서는 계산 집약적인 Self-Attn 및 MLP 연산이 완전히 우회됩니다. 대신, 필요한 features는 가장 최근에 채워진 캐시에서 직접 가져옵니다:

이러한 static caching schedule은 초기화 이후 매 $N$ timesteps 중 $N-1$ 단계에 대해 핵심 모듈의 실행을 효과적으로 생략(prune)하여, VLA의 action generation 구성 요소에 대한 floating-point operations와 latency를 실질적으로 감소시킵니다. 기저의 표현이 빠르게 변할 경우 features를 긴 간격으로 재사용하면 약간의 편차가 발생할 수 있으므로, $N$의 선택을 통해 가속화와 생성된 actions의 fidelity 사이의 조절 가능한 trade-off가 가능합니다.

4 Experiment

4.1 Experimental Settings

시뮬레이션 환경: 테이블 위 조작 벤치마크인 SIMPLER environment를 사용하며, Google Robot 및 WidowX와 같은 로봇을 대상으로 Visual Matching 및 Variant Aggregations 설정을 평가합니다.
Task 및 Metric: '콜라캔 집기', '서랍 열기/닫기' 등 4가지 태스크를 수행하며, Success rate를 평가 지표로 사용합니다.
베이스라인: CogACT를 기본 모델로 하며, Random Dropping, FastV, VLA-Cache와 비교 분석을 진행합니다.
구현 세부사항: PruneNet 설정을 통해 LLM 파라미터를 25% 압축하고, visual token pruning 시 $\alpha = 50\%$, $K_{key} = 4$를 적용하며, cache interval은 5로 설정했습니다.

4.2 Results on Simulation Environment

SIMPLER 주요 결과: 28개 레이어 중 22개를 유지하고 visual tokens를 56~112개로 유지했을 때 우수한 성능을 보였습니다. 특히 '콜라캔 집기' 태스크에서는 파라미터의 36%를 제거했음에도 성공률이 91.3%에서 94.0%로 향상되는 파라미터 중복성을 확인했습니다.
효율성 분석: 제안된 방법은 FLOPs 71.1% 감소와 1.93배의 inference speedup을 달성하며 VLA-cache(1.38배)를 크게 앞질렀습니다. 이는 토큰 기반 가속만으로는 memory-bound 한계를 극복하기 어렵다는 점을 시사합니다.
확장성 평가: 모델의 규모가 커질수록 가속 효과가 더 뚜렷하게 나타났습니다. CogACT-Large 모델에서 성능 저하는 미미하면서도 2.0배의 speedup을 기록했습니다.
최적화 영향: visual tokens를 22%까지 줄여도 성능 손실이 거의 없었으나, 일정 수준 이후에는 가속 효율이 포화되었습니다. 반면 diffusion-based action generator에서 cache interval N을 늘릴수록 가속 효과가 지속적으로 향상되었습니다.

4.3 Ablation Study

구성 요소 분석: '콜라캔 집기' 태스크 분석 결과, visual tokens만 최적화했을 때는 1.23배의 미미한 가속만 가능했습니다.
통합 효과: layer pruning과 MLP compression을 포함한 모델 중심 전략은 1.43배의 속도 향상을 보였으며, 모든 구성 요소를 통합했을 때 1.93배의 속도 향상과 성공률 2% 포인트 향상을 동시에 달성했습니다.

5 Conclusion

본 논문에서는 강력한 Diffusion-based Vision-Language-Action (VLA) 모델의 실제 배포를 저해하는 결정적인 과제인 높은 computational and memory overheads 문제를 다루었습니다. VLA 모델을 가속화 하기 위한 새로운 training-free 구조적 프레임워크인 EfficientVLA를 제안했습니다. 본 프레임워크는 hidden states 변환에 미치는 영향이 미미한 것으로 식별된 language module의 중복 레이어들을 시너지 있게 pruning하고, VLA task relevance와 고유한 feature diversity 사이의 균형을 맞춘 콤팩트한 visual tokens 세트를 전략적으로 선택함으로써 효율성을 높입니다. 나아가, 반복적인 denoising steps 전반에 걸쳐 핵심적인 중간 계산값들을 caching함으로써 action module을 최적화합니다. SIMPLER environment 내의 CogACT에 대한 광범위한 실험을 통해 EfficientVLA의 효능을 입증하였으며, 단 0.6%의 최소한의 정확도 저하만을 초래하면서도 1.93배의 inference speedup을 달성하고 FLOPs를 **28.9%**로 줄였습니다.

'Test-time Adaptation' 카테고리의 다른 글

3D-CAVLA: Leveraging Depth and 3D Context to Generalize Vision–Language Action Models for Unseen Tasks (0)	2026.02.11
ADAPTINFER: ADAPTIVE TOKEN PRUNING FOR VISION–LANGUAGE MODEL INFERENCE WITH DYNAMICAL TEXT GUIDANCE (1)	2026.02.10
VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching (0)	2026.01.28
LearnPruner: Rething Attention-based Token Pruning In Vision Language Models (1)	2026.01.24
Attention Debiasing for Token Pruning inVision–Language Models (0)	2026.01.23

Embodied AI in Robotics

EfficientVLA: Training-Free Acceleration andCompression for Vision-Language-Action Models

Abstract

1 Introduction