SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning

논문 주소: https://arxiv.org/pdf/2509.05614

ABSTRACT

Pruning은 중요하지 않은 값에 대한 연산을 제거함으로 써 Compute-bound 모델을 가속화하는 전형적인 기술입니다. 최근에는 이를 VLA 모델의 추론을 가속화하는데 적용하려는 노력이 있었습니다. 하지만 기존의 가속화 방법들은 현재 액션 단계의 local information에만 집중하고 global context를 무시하여, 일부 시나리오에서 성공률이 20% 이상 하락하거나 가속화 효과가 제한적이었습니다.

본 논문에서는 VLA Task에서의 spatial-temporal consistency를 지적합니다. 즉, 연속적인 단계의 입력 이미지들은 높은 유사성을 보이며, 따라서 token selection은 local information과 모델의 global context를 결합해야 한다는 핵심 통찰을 제안합니다. 이를 바탕으로, 본 연구에서는 휴리스틱 제어 기능이 포함된 training-free, 2단계 pruning 방법인 SpecPrune-VLA를 제안합니다.

Action-level static pruning: 본 연구에서는 액션당 visual tokens를 정적으로 줄이기 위해 global history와 local attention을 활용합니다.
Layer-level dynamic pruning: 본 연구에서는 레이어별 중요도에 따라 레이어마다 적응적으로 토큰을 pruning합니다.
Lightweight action-aware controller: 본 연구에서는 end effector의 속도에 따라 액션을 coarse-grained 또는 fine-grained로 분류하고, 이에 따라 pruning의 aggressiveness을 조절합니다.

1. INTRODUCTION

최신 VLA모델은 멀티모달 tokenizer, LLM backbone, Action head로 구성되어 실세계 로봇의 복잡한 태스크를 수행하지만, 전체 추론 지연 시간의 70% 이상이 LLM에서 발생하는 심각한 병목 현상을 보입니다. 특히 OpenVLA와 같은 최신 모델들은 한 번의 연산으로 액션 시퀀스를 직접 예측하는 'Single-step Paradigm'을 채택하고 있는데, 이로 인해 수백 개의 토큰을 동시에 처리하면서 발생하는 연산량이 메모리 접근 속도보다 성능을 좌우하는 'Compute-bound' 특성을 갖게 됩니다. 따라서 VLA의 실시간 성능 향상을 위해서는 이러한 독특한 산술 집약적 연산 패턴을 고려한 LLM 가속화 전략이 필수적입니다.

Pruning은 중요하지 않은 값에 대한 연산을 효과적으로 줄임으로써 compute-bound 문제를 해결하는 전형적인 가속화 방법입니다. 그러나 VLA 모델의 기존 토큰 pruning 방식들은 현재 액션 생성 시의 레이어 결과와 같은 local information만 고려하고 모델 전체의 global information을 무시하여, 일부 시나리오에서 20% 이상의 성공률 손실을 초래하거나 가속화 효과가 제한적이었습니다.

이에 따라 본 논문에서는 연속적인 액션 생성 단계의 입력 이미지들이 짧은 시간 간격으로 인해 높은 유사성을 보인다는 점을 지적합니다. 따라서 이전 추론 단계의 global information을 활용하면 더 신뢰할 수 있고 효율적인 token pruning이 가능하다고 판단합니다. 이러한 통찰을 바탕으로, 액션 인지적 self-speculative pruning을 통한 VLA 모델 가속화 방법인 SpecPrune-VLA를 제안합니다. SpecPrune-VLA의 기술은 다음과 같이 세 가지 포인트로 요약될 수 있습니다.

(1) Action-level static pruning: 연속적인 액션 생성 사이의 토큰들이 대부분 중복(예:환경의 배경) 되어 상당한 정보 중복을 초래한다는 점을 지적합니다. 따라서 이전 단계의 global model(중간 및 깊은 레이어)의 attention 정보를 재사용하여 글로벌하게 중요하지 않은 토큰을 pruning합니다. 그런 다음, 속도 기반의 frame comparison과 self-speculative token selection을 통해 동적인 요소 및 현재 태스크 관련 토큰으로 이를 보강합니다. 로컬 및 글로벌 레벨에서 선택된 토큰들을 융합함으로써, LLM forward 시작 시점에 visual tokens의 60%~70%를 pruning할 수 있습니다.

(2) Layer-level dynamic pruning: 입력 특징이 LLM backbone을 통해 전파됨에 따라, 각 토큰의 local context는 깊은 레이어를 거치며 점진적으로 풍부해집니다. 따라서 토큰의 중요도 점수를 동적으로 업데이트하고 다양한 깊이에서 토큰 중요도를 재평가하는 layer-wise pruning을 도입합니다. 이를 통해 모델은 맥락 이해가 성숙해짐에 따라 연산 집중도를 적응적으로 정교화하고 중복 토큰을 제거하여 추가로 20%의 연산을 줄일 수 있습니다.

(3) Lightweight action-aware Controller: 모든 액션이 토큰 pruning에 동일하게 민감하지 않다는 점을 제안합니다. 따라서 액션을 coarse-grained(예: 큰 이동)와 fine-grained(예: grasping) 유형으로 분류하고 컨트롤러를 설계했습니다. 이 컨트롤러는 end-effector의 속도에 따라 액션의 입도를 결정하고, 무시할 수 있는 수준의 오버헤드로 pruning의 aggressiveness을 적응적으로 조절하여 다양한 로봇 태스크에서 속도와 정확도 사이의 견고한 trade-off을 가능하게 합니다.

2. RELATED WORKS

2.1. Vision-Language-Action (VLA) Models

VLA 모델은 일반적으로 LLM 기반이며, 대규모 시뮬레이션 및 실세계 로봇 데이터셋에서 fine-tuned 됩니다. 이들은 멀티모달 입력(예: 이미지 + 텍스트)을 처리하여 저수준 로봇 액션을 생성합니다. 높은 조작 정확도를 위해 continuous action spaces가 선호되며, 흔히 가벼운 MLPs 또는 diffusion heads를 통해 디코딩됩니다. 높은 제어 빈도와 시간적 일관성을 보장하기 위해, 현대의 VLAs는 ACT, diffusion models, 또는 chunked action generation을 위한 parallel decoding을 채택합니다.

2.2. Token-level Acceleration for VLA model

최근 연구들은 Token caching 또는 pruning을 탐구합니다. VLA-Cache는 중요하지 않은 토큰의 key-value pairs를 재사용하지만, 전체 FLOPs의 17~25%만 줄이며 추가적인 GPU memory access 오버헤드를 발생시킵니다. EfficientVLA는 단일 레이어의 attention heuristics를 사용하여 visual tokens를 pruning하고 다양한 패치들로 보완하지만, 이는 태스크와 무관한 콘텐츠를 도입할 위험이 있고 global context awareness가 부족합니다. SP-VLA는 공간적-의미적 구조를 보존하기 위해 vision encoder saliency가 높은 토큰을 유지하지만, 의미론적으로 중복된 토큰을 필터링하지 못해 불필요한 연산을 남깁니다.

2.3. Self-Speculative Decoding and Lightweight Predictors

별도의 draft model이 필요한 표준적인 speculative decoding과 달리, LayerSkip은 동일한 모델의 앞쪽 레이어를 drafting에 사용하고 깊은 레이어를 verification에 사용하여 메모리와 지연 시간을 줄입니다. 이와 별도로, SpecEE와 SpeContext는 저확률 토큰을 필터링하기 위해 lightweight predictor를 사용하고 attention score에 기반해 KV cache를 동적으로 로드하여 디코딩 비용을 크게 낮춥니다.

3. KEY INSIGHTS

3.1. What Really Matters in the Image

본 연구에서는 모델에게 이미지의 어떤 구성 요소가 결정적인지 체계적으로 연구했습니다. 그림 3의 Insight 1(a)에 나타난 바와 같이, image-to-text attention 패턴은 레이어를 거치며 진화합니다. "접시 위에 사발을 놓으라"는 태스크에서, shallow layers는 배경과 무관한 영역(예: 테이블)을 포함하여 광범위하게 주의를 기울이지만 중요한 객체(예: 사발과 접시)는 놓칩니다. middle layers는 액션과 직접 연관되지 않더라도 태스크 이해에 정보를 주는 의미론적으로 관련 있는 객체(예: 캐비닛)에 집중합니다. deep layers는 실행에 직접 관여하는 action-centric tokens(예: 접시)에 집중합니다.

이러한 계층적 attention의 가치를 평가하기 위해, post-hoc token pruning 실험을 수행했습니다. 중요도의 대리 지표로 흔히 사용 되는 image to text간의 attention scores를 사용하여 레이어 별 중요한 token을 식별했습니다. 먼저 실행 없이 액션을 생성한 다음, attention scores를 기반으로 token을 pruning 하고, 압축된 입력으로부터 액션을 다시 생성하여 실행했습니다.

결과(그림 3, Insight 1(e))에 따르면, random pruning은 12.5% sparsity까지만 성능을 유지하며 그 이상에서는 정확도가 급격히 떨어집니다. 이는 중복성이 존재하지만 정보에 기반한 pruning guidance가 필요함을 나타냅니다. shallow layers에 의해 가이드된 pruning은 높은 sparsity에서 저조한 성능(10% 이상 하락)을 보이는데, 이는 이들이 무관하고 중복된 정보(예: 테이블 질감 및 배경)를 포착하기 때문입니다. 반면, mid layer와 deep layer를 결합한 전략은 86% pruning에서도 최소한의 저하만 보이며 뛰어난 견고성을 달성했습니다. 이는 task-relevant 표현과 action-centric 표현을 융합하는 것이 효율적인 모델 압축을 위한 신뢰할 수 있는 신호를 제공함을 입증합니다.

3.2. Information largely overlaps in images of consecutive inference

정확성을 보장하기 위해서는 글로벌하게 중요한 토큰들이 보존되어야 합니다. 현재 모델이 추론을 완전히 마치기 전에 이러한 토큰들을 식별하는 것은 어렵습니다. 기존 방법들(SP-VLA, EfficientVLA)은 하나의 LLM layer 또는 vision encoder의 attention score와 같은 local information을 활용합니다. 하지만 이들은 전체 모델의 global information을 고려하지 않았으므로 신뢰할 수 없습니다.

VLA 모델에서 전체적인 task 목표를 일정하게 유지되며, 최소한의 시간 변화로 인해 연속적인 추론 과정에서 시각적 장면의 상당 부분이 변하지 않은 채로 유지된다는 점을 강조합니다. 따라서 그림 3의 Insight 2(b)에서 보듯, 이전 생성 단계에서 글로벌하게 중요하다고 식별된 토큰들은 현재 단계에서도 중요하게 유지될 가능성이 높습니다. 이를 spatial-temporal consistency 라고 부릅니다.

이러한 token의 중요도의 일관성을 수치화하기 위해, Recall of Important Tokens를 정의합니다. 이는 이전 단계의 글로벌 중요 토큰 세트 $V_{t-1}$과 현재 세트 $V_t$ 사이의 중첩을 측정하며, 현재 세트의 크기로 정규화됩니다. 공식으로 표현하면 다음과 같습니다:

$$\text{Recall}(V_{t-1}, V_t) = \frac{|V_{t-1} \cap V_t|}{|V_t|} \quad (1)$$

그림 3의 Insight 2(a) 에서 나타난 바와 같이, Task 실행 전반에 걸쳐 다양한 시점에서 이 recall이 평균 75%~88%에 도달함을 관찰했습니다. 이는 토큰 관련성에 있어 강력한 temporal consistency이 있음을 나타냅니다. 이러한 시간적 일관성은 시간축을 가로질러 global attention scores를 재사용하도록 영감을 줍니다.

4. Action-level Static Token Pruning

4.1. Method

4.1.1. PRUNING BASED ON GLOBAL INFORMATION

섹션 3.1에서 설명한 바와 같이, visual tokens가 queries로 작동하고 text tokens가 keys로 작동하는 cross-attention 레이어에서, visual token $V_i$로부터 task-instruction (text) 토큰으로 향하는 높은 attention weight는 해당 visual token이 중요하다는 것을 나타냅니다.

단일 Transformer 레이어에 의해 처리되는 $n$개의 visual tokens $V = {V_1, \dots, V_n}$과 $m$개의 textual tokens $T = \{t_1, \dots, t_m\}$(예: 태스크 지시문)을 포함하는 통합 입력 시퀀스가 주어질 때, 각 visual token이 textual tokens에 얼마나 능동적으로 주의를 기울이는지 측정하여 task-relevant visual tokens를 식별합니다. 수식으로 표현하면, 레이어 $l$의 헤드 $h$에서의 attention matrix를 $A_l^h \in \mathbb{R}^{(n+m) \times (n+m)}$이라 할 때, 엔트리 $A_l^h(i, j)$는 $i$번째 토큰이 query이고 $j$번째 토큰이 key일 때의 attention weight를 나타냅니다. visual token $V_i$와 textual token $t_j$에 대해, 다음과 같이 image-to-text attention weight를 추출 합니다. $A_l^h(p_i, q_j)$. 레이어 $l$에서 $V_i$의 task-relevance score는 모든 헤드에 걸쳐 모든 지시문 토큰에 할당된 평균 attention으로 정의됩니다:

$$\text{Score}_l(V_i) = \frac{1}{H \cdot m} \sum_{h=1}^H \sum_{j=1}^m A_l^h(V_i, t_j) \quad (2)$$

그런 다음 이전 추론 단계의 middle 및 deep layers(여기서는 15번과 32번 레이어를 선택함)에서 가장 높은 attention scores를 가진 상위 $K_{global}$개의 visual tokens 세트를 $V_{global}$로 정의합니다. global information이 연속적인 액션 전반에 걸쳐 시간적 일관성을 보인다는 핵심 통찰에 기반하여, 현재 단계에서 $V_{global}$을 유지합니다.

4.1.2. SUPPLEMENTATION OF DYNAMIC TOKENS

추론 단계 사이에서 상당한 변화를 겪는 visual tokens는 이전 단계의 global information을 사용하여 안정적으로 pruning될 수 없습니다. 최신 콘텐츠를 보존하기 위해, static pruning 과정에서 이러한 동적 토큰들을 명시적으로 유지합니다.

프레임 $I_m$과 $I_n$이 주어지면, 토큰 크기에 따라 각 프레임을 $N \times N$ 패치로 나눕니다. $P_t^{i,j}$를 프레임 $I_t$에 있는 패치 $(i, j)$의 feature vector라고 할 때, 대응하는 패치들 사이의 cosine similarity는 다음과 같습니다:

$$\text{Sim}(P_m^{i,j}, P_n^{i,j}) = \frac{P_m^{i,j} \cdot P_n^{i,j}}{\|P_m^{i,j}\|_2 \|P_n^{i,j}\|_2}$$

동적 token을 식별하기 위해, 먼저 유사도 점수가 임계값 $\tau$ 미만인 패치들을 필터링한 후, 남은 후보들 중에서 유사도 점수가 가장 낮은 상위 $k$개의 패치들을 선택합니다. 수식으로 표현하면, $P_n = {P_n^{i,j} \mid 1 \le i, j \le N}$을 프레임 $I_n$의 모든 패치 세트라고 할 때, 후보 동적 패치들은 다음과 같이 정의됩니다:

$$C_n = \{ P_n^{i,j} \in P_n \mid \text{Sim}(P_m^{i,j}, P_n^{i,j}) < \tau \} \quad (3)$$

가장 동적인 $K_{dynamic}$개의 토큰들은 다음과 같이 주어집니다:

$$V_{dynamic} = \text{Low-}K_{dynamic} (\{ \text{Sim}_{i,j} \mid P_t^{i,j} \in C_t \}) \quad (4)$$

또한, 그림 4(a)에 나타난 것처럼 인접한 프레임을 직접 비교하는 것은 카메라 노이즈와 조명 변화로 인해, 특히 real world에서는 부정확한 결과를 낳을 수 있습니다. 따라서 본 연구에서는 velocity-based frame sampling 전략을 제안합니다., 이 방법은 현재 프레임보다 $T$ 프레임 이전의 역사적 참조 프레임을 선택하며, 여기서 $T$는 다음과 같이 계산됩니다: $T = \lfloor b + k \cdot v \rfloor + 4$. 여기서 $k = -1$과 $b = 7$은 실험 결과에 기반한 상수입니다. $k$는 속도 $v$와 $T$를 반비례하게 연결하며, $b$는 $T$의 기본값을 조정합니다.

4.1.3. PRUNING BASED ON LOCAL INFORMATION

변화하는 하위 목표(sub-goals)와 이미지로 인해, 식 (2)를 사용한 attention-based importance분석을 통해 현재 생성 단계의 정보를 통합해야 합니다. 처음 두 레이어의 상위 k개의 중요 토큰 중 80%~ 90%가 마지막 레이어의 상위 k개에서도 다시 나타남을 확인헀습니다. (그림 5II, $k=30$). 이는 초기 레이어의 attention이 토큰 선택을 위한 신뢰할 수 있는 가이드를 제공함을 의미합니다. 또한, 첫 번째 레이어만 사용하는 것은 적중률이 낮았고, 세 번째 레이어를 추가하는 것은 추가적인 지연 시간 대비 이득이 미미했습니다. 정밀도와 효율성을 고려하여, 우리는 현재의 중요한 토큰들을 필터링하기 위한 추측(speculation) 용도로 처음 두 레이어를 사용합니다.

각 레이어에서 가장 높은 attention scores를 가진 $K_{local}$개의 visual tokens를 선택하여 각각 후보 세트 $V^{(1)}$과 $V^{(2)}$를 형성하고, 이 두 세트의 합집합을 local information representation으로 취합니다: $V_{local} = V^{(1)} \cup V^{(2)}$. 최종적으로, 유지되는 모든 토큰 세트는 다음과 같습니다:

$$V_{retain} = V_{global} \cup V_{dynamic} \cup V_{local}$$

5. LAYER-LEVEL DYNAMIC TOKEN PRUNING

레이어 내에서 가장 중요한 토큰들을 보존하기 위해, LLM layers 전반의 attention scores와 layer confidence를 활용하여 레이어 내부에서 토큰을 pruning하는 dynamic importance scoring mechanism을 제안합니다.

5.1. Importance Score Formulation

토큰 중요도 점수는 static token pruning 이후 남은 visual tokens에 대해 초기화되며, 이후 대상 transformer layers에서 순차적으로 업데이트됩니다. 중요도 점수 $s_i^{(l)}$은 토큰의 상대적 중요도 가중치와 레이어의 기여도를 모두 고려합니다:

$$s_i^{(l)} = \omega_{rank,i}^{(l)} \times \omega_{conf}^{(l)} \quad (5)$$

여기서 $\omega_{rank,i}^{(l)}$은 attention ranking에서의 상대적 중요도를 반영하는 rank-based weight이며, $\omega_{conf}^{(l)}$은 레이어의 신뢰도를 측정하는 layer confidence score입니다.

Rank-based Weight

각 attention head에 대해, visual tokens는 식 (2)의 image-to-text attention scores를 기반으로 순위가 매겨집니다. 영향력이 부드러운 감쇠를 유지하면서 가장 중요한 token의 기여도를 강조하기 위해, 본 연구에서는 rank-based weighting scheme을 도입합니다. 이 가중치는 다음과 같이 정의됩니다:

$$\omega_{rank,i}^{(l)} = \frac{\sigma(-k \cdot \text{rank}_i^{(l)})}{\sum_j \sigma(-k \cdot \text{rank}_j^{(l)})} \quad (6)$$

여기서 $\text{rank}_i^{(l)}$은 레이어 $l$에서 토큰 $t_i$의 attention ranking이며, $\sigma(x)$는 sigmoid function을 나타냅니다. 이는 토큰 순위 간의 차이를 부드러운 범위로 매핑하여 증폭시킴으로써, 상위 순위 토큰들이 훨씬 더 많은 강조를 받도록 보장합니다.

Layer Confidence Score

Transformer layers에서 높은 attention entropy는 주의 분포가 분산되어 모델이 중요한 토큰에 집중하지 못하고 있음을 나타냅니다. 그림 5I에 나타난 바와 같이, VLA 모델의 레이어별 attention entropy가 깊이에 따라 크게 변하는 것을 관찰했으며, 이는 서로 다른 레이어들이 글로벌하게 중요한 정보를 식별하는 데 불평등하게 기여함을 시사합니다.

본 연구에서는 낮은 엔트로피를 가진 집중된 attention 레이어들이 토큰 중요도 추정에 더 신뢰할 수 있다고 가정합니다. $A_{ij}^{(l)}$을 레이어 $l$의 image-to-text attention에서 텍스트 쿼리 토큰 $i$가 이미지 키 토큰 $j$에 주는 attention weight라고 할 때, 평균 attention entropy는 다음과 같이 계산됩니다:

$$\bar{H}^{(l)} = -\frac{1}{N} \sum_{i=1}^N \sum_{j=1}^M A_{ij}^{(l)} \log A_{ij}^{(l)} \quad (7)$$

여기서 $N$과 $M$은 각각 쿼리 토큰과 키 토큰의 수입니다. layer confidence score $\omega_{conf}^{(l)}$을 다음과 같이 계산합니다:

$$\omega_{conf}^{(l)} = \frac{1}{\bar{H}^{(l)} + \epsilon} \quad (8)$$

여기서 $\epsilon > 0$은 수치적 안정성을 위한 값입니다. 낮은 엔트로피는 높은 confidence에 대응하며, 이는 더 집중되고 semantically grounded attention을 반영합니다. 이 값은 첫 번째 추론 단계에서 계산된 후 높은 단계 간 유사성 덕분에 이후 단계에서 재사용됩니다.

5.2. Dynamic Updating Mechanism

각 토큰 $t_i$에 대한 최종 중요도 점수 $S_i$는 레이어를 거치며 exponential moving average를 통해 유지됩니다:

$$S_i^{(l)} = (1 - \beta) \cdot S_i^{(l-1)} + \beta \cdot s_i^{(l)} \quad (9)$$

여기서 $\beta$는 업데이트 속도를 제어하는 learning rate로 0.2로 설정되며, 초기화를 위해 $S_i^{(0)} = 0$으로 설정됩니다. 업데이트 레이어 세트에 속하는 레이어들에 대해, 우리는 가장 낮은 점수를 가진 토큰의 10%를 pruning합니다.

6. Lightweight Action-aware Controller

6.1. Observation and Insight

경험적으로 볼 때, 공격적인 토큰 pruning은 성공률 하락으로 이어집니다. 프레임별 관찰 결과, 실패는 주로 물체 조작이나 배치와 같은 object-contact phases(그림 6(b))에서 발생하며, 이 단계에서는 미세한 오차만으로도 태스크 실패를 유발합니다. 태스크는 이러한 액션들이 성공적으로 실행되었을 때만 완수됩니다. 이는 태스크의 성공이 높은 정밀도를 요구하고 pruning에 민감한 fine-grained actions에 결정적으로 달려 있음을 강조합니다.

반면, coarse-grained actions(예: 일반적인 위치로 이동)는 더 많은 근사치(approximation)를 허용합니다. 구체적으로, 로봇이 물체에 접근할 때 안정적인 접촉과 성공적인 실행을 위해서는 fine-grained control이 필수적입니다. 따라서 액션의 granularity가 요구되는 visual fidelity와 추론 정밀도를 결정합니다.

이에 영감을 받아 본 연구에서는 action-aware pruning 전략을 제안합니다. 각 단계가 fine를 요구하는지 coarse를 요구하는지 감지함으로써, fine-grained 단계에서는 더 많은 토큰을 보존하고, coarse-grained 단계에서는 더 공격적으로 pruning하여 효율성과 성공률을 모두 높입니다.

6.2. Method

액션은 고정된 기간 동안 수행되므로, end-effector velocity는 단계당 변위로 측정됩니다. 모든 훈련 데이터는 모델 입력 전에 정규화되므로, 출력 변위($\Delta x, \Delta y, \Delta z$)와 각도 변화($\Delta \alpha, \Delta \beta, \Delta \gamma$)는 본질적으로 정규화된 형태입니다. 이러한 정규화는 속도 크기가 태스크와 플랫폼 전반에 걸쳐 일관된 범위에 있도록 보장하며, 본 방법을 로봇의 kinematics나 환경 스케일에 독립적으로 일반화할 수 있게 만듭니다. 평행 이동 및 회전 속도는 다음과 같이 계산됩니다:

$$v_t = \sqrt{(\Delta x)^2 + (\Delta y)^2 + (\Delta z)^2} \quad (10)$$

$$v_r = \sqrt{(\Delta \alpha)^2 + (\Delta \beta)^2 + (\Delta \gamma)^2} \quad (11)$$

그림 6의 궤적 데이터 분석 결과, coarse 단계와 fine-grained 단계 사이에 bimodal velocity distributions가 나타남을 확인했습니다. coarse-grained 단계에서는 전반적인 속도가 높습니다. 반면 fine-grained 단계에서는 평행 이동 및 회전 속도가 일반적으로 느리며, $z$축 변위 $\Delta z$가 0 이하(비양수)인 특징을 보입니다.

이로부터 우리는 경험적으로 임계값 $v_t^{th}, v_r^{th}$를 식별했습니다. 시스템은 $v_t < v_t^{th}$, $v_r < v_r^{th}$이고 $\Delta z \le 0$일 때 precise mode로 진입하며, 임계값을 초과할 때(예: 물체를 들어 올릴 때) 이 모드에서 벗어납니다. 이 적응형 제어는 정확도와 효율성 사이의 균형을 맞춥니다.

7. EXPERIMENT

7.1 ~ 7.3 Experimental Settings & Parameter Setup & Design Space Exploration

본 연구는 모델의 공간 추론, 물체 이해, 계획 실행 및 장기 태스크 수행 능력을 종합적으로 평가하기 위해 LIBERO 시뮬레이션의 4가지 주요 수트와 실세계 로봇 환경에서 실험을 진행했습니다. 실험의 타겟 모델로는 OpenVLA-OFT와 $\pi_0$를 선정하였으며, 이들은 각각 MLP action head와 flow-matching 방식을 사용하는 대표적인 VLA 모델입니다. 성능 비교를 위해 SparseVLM, FastV, VLA-Cache 등 최신 최적화 기법들이 baseline으로 사용되었습니다. 특히 중요 토큰의 시간적 일관성을 나타내는 Recall 지표를 극대화하기 위해, 실험을 통해 global token 30개, local token 24개, dynamic token 20개를 유지하는 최적의 파라미터 조합을 도출하였으며, prune ratio를 0.8로 설정하여 정확도와 속도 사이의 최적의 균형점을 찾았습니다.

7.4. Evaluation on Speedup and Success Rate

성공률과 지연 시간, 가속도 측면에서의 종합 평가 결과, SpecPrune-VLA는 OpenVLA-OFT 대비 연산량을 약 57% 줄이면서 평균 1.45배의 속도 향상을 달성했습니다. 주목할 점은 이러한 가속화에도 불구하고 성공률 저하가 0.7% 미만으로 매우 미미했다는 것입니다. 반면 비교 대상이었던 SparseVLM은 복잡한 전략에 비해 가속 효과가 제한적이었고 정밀 액션 생성에 부적합한 모습을 보였습니다. EfficientVLA의 경우 높은 가속도를 기록했으나, 액션과 직결된 중요한 정보를 손실하여 특정 시나리오에서 성공률이 급격히 하락하는 문제를 보였습니다. 이는 본 논문의 방식이 시공간적 일관성을 활용해 핵심 정보를 매우 효과적으로 보존하고 있음을 증명합니다.

7.5. Ablation Study

제안된 세 가지 기술의 기여도를 분석한 결과, 정적 및 동적 pruning은 가속 성능의 핵심인 지연 시간 단축을 주도했습니다. 특히 Action-aware controller는 지연 시간을 거의 추가하지 않으면서도, pruning으로 인해 하락할 수 있는 성공률을 다시 baseline 수준으로 복구시키는 결정적인 역할을 수행했습니다. 또한, 이전 단계의 attention 정보를 재사용하는 global attention reuse 전략이 단순한 로컬 정보 활용보다 훨씬 높은 토큰 재현율과 성공률을 기록했습니다. 마지막으로 엔트로피 기반의 레이어 가중치 설정 방식은 불확실성이 높은 레이어의 노이즈를 효과적으로 차단하여, 모든 레이어를 동일하게 처리할 때보다 중요한 토큰을 더 정확하게 식별해 냈습니다.

7.6 ~7.7 Extended evaluation & Evaluation on real robot

본 방법론의 범용성을 검증하기 위해 NVIDIA RTX 3090 등 다양한 하드웨어에서 테스트를 거쳤으며, 모든 플랫폼에서 일관된 가속 성능을 확인했습니다. 실세계 로봇 실험에서는 Flexiv Rizon4 로봇 팔과 3개의 카메라 시스템을 활용하여 데이터를 수집하고 모델을 LoRA로 미세 조정했습니다. 실세계 태스크에서도 시뮬레이션과 유사하게 1.70배의 높은 가속도를 기록하며, 제안된 기술이 실험실 환경을 넘어 실제 복잡한 로봇 조작 시나리오에서도 충분히 적용 가능하다는 실용성을 입증하였습니다.

8. CONCLUSION

본 연구에서는 효율적인 토큰 선택을 위해 local 및 global information을 결합한 training-free, 2단계 토큰 pruning 방법인 SpecPrune-VLA를 제안합니다. LIBERO 벤치마크에서 이 방법은 성공률 저하를 거의 일으키지 않으면서 NVIDIA A800 및 RTX 3090 GPU에서 각각 1.46배와 1.57배의 속도 향상을 달성했습니다. 실세계 태스크에서는 성공률을 타협하지 않으면서도 1.70배의 속도 향상을 제공하여, 견고한 성능과 강력한 real-world generalization 능력을 입증했습니다.

'Test-time Adaptation' 카테고리의 다른 글

Action-Aware Dynamic Pruning for Efficient Vision-Language-Action Manipulation (0)	2026.02.26
Token Expand-Merge: Training-Free Token Compression forVision-Language-Action Models (0)	2026.02.26
Beyond Text-Visual Attention: Exploiting Visual Cues forEffective Token Pruning in VLMs (0)	2026.02.13
AVA-VLA: IMPROVING VISION-LANGUAGE-ACTION MODELSWITH ACTIVE VISUAL ATTENTION (0)	2026.02.11
3D-CAVLA: Leveraging Depth and 3D Context to Generalize Vision–Language Action Models for Unseen Tasks (0)	2026.02.11

Embodied AI in Robotics

SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning

ABSTRACT

1. INTRODUCTION