Action-Aware Dynamic Pruning for Efficient Vision-Language-Action Manipulation

논문 주소: https://arxiv.org/pdf/2509.22093

ABSTRACT

Vision-Language-Action 모델을 이용한 로봇 조작은 긴 시나리오의 멀티모달 컨텍스트에 대한 효율적인 추론을 요구하며, 이 때 visual tokens에 대한 attention 연산 비용의 대부분을 차지합니다. 기존 방법들은 VLA 모델 내에서 visual redundancy를 줄여 추론 속도를 최적화하지만, 로봇 조작 단계에 따라 중복성이 달라진다는 점을 간과합니다. 본 연구에서는 시각적 토큰의 중복성이 정밀 조작 (fine-grained operations) 단계보다 조대 조작(coarse manipulation) 단계에서 더 높으며, 이것이 action dynamic과 강한 상관관계가 있음을 관찰했습니다.

이러한 관찰을 기반으로, text-driven token selection과 action-aware trajectory gating을 통합한 멀티모달 pruning 프레임워크인 Action-aware Dynamic Pruning (ADP)을 제안합니다. 본 연구의 방법은 최근의 action trajectorys를 조건으로 pruning signal을 조절하는 gating mechansms를 도입하며, 과거의 motion window를 사용하여 동역학에 따라 token retention ratios를 적응적으로 조절함으로 써, 서로 다른 조작 단게 전반에서 연산 효율성과 perceptual precision 사이의 균형을 맞춥니다.

LIBERO 수트와 다양한 실세계 시나리오에 대한 광범위한 실험은 본 방법이 베이스라인과 비교하여 FLOPs와 inference latency을 상당히 줄이면서도(예: OpenVLA-OFT에서 1.35배 가속), 경쟁력 있는 성공률(예: OpenVLA에서 25.8% 향상)을 유지함을 입증합니다. 이를 통해 효율적이고 강력한 로봇 정책을 위한 간단한 plug-in 경로를 제공하며, 로봇 조작의 효율성과 성능의 한계를 넓힙니다.

1. INTRODUCTION

최근 대규모 vision language models는 시각적 관측과 언어 지시문을 모두 실행 가능한 로봇 액션으로 매핑하는 Vision–Language-Action (VLA) 모델로 확장되었습니다. 주류 파이프라인에서는 vision encoder가 하나 이상의 카메라 뷰에서 조밀한 visual tokens를 생성하고, projector가 이를 언어 공간에 정렬하며, LLM이 모든 모달리티를 융합하여 액션을 예측합니다. 그러나 이러한 멀티모달 설계는 현재의 조작 작업과 거의 관련이 없는 수많은 visual tokens를 포함하는 긴 입력 시퀀스를 도입하며, 이는 계산량, 메모리 점유 및 latency을 팽창시키고 실제로 태스크와 관련된 단서들에 대한 주의력을 분산시킬 수 있습니다.

기존 연구들은 가벼운 설계를 강조하는 RoboMamba, 구조적 pruning 및 reparameterization 를 목표로 하는 DeeR-VLA, 조건부 레이어 활성화를 타겟팅하는 Mole-VLA, 캐시 재사용에 집중하는 VLA-Cache, 그리고 attention을 통해 visual tokens를 pruning하고자 하는 EfficientVLA와 같이 아키텍처 경량화 및 모달리티 인지 압축을 통해 효율성을 추구합니다. 하지만 로봇 조작의 핵심이면서도 충분히 탐구되지 않은 특성은 VLAs에서의 시각적인 중복성이 서롣 다른 조작 단계에 따라 action-aware 이라는 점입니다. 그럼 1에서 보듯, coarse-grained operation(예: 재배치) 동안에는 글로벌한 움직임이 지배적이며 중복된 토큰들을 pruning 할 수 있습니다. 반면, fine-grained phaseds(예: grasping)동안에는 국부적인 기하학적 구조와 세부적인 단서들이 지배적이며, 전체 시각 정보를 보존하는 것을 더 선호합니다. 더욱이, 시각적 패치의 관련성은 텍스트 조건 뿐 아니라 액션 조건(순간적인 end-effector의 움직임 및 그리퍼 상태)에 의해서도 결정됩니다. 따라서 모든 단계를 균일하게 취급하거나 혼합된 attention scores로만 토큰의 순위를 매기는 것은, 너무 적게 pruning하여 절감 효과를 제한되거나, 너무 많이 pruning하게 되면 정확도 손실을 초래하는 (특히 중요도가 시간적으로 불균등하게 분포된 멀티뷰 설정에서) 최적화되지 않은 pruning 스케줄을 생성하게 됩니다.

이러한 과제를 해결하기 위해, 본 연구에서는 조작의 fidelity를 유지하면서도 계산량을 줄이는 plug-and-play 전략인 Action-aware Dynamic Pruning (ADP)을 도입합니다. ADP는 두 가지 상호 보완적인 아이디어를 기반으로 구축되었습니다: (1) Text-driven pruning은 Cross-modal similiarities 를 사용하여 시각적 패치의 관련성을 평가하고, 이후 레이어의 deep fusion에 들어가ㅣㄱ 전에 가장 관련성 높은 토큰만을 선택합니다. (2) Action-aware Dynamics는 각 액션 윈도우 내에 end-effector trajectory에서 파생된 가벼운 결정 신호를 사용하여 특정 단계에서 pruning을 활성화 할지 여부를 조절합니다. 구체적으로, 최근의 모션 크기가 과거 모션 통계에 비해 상대적으로 낮을 경우,(delicate phases, 정밀 단계), 정밀한 제어를 위해 전체 시각 영역을 보존하고자 pruning을 비활성화합니다. 반대로, 모션 크기가 과거 통계에 비해 상대적으로 높을 때(coarse phases, 조대 단계), 중복성을 억제하고 FLOPs를 절약하기 위해 pruning을 실행합니다. 본 연구에서는 sliding trajectory windows를 통해 최근의 액션 통계를 pruning signal로 취급하는 gated mechanism을 구현하고, 모션 동역학에 따라 retention rations을 적응적으로 조절하고 조작 단계 전반에서 효율성과 정말도 사이의 균형을 맞춥니다.

본 연구의 기여는 다음과 같습니다

본 연구에서는 VLA 모델에서 visual token의 중요성이 로봇 조작의 서로 다른 단계 내에서 변한다는 것을 보여줍니다. 이러한 통찰을 바탕으로 정적인 pruning 접근 방식과 비교하여 조작 단계에 맞춤화된 동적 pruning 방법의 동기가 됩니다.
본 연구에서는 Task 지시문의 관련성과 end-effector모션에 기반한 gating rule을 결합하여, pruning 상태와 full-vision 상태 사이를 적응적으로 전환할 수 있는 text-driven action-aware pruning을 제안합니다.
본 연구의 원칙적인 복잡도 분석과 시뮬레이션 및 실세계 환경에서의 광범위한 실험을 제시하며, 본 방법이 성공적인 조작에 필요한 미세한 시각적 세부 사항을 유지하면서도 FLOPs와 지연 시간을 줄임을 입증합니다.

2. PRELIMINARY

주류 vision–language–action paradigm은 대규모 vision–language models를 확장하여 시각적 관측(장면 및 손목/그리퍼 뷰)과 태스크 지시문이라는 멀티모달 입력으로부터 실행 가능한 로봇 액션을 생성합니다. 사전 학습된 vision encoder가 visual tokens를 생성하고, projector가 이를 LLM token space에 정렬하며, LLM은 모달리티를 융합하고 액션 토큰을 autoregressively 방식으로 방출합니다. 이 토큰들은 다시 연속적인 7차원 로봇 액션으로 de-tokenized됩니다.

공식적으로, Observation $I_s \in \mathbb{R}^{H \times W \times 3}$, 그리퍼 뷰 이미지 $I_g \in \mathbb{R}^{H \times W \times 3}$, 그리고 Task intruction $I_t \in \mathbb{R}^{N \times L}$ 샘플이 주어질 때, vision encoder $f_{enc}^v$ (DINOv2 및 SigLIP)와 text tokenizer $f_{enc}^t$는 멀티모달 데이터를 동일한 잠재 차원 공간(latent dimension space)으로 투영합니다:

$$X_{vis} = f_{enc}^v(I_s, I_g), \quad X_{txt} = f_{enc}^t(I_t) \quad (1)$$

여기서 $X_{vis} \in \mathbb{R}^{L_{vis} \times D}$와 $X_{txt} \in \mathbb{R}^{L_{txt} \times D}$는 시각 및 텍스트에 대한 latent embeddings을 나타냅니다.

OpenVLA

잠재 공간에서 임베딩 표현들은 다음과 같이 멀티모달 시퀀스로 concatenated됩니다:

$$X_m = X_{[BOS]} \oplus X_{vis} \oplus X_{prop} \oplus X_{txt} \quad (2)$$

여기서 $\oplus$는 [BOS], 시각, 텍스트, 그리고 선택적으로 고유 수용성 감각(proprioceptive) 임베딩을 시퀀스 길이 차원을 따라 결합하는 것을 의미하며, $X_m \in \mathbb{R}^{1 + L_{vis} + L_{txt} + 1}$의 멀티모달 입력을 생성합니다. 이 시퀀스 $X_m$은 Large Language Model (LLM) $f_{LLM}$ (Llama2)으로 전달되어 문맥적 추론을 수행하고 액션 토큰 시퀀스를 autoregressive하게 생성합니다:

$$p(\hat{a} | X_m) = \prod_{j=1}^7 f_{LLM}(\hat{a}_j | X_m, \hat{a}_{<j}) \quad (3)$$

여기서 $\hat{a} = (\hat{a}_1, \dots, \hat{a}_7) \in T^7$이며, $T = {1, \dots, K}$는 예약된 액션 토큰 공간을 나타냅니다.

OpenVLA-OFT

OFT 버전의 경우, 패러다임이 전통적인 autoregressive decoding 단계가 없는 parallel decoding으로 전환됩니다. 잠재 공간에서 이 방법은 액션 위치를 위한 $L_{act}$개의 placeholder $X_{place}$를 입력으로 도입합니다:

$$X_m = X_{[BOS]} \oplus X_{vis} \oplus X_{prop} \oplus X_{txt} \oplus X_{place} \quad (4)$$

여기서 $X_m \in \mathbb{R}^{1 + L_{vis} + L_{txt} + 1 + L_{act}}$이며, 첫 번째 placeholder는 현재 액션 placeholder로, 나머지 $L_{act}-1$개의 액션은 미래 액션으로 사용됩니다. 생성 과정에서 LLM은 action chunk 위치의 액션 토큰들을 병렬로 직접 예측합니다:

$$\hat{A} = f_{LLM}(X_m)|_{place} \in T^{L_{act} \times 7} \quad (5)$$

여기서 $\hat{A} = [\hat{a}1; \dots; \hat{a}{L_{act}}]$이며, 각 $\hat{a}_i = (\hat{a}_{i,1}, \dots, \hat{a}_{i,7}) \in T^7$은 $i$번째 placeholder 위치에서 예측된 토큰화된 7-DoF 액션을 나타냅니다. 액션 표현 능력을 확장하기 위해, OFT 버전은 연속적인 액션의 각 차원을 256개의 bins으로 균일하게 이산화하는 토큰 레벨 모델링을 통한 continuous control도 도입합니다. 생성 시, 7개 자유도 액션은 표준 gripper parameterization를 따릅니다:

$$\hat{a}_c = [\Delta x, \Delta y, \Delta z, \Delta \phi, \Delta \theta, \Delta \psi, g]^\top \quad (6)$$

여기서 $(\Delta x, \Delta y, \Delta z)$는 Cartesian displacements를, $(\Delta \phi, \Delta \theta, \Delta \psi)$는 Euler-angle rotations을, $g$는 그리퍼를 나타냅니다.

3. RELATED WORK

Vision-Language-Actions

Vision-Language-Action (VLA) 모델은 multimodal perception를 저수준 로봇 제어와 연결하는 액션 생성기를 통해 대규모 vision-language models를 확장합니다. 이들은 이미지와 텍스트 지시문을 입력받아 shared latent space으로 인코딩한 후, 이를 실행 가능한 액션으로 디코딩합니다. 초기 접근 방식들은 멀티모달 임베딩을 discrete tokens으로 매핑한 반면, 최근 연구들은 성능 향상을 위해 continuous parallel decoding actions을 강조합니다. 이를 위해, hidden states를 시간적으로 일관된 궤적으로 변환하기 위한 가벼운 MLPs, diffusion-based decoders, 그리고 parallel decoding 전략들이 도입되었습니다. 대표적인 아키텍처로는 연속적인 액션의 반복적 정제를 위해 diffusion 모듈을 채택한 CogACT, OpenVLA, OpenVLA-OFT, 그리고 $\pi$ 시리즈가 있으며, 이들은 병렬 액션 예측을 위해 placeholder tokens를 활용하는 최적화된 파인튜닝 프레임워크를 사용합니다.

Efficient Robotic Manipulations

VLA 모델의 높은 연산 복잡도는 실시간 로봇 제어에 있어 상당한 효율성 과제를 제기합니다. 이를 해결하기 위해, 최근 연구들은 크게 training-aware 와 training-free 접근 방식으로 나눌 수 ㅇ씨는 효율성 중심 전략들을 제안해 왔습니다. RoboMamba 및 DeeR-VLA와 같은 training-aware 방법들은 아키텍처를 재설계하거나 훈련 중에 압축 및 pruning을 적용하여 정확도를 유지하면서도 주목할 만한 속도 향상을 달성합니다. 예를 들어, DeeR-VLA는 FLOPs를 줄이기 위해 dynamic reparameterization 구조적 pruning을 도입하며, Mole-VLA는 태스크 요구 사항을 조건으로 모델 레이어의 서브셋을 선택적으로 활성화하여 확장 가능한 배포를 가능하게 합니다. 반면, training-free 방법들은 재학습 없이 추론을 가속화하는 것을 목표로 합니다. VLA-Cache는 연산을 절약하기 위해 연속적인 단계 사이에서 정보가 없는 토큰의 keys와 values를 재사용하며, efficientVLA는 attention maps를 통해 식별된 task relevant patch 들을 유지합니다. 그러나 이러한 방법들은 일반적으로 조작 task 에서 stage-dependent redundancy를 간과할 수 있는 단일 layer 휴리스틱이나 정적 규칙에 의존합니다.

4. METHODOLOGY

이 섹션에서는 로봇 조작을 위한 VLA 모델에서 제안된 방법인 Action-aware Dynamic Pruning (ADP) 를 소개합니다. 먼저 섹션 4.1에서 텍스트 관련 토큰을 식별하는 text-driven pruning을 소개하고, 섹션 4.2에서 과거에 관측된 액션에 따라 pruning 전략을 동적으로 조절하는 action-aware dynamics를 소개합니다.

4.1. TEXT-DRIVEN ANTICIPATORY PRUNING

LLM에 들어가기 전, 멀티모달 시퀀스 $X$는 여전히 수많은 중복된 visual tokens를 포함하고 있으며, 이는 연산량을 증가시키고 attention의 집중도를 분산시킵니다. 이러한 중복성을 완화하기 위해, 본 연구에서는 그림 3에 표시된 것처럼 각 레이어에서 task 지시문에 대한 visual tokens의 관련성을 계산합니다.

레이어 $l$의 hidden state를 $H^{(l)} \in \mathbb{R}^{S \times D}$라고 합시다(식 2에서 $H^{(0)} = X_m$). 우리는 $H^{(l)}$을 시각 및 텍스트 서브셋인 $H_{vis}^{(l)} \in \mathbb{R}^{L_{vis} \times D}$와 $H_{txt}^{(l)} \in \mathbb{R}^{L_{txt} \times D}$로 분할합니다. 프로젝션 행렬을 적용하여 query와 key 표현을 얻습니다:

$$Q^{(l)} = H_{txt}^{(l)} W_Q^{(l)}, \quad K^{(l)} = H_{vis}^{(l)} W_K^{(l)} \quad (7)$$

이는 multi-head 형태인 $Q^{(l)} \in \mathbb{R}^{N_h \times L_{txt} \times d}$와 $K^{(l)} \in \mathbb{R}^{N_h \times L_{vis} \times d}$로 변형됩니다. scaled dot-product similarity는 다음과 같이 계산됩니다:

$$A^{(l)} = \frac{Q^{(l)} (K^{(l)})^\top}{\sqrt{d}} \in \mathbb{R}^{N_h \times L_{txt} \times L_{vis}} \quad (8)$$

여기서 각 엔트리는 텍스트 토큰이 시각 패치에 주의를 기울이는 정도를 측정합니다. visual token당 글로벌 중요도 점수를 도출하기 위해, heads와 텍스트 queries에 대해 평균을 냅니다:

$$\Phi^{(l)}(v) = \frac{1}{N_h \cdot L_{txt}} \sum_{h=1}^{N_h} \sum_{t=1}^{L_{txt}} A_{h,t,v}^{(l)} \quad (9)$$

$$X_{keep} = \text{Top-K}(\Phi^{(l)}, k), \quad k = \lfloor \rho \cdot L_{vis} \rfloor \quad (10)$$

여기서 $v \in {1, \dots, L_{vis}}$는 visual tokens의 인덱스이고, $N_h$는 attention heads의 수, $L_{txt}$는 텍스트 시퀀스 길이, $L_{vis}$는 전체 visual tokens의 수입니다. $C$개의 입력 이미지(예: 장면 및 손목 뷰)가 있는 멀티뷰 시나리오에서, 각 이미지가 $\sum_{c=1}^C L_{vis}^c = L_{vis}$를 만족하는 $L_{vis}^c$ 패치만큼 기여할 때, 유지 할당량은 가중치 벡터 $\alpha \in \mathbb{R}^C$ ($\sum \alpha_c = 1$)에 의해 뷰별로 분배됩니다. 뷰 $c$에 대해 유지되는 visual tokens는 다음과 같습니다:

$$X_{vis}^{(c)} = \text{Top-K}(\Phi_{(c)}^{(l)}, k_c), \quad k_c = \lfloor \alpha_c \cdot k \rfloor \quad (11)$$

여기서 $\Phi_{(c)}^{(l)}$는 뷰 $c$로 제한된 중요도 점수를 나타냅니다. 각 뷰 $c$에 대해 남겨진 visual tokens는 다음과 같이 표현될 수 있습니다:

$$X_{vis}^{keep} = \bigcup_{c=1}^{C} \{ X_{vis}^{(c)}[v] \mid v \in X_{vis}^{(c)}, X_{vis}^{(c)}[v] \in \mathbb{R}^D \} \quad (12)$$

축소된 시각 시퀀스 $X_{vis}^{keep}$은 다시 다른 모달리티들과 결합되어 pruned 멀티모달 시퀀스를 형성합니다:

$$\tilde{X}_m = X_{[BOS]} \oplus X_{vis}^{keep} \oplus X_{prop} \oplus X_{txt} \oplus X_{act} \oplus X_{[EOS]} \quad (13)$$

여기서 $\tilde{X}_m$은 LLM module로 전파되는 동적으로 축소된 입력을 나타냅니다.

4.2. ACTION-AWARE DYNAMIC STRATEGY

정적 pruning은 태스크 관련 visual tokens를 효과적으로 식별할 수 있지만, 조작 태스크의 모든 단계가 오직 pruned 세트에만 의존하기에 적합한 것은 아닙니다. 특히, 미세한 시각적 세부 사항을 놓치면 물체를 이동, 밀기 또는 정렬하는 것과 같은 조작에서 실패가 발생할 수 있습니다. 이러한 국부적 오차의 축적은 쉽게 전파되어 궁극적으로 전체 태스크를 실패하게 만들 수 있습니다. 이러한 한계를 해결하기 위해, 각 action chunk 내의 end-effector (EEF) trajectory에 의해 가이드되는, 로봇의 모션 상태에 따라 pruning 결정을 적응시키는 동적 시각 전략을 도입합니다. 이는 translational displacement와 rotational motion을 모두 포착하는 데 중점을 둡니다.

Windowed trajectory and actions

$i$를 윈도우 인덱스, $u$를 윈도우 내의 단계 인덱스라고 가정합시다. $b_i$와 $e_i$는 시작 및 종료 타임스텝이며, $\omega$는 OFT action placeholder 길이와 일치합니다. Decoding된 각 action chunk를 길이 $\omega = e_i - b_i + 1$인 시간 윈도우 $[b_i, e_i]$로 취급합니다. 여기서 액션 $A_i^c = [a_{i,1}^c; \dots; a_{i,\omega}^c] \in \mathbb{R}^{\omega \times 7}$이며, $a_{i,u}^c = [\Delta x_{i,u}, \Delta y_{i,u}, \Delta z_{i,u}, \Delta \phi_{i,u}, \Delta \theta_{i,u}, \Delta \psi_{i,u}, g_{i,u}]^\top$는 단계별 병진 및 회전 증분과 그리퍼 명령을 수집합니다.

Definition 4.1 (Windowed FK for EEF Position)

$T_t \in SE(3)$를 시간 $t$에서의 EEF pose라고 하고, $\pi : SE(3) \to \mathbb{R}^3$를 병진 성분을 추출하는 함수라고 합시다. body-frame (우측 곱) 결합을 통해 다음을 얻습니다:

$$p_{b_i+u} \triangleq \pi \left( T_{b_i} \prod_{k=1}^u \begin{bmatrix} R_{i,k} & v_{i,k} \\ 0^\top & 1 \end{bmatrix} \right), \quad T_{b_i+u} \triangleq T_{b_i+u-1} \begin{bmatrix} R_{i,u} & v_{i,u} \\ 0^\top & 1 \end{bmatrix} \quad (14)$$

여기서 $v_{i,u} = [\Delta x_{i,u}, \Delta y_{i,u}, \Delta z_{i,u}]^\top$이고 $R_{i,u} = R_x(\Delta \phi_{i,u}) R_y(\Delta \theta_{i,u}) R_z(\Delta \psi_{i,u})$입니다.

회전 순서 $R_x R_y R_z$는 본 연구에서의구현을 따르며, 만약 world-frame (좌측 곱) 업데이트나 다른 오일러 각 순서가 사용된다면 결합 방식은 그에 맞춰 조정되어야 합니다. 정의 4.1은 $p_t = \pi(T_t)$를 각 윈도우 내 전체 7-DoF action sequence에 대한 명시적 함수로 만듭니다.

Windowed trajectory distance

정의 4.1의 $p_t$가 주어지면, 우리는 Euclidean displacement를 통해 윈도우당 모션 크기를 정량화합니다:

$$\delta_i = \sum_{t=b_i}^{e_i-1} \|p_{t+1} - p_t\|_2 \quad (15)$$

window된 trajectory 거리는 전반적인 모션 강도를 포착하는 스칼라 $\delta_i$를 산출하며, 이후 우리의 pruning 결정 규칙을 구동합니다.

Dynamic decision function

window된 trajectory 거리가 주어지면, 이진 상태 변수 $s_i \in {0, 1}$을 정의합니다. $s_i = 0$은 full-vision state, pruning 없음)에 해당하고, $s_i = 1$은 pruned state(cross-attention pruning)에 해당합니다. 따라서 다음 상태는 다음과 같이 결정될 수 있습니다:

$$s_{i+1} = f(\delta_i) = \begin{cases} 1, & \delta_i \ge \bar{\delta}_i \\ 0, & \delta_i < \bar{\delta}_i \end{cases}; \quad \bar{\delta}_i = \frac{1}{i} \sum_{j=1}^i \delta_j \quad (16)$$

$s_{i+1}$로의 동적 전환은 태스크의 글로벌 모션 스케일에 적응하여, 활동량이 많은 기간에는 pruning을 활성화하고 fine-grained 단계 동안에는 전체 시각 정보를 유지할 수 있게 합니다. 대안으로, 최근 $\tau$개의 윈도우의 extrema을 기반으로 임계값을 설정하는 adjacent-extrema function이 있습니다:

$$U^{(i)} = \max\{\delta_{i-\tau+1}, \dots, \delta_i\}, \quad V^{(i)} = \min\{\delta_{i-\tau+1}, \dots, \delta_i\} \quad (17)$$

업데이트 규칙은 다음과 같습니다:

$$s_{i+1} = \begin{cases} 1, & \delta_i \ge U^{(i)} \\ 0, & \delta_i \le V^{(i)} \\ s_i, & V^{(i)} < \delta_i < U^{(i)} \end{cases} \quad (18)$$

이 설계는 국소적인 모션 변화에 빠르게 반응하여, 조대 조작(coarse)과 정밀 조작(delicate) 사이의 급격한 효율적 전환을 포착하는 것을 목표로 합니다. 로봇이 큰 진폭의 움직임을 보일 때는 중복된 시각 입력을 억제하고 계산량을 줄이기 위해 pruning이 활성화됩니다. 모션 진폭이 감소하여 정밀 조작의 시작을 알릴 때는, 정확한 제어에 필요한 완전한 시각적 맥락을 보존하기 위해 pruning이 비활성화됩니다.

4.3. THEORETICAL ANALYSIS OF COMPUTATIONAL COMPLEXITY

본 연구에서의 pruning 전후의 시퀀스 길이에 따른 $f_{LLM}$ 내 Transformer stack의 연산 비용을 고려합니다. 식 (2)에 따른 전체 멀티모달 시퀀스의 토큰 길이를 $S$, hidden dimension을 $D$, 그리고 feed-forward network (SwiGLU) 의 중간 차원을 $M$이라고 합시다. pruning 전 전체 vision tokens의 수는 $L_{vis}$이며, 식 (10)의 text-driven selection 이후 $k = \lfloor \rho \cdot L_{vis} \rfloor$개의 토큰이 유지됩니다. 전체 태스크 실행 시의 forwards 횟수를 $T$ (식 5), pruned state에서 실행된 forwards의 비율을 $\gamma \in [0, 1]$ (섹션 4.2)이라고 정의합니다. $H$는 $f_{LLM}$의 Transformer layers 수입니다.

하나의 Transformer layer에 대한 FLOPs는 다음과 같이 근사화됩니다:

$$F(S; D, M) \approx 2S^2D + 4SD^2 + 6SDM \quad (19)$$

이는 각각 attention, projections, 그리고 MLP에 해당합니다. 따라서 $H$개의 레이어를 가진 LLM의 베이스라인 forward 비용은 다음과 같습니다:

$$F_{base} = H \cdot F(S; D, M) \quad (20)$$

ADP에서 pruning은 LLM에 들어가기 전 임베딩 단계에서 발생합니다. 식 (9)-(10)을 사용하여 visual tokens의 순위를 매기고 줄임으로써 더 짧은 시퀀스 $S'$를 생성합니다:

$$S' = 1 + k + L_{prop} + L_{txt} + L_{act} + 1 \quad (21)$$

중요도 측정(scoring) 오버헤드는 가벼운 projections와 텍스트 및 시각 임베딩 사이의 similarity matrix를 사용합니다:

$$F_{score} = 2L_{txt}D^2 + 2L_{vis}D^2 + 2N_hL_{txt}L_{vis}d \quad (22)$$

어떠한 Transformer layer 이전에 forward당 한 번씩 pruning과 scoring이 수행된다고 가정하면, 모든 $H$개의 레이어가 $S'$에 대해 작동하게 됩니다. 레이어당 비용은 $F(S; D, M)$을 따르며, $D = N_h d$일 때 다음과 같습니다:

$$\Delta F_{ADP} = F_{base} - F_{ADP}, \quad F_{ADP} = F_{score} + H \cdot F(S'; D, M) \quad (23)$$

여기서 $k = \lfloor \rho L_{vis} \rfloor$이며, $S'$는 위에서 정의한 것과 같습니다. $N_h$는 크기 $d$를 가진 attention heads의 수이며, $F_{base} = H \cdot F(S; D, M)$입니다. $T$번의 forwards가 발생하는 한 에피소드 동안, 동적 전략 하에서의 기대 복잡도는 다음과 같습니다:

$$E[F_{episode}] = T [\gamma F_{ADP} + (1 - \gamma) F_{base}] \quad (24)$$

기대 절감액은 다음과 같습니다:

$$E[\Delta F_{episode}] = T \gamma \Delta F_{ADP} \quad (25)$$

pruning은 $f_{LLM}$ 이전의 임베딩 단계에서 적용되므로, 줄어든 길이 $S'$는 모든 $H$개의 레이어에 균일하게 이득을 주며, 동적 규칙(식 14-16)은 액션 윈도우 전반에서 pruned path가 얼마나 자주 사용될지를 제어합니다.

5. EXPERIMENTS

5.1. Simulation Experiments

본 연구는 LIBERO 시뮬레이션의 4가지 태스크 수트(Spatial, Object, Goal, Long)를 통해 공간 이해와 장기 계획 능력을 평가했습니다. 실험은 OpenVLA-OFT를 기반으로 NVIDIA RTX 4090 환경에서 수행되었으며, 초기 2개의 윈도우는 full vision을 사용하는 cold start 방식을 채택했습니다. 또한, 오차 누적을 방지하기 위해 3회 연속 pruning이 발생하면 다음 윈도우는 강제로 full vision으로 전환되도록 설정했습니다. 실험 결과, VLA-ADP는 keep ratio가 30~40%일 때도 94% 이상의 높은 성공률(SR)을 유지하며 1.29~1.35배의 속도 향상을 달성했습니다. 특히 Spatial 태스크에서는 99.4%의 성공률을 기록하여, 단순한 공간 조작 시나리오에서 핵심 정보를 매우 효과적으로 보존함을 입증했습니다.

5.2. Real-World Experiments

실세계 성능 검증을 위해 냄비 옮기기, 큐브 배치, 테이블 닦기 등 4가지 물리적 로봇 태스크를 수행했습니다. 모든 설정은 시뮬레이션과 동일하게 유지되었으며, **parallel decoding (PD)**과 window size를 OpenVLA-OFT의 청크 크기(8)에 맞추어 최적화했습니다. 결과적으로 VLA-ADP는 베이스라인 대비 평균 성공률을 85.8%에서 88.3%로 향상시킴과 동시에, 지연 시간(latency)을 76.9ms에서 51.8ms로 줄여 약 1.49배의 가속을 실현했습니다. 이는 제안된 동적 pruning 전략이 실세계의 복잡한 조작 환경에서도 성능 저하 없이 실질적인 속도 이득을 제공할 수 있음을 의미합니다.

6. ABLATION STUDY

Action-aware Dynamic Strategy

Action-aware Dynamic Strategy의 유무에 따른 성능을 비교한 결과, ADP가 성공률(SR) 96.3%를 기록하며 고정된 pruning이나 주기적 전환 방식보다 뛰어난 성능을 보였습니다. 특히 Object 태스크에서는 주기적 스케줄 대비 +16.6포인트라는 압도적인 향상을 보였는데, 이는 state-aware switching이 fine manipulation 단계에서의 과도한 pruning을 방지하는 데 결정적인 역할을 함을 시사합니다.

Impact of Pruning Strategy

importance scoring을 위한 레이어 선택 실험 결과, layer 0에서 점수를 산출하는 것이 정확도와 연산량(FLOPs) 사이에서 가장 우수한 균형을 보여주었습니다. 레이어가 깊어질수록 연산량은 증가하는 반면 성공률은 소폭 하락(96.3% → 95.8%)하는 경향을 보였는데, 이는 깊은 레이어일수록 attention이 지나치게 국소화되어 글로벌한 맥락 파악 능력이 떨어지고 노이즈에 민감해지기 때문으로 분석됩니다.

Observation of Attention Weights

일반적인 VLM과 달리, 병렬 디코딩 기반의 VLA 모델에서는 layer 0부터 이미 안정적이고 변별력 있는 text-to-vision signal이 형성됨을 시각적으로 확인했습니다. layer 0의 self-similarity matrix는 명확한 블록 구조를 띠며 높은 SNR (Signal-to-Noise Ratio)을 보여주는 반면, 깊은 레이어로 갈수록 응답 대역이 좁아지고 곡선이 날카로워져 Top-K ranking이 국소 노이즈에 취약해지는 현상이 관찰되었습니다.

7. CONCLUSION

본 연구에서는 신뢰성을 유지하면서도 VLA 추론을 가속화하기 위해, text-driven anticipatory pruning과 action-aware dynamic strategy를 통합한 plug-and-play pruning 프레임워크인 VLA-ADP를 제시했습니다. 시뮬레이션 및 실세계 평가 전반에 걸쳐, 이 방법은 태스크 성공률을 유지하거나 향상시키고, 연산량을 줄이며 latency를 단축합니다. dynamic controller는 pruning 제거 또는 주기적 전환 방식보다 일관되게 우수한 성능을 보였으며, early-layer scoring은 최상의 정확도-효율성 균형을 제공합니다. 이러한 결과는 motion state와 instruction relevance에 따라 vision tokens를 적응적으로 pruning하는 것이 제어 품질을 저하시키지 않으면서도 효율적이고 fine-grained manipulation을 가능하게 함을 나타냅니다.

'Test-time Adaptation' 카테고리의 다른 글

Nüwa : MENDING THE SPATIAL INTEGRITY TORN BYVLM TOKEN PRUNING (0)	2026.03.07
DTP:A SIMPLE YET EFFECTIVE DISTRACTING TOKEN PRUNINGFRAMEWORK FOR VISION-LANGUAGE ACTION MODELS (0)	2026.03.06
Token Expand-Merge: Training-Free Token Compression forVision-Language-Action Models (0)	2026.02.26
SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning (0)	2026.02.25
Beyond Text-Visual Attention: Exploiting Visual Cues forEffective Token Pruning in VLMs (0)	2026.02.13

Embodied AI in Robotics

Action-Aware Dynamic Pruning for Efficient Vision-Language-Action Manipulation

ABSTRACT

1. INTRODUCTION