ADAPTINFER: ADAPTIVE TOKEN PRUNING FOR VISION–LANGUAGE MODEL INFERENCE WITH DYNAMICAL TEXT GUIDANCE

논문 주소: https://arxiv.org/pdf/2508.06084

ABSTRACT

VLM은 visual question answering, image captioning 등과 같은 multimodal reasoning tasks에서 인상적인 성능을 달성했지만, prefill stage 동안 처리되는 방대한 양의 vision tokens로 인해 추론 비용이 여전히 큰 과제로 남아 있습니다. 기존의 pruning 방법들은 흔히 attention patterns를 직접 사용하거나 정적인 text prompt guidance에 의존하여, 추론 중에 생성되는 동적인 내부 신호들을 활용하지 못하는 한계가 있습니다. 이러한 문제를 해결하고자, 본 연구에서는 VLMs 에서 적응형 vision token pruning을 위한 plug-and-play 프레임워크인 AdaptInfer를 제안합니다.

첫째, layer-wise text-to-text attention maps를 재사용하여 text-token importance에 대한 soft priors를 구축하고, 각 단계에서 더욱 정보에 입각한 vision tokens 스코어링을 가능하게 하는 세밀하고 동적인 text-guided pruning mechanism을 도입합니다. 둘째, cross-modal attention shifts에 대한 offline analysis를 수행하여 추론 과정에서 일관된 inflection locations을 식별하였으며, 이를 바탕으로 더욱 원칙적이고 효율적인 pruning schedule을 제안합니다.

본 연구의 방법은 lightweight plug-and-play 방식이며, 다양한 multimodal tasks에 걸쳐 일반화가 가능합니다. 실험 결과는 제안된 방법의 효과를 검증하였습니다. 예를 들어, vanilla LLaVA-1.5-7B에서 평균 정확도 93.1%를 유지하면서 CUDA latency를 61.3% 감소시켰습니다. 동일한 token budget 하에서, AdaptInfer는 정확도 면에서 SOTA를 능가합니다.

1 INTRODUCTION

최근 몇 년간 LLMs의 성공을 바탕으로, visual encoders와 LLMs의 text decoders를 결합하여 multimodal reasoning을 해결하는 vision–language models이 등장했습니다. 이러한 통합은 captioning, image retrieval, VQA 등에서 인상적인 성능을 가능하게 했으나, 동시에 vision tokens의 방대한 수라는 새로운 계산적 과제를 불러왔습니다.

VLMs의 추론 과정에서 Vision toknes의 수는 종종 textual tokens 보다 훨씬 많으며, 떄로는 10배 이상 차이가 납니다. 예를 들어, 14 × 14 patch size를 가진 visual encoder가 처리하는 672 × 672 크기의 이미지는 일반적으로 2304개의 vision tokens를 생성하는 반면, 상응하는 text prompt는 100개 미만의 토큰을 포함할 수 있습니다. 또한 많은 이전 연구들은 vision tokens가 더욱 중복되고 의미적으로 반복적임을 시사합니다.

결과적으로, VLM 가속화에 대한 탐구는 주로 vision tokens의 효율적인 pruning, compression 또는 sparsification에 집중되어 왔습니다. 이 패러다임은 가장 가치 있는 vision tokens만을 유지함으로써 계산 오버헤드를 줄이는 것을 목표로 합니다. 그중 일부 연구는 visual encoders 내부에 sparsity 전략을 도입하여 적지만 충분히 유용한 vision tokens를 생성하는 반면, 다른 연구들은 prefill stage 동안 self-attention 또는 cross-attention patterns에 기반하여 토큰을 추가로 pruning합니다. 그럼에도 불구하고, 전체 attention patterns의 분산으로 인해 모든 attention logits가 vision token ranking에 관여해서는 안 됩니다. 가장 두드러진 토큰들에만 투표권을 부여하면 가이드가 더욱 날카로워져, 더 공격적이면서도 정확한 vision-token pruning이 가능해집니다.

이를 해결하기 위해, SparseVLM은 prefill pass 이전에 오프라인에서 가장 중요한 text tokens를 선택하는 text prompt–guided pruning 개념을 도입했습니다. 이 접근 방식은 텍스트 신호의 중요성을 인정하지만, 추론 중 text token importance의 동적인 특성이라는 근본적인 과제는 완전히 해결하지 못합니다. 실제로 text tokens의 정보 가치는 모델이 내부 표현을 점진적으로 정교화함에 따라 레이어를 거치며 진화합니다. 그림 1a에서의 관찰 결과 역시 가장 두드러진 text tokens가 레이어마다 크게 다르다는 것을 보여주며, 이는 어떠한 정적인 선택도 본질적으로 최적에 못 미칠 수 있음을 의미합니다.

따라서, text-guided sparsification의 이점을 진정으로 활용하기 위해서는 추론 과정 전반에 걸친 효과적인 cross-modal interaction을 반영하여, 정보의 동적인 유동성에 맞춘 pruning 전략을 개발하는 것이 중요합니다. 본 연구에서는 text-to-text (t2t) attention maps를 활용하여 각 레이어에서 text tokens의 동적인 중요도 순위를 재구성할 것을 제안합니다. 이 attention maps는 text-token importance에 대한 레이어별 자연스러운 prior distribution을 제공하며, 이를 vision token pruning을 위한 text-to-vision attention score의 가중치를 reweight하는 데 사용합니다. 중요한 점은 t2t attention maps을 모델의 attention 게산에서 직접 추출할 수 있기 때문에 본 연구의 방법은 추가적인 계산 오버헤드를 발생시키지 않는다는 것입니다.

나아가 현재의 방법들은 pruning 하이퍼파라미터(예: pruning locations)를 주로 경험적인 법칙이나 광범위한 하이퍼파라미터 최적화 실험을 통해 결정합니다. 그러나 본 연구에서는 수동 튜닝이나 grid search에 의존하는 것이 상당한 오프라인 계산 오버헤드를 초래할 뿐 아니라, task나 dataset에 특화된 휴리스틱으로 이어진다고 주장합니다. 본 연구에서는 원칙적인 pruning schedule을 제공하는 첫걸음을 내딛습니다. VLM 추론 중 vision tokens에 대한 attention shifts의 분포적 특성을 체계적으로 분석하여 얻은 통찰을 제공합니다. 구체적으로, LLava-1.5-7B의 1, 10, 20번 레이어와 Qwen2-VL-2B의 0, 9, 19번 레이어에서 일관된 attention inflection points를 식별했으며, 이는 이러한 레이어 직후에 공격적인 pruning을 수행하는 것이 LLava와 Qwen에서 더욱 효과적이고 계산 효율적인 전략임을 시사합니다. \

본 연구에서 제안한 솔루션은 VLM 가속화를 위한 vision token sparsification 분야의 기존 연구들이 가진 한계점들을 효과적으로 해결합니다. 주요 기여는 다음과 같습니다:

VLM이 추론 중에 text token guidance를 동적으로 결정하는 적응형 vision token sparsification 프레임워크인 AdaptInfer를 제안합니다. AdaptInfer는 plug-and-play 솔루션입니다.
Attention shifts의 분포적 특성에 대한 새로운 관찰을 도입하고, 더욱 효과적이고 합리적인 pruning schedule에 대한 통찰을 얻었습니다.
본 연구에서 제안된 솔루션인 AdaptInfer를 구현하고 다양한 벤치마크와 vision token budget 설정에서 평가했습니다. 동일한 토큰 예산 내에서 우리의 AdaptInfer는 정확도 지표에서 SOTA 방법들을 능가합니다.

2. RELATED WORK

2.1 VISION-LANGUAGE MODELS

초기 멀티모달 시스템은 convolutional vision backbones와 recurrent language decoders를 결합했습니다. 반면 현대의 VLMs는 이미지를 시각적 토큰의 시퀀스로 표현하여 공유된 self-attention space 내에서 텍스트 토큰과 상호작용하게 하는 Transformer paradigm을 따릅니다.

BLIP-2와 MiniGPT-4는 frozen CLIP encoder의 특징을 거대 언어 모델의 hidden space로 투영하는 경량화된 linear adapters를 도입하여 효율적인 학습을 가능하게 했습니다. 이러한 시도들은 동결된 인코더와 LLMs 사이의 간극을 메워주었습니다. LLaVA family는 더 강력한 instruction tuning을 통해 이 공식을 정교화했으며, Flamingo, CogVLM, GPT-4V와 같은 다른 노력들은 이 접근 방식을 수십억 개의 파라미터 규모로 확장했습니다.

최근의 탐구들은 해상도 및 멀티모달 확장에도 기여하고 있습니다. hierarchical perception(예: LLaVA-NeXT) 및 adaptive patching(예: Qwen-VL)을 활용하는 모델들은 고해상도 입력을 허용하며, 대규모 vision encoders는 vision tokens의 더 풍부한 hidden states를 생성하기 위해 채택됩니다. 그러나 이러한 이점은 vision tokens 수가 급격히 증가하는 비용을 수반하며, 이는 본 연구에서 다루는 주요 병목 현상입니다.

2.2 INFERENCE ACCELERATION OF VLMS

이전의 접근 방식들은 주로 vision token sparsification에 집중해 왔습니다. 이는 vision tokens의 수가 텍스트 토큰보다 종종 한 자릿수(또는 그 이상) 더 크기 때문입니다. 또한, 시각적 embeddings는 본질적으로 인간이 만든 텍스트보다 훨씬 더 sparse하고 반복적입니다. 이 분야에는 효율적인 vision encoders와 LLM networks 내에서의 vision token pruning이라는 두 가지 연구 방향이 존재합니다.

예를 들어, LLaVA-PruMerge와 FlowCut 같은 방법들은 첫 번째 방향을 따르며, 인코더 출력을 자르거나 경량 projector를 사용하여 vision tokens의 수를 줄입니다. vision encoders 내의 토큰 pruning으로 인한 정보 손실을 복구하기 위해 Recoverable compression이 도입되기도 했습니다. 두 번째 방향을 따르는 솔루션들은 prefill 단계에서 vision tokens를 버릴 뿐만 아니라, vision tokens의 수를 압축하기 위해 이들을 merge하고 특정 추론 단계에서 복구하기도 합니다. SparseVLM은 정적인 text prompt guidance를 탐구하며 더 깊이 있는 연구를 시도했으나, 토큰 정보의 진화하는 본질을 무시했습니다. 우리의 접근 방식은 이 두 번째 패러다임에 기여합니다.

3 METHOD

본 섹션에서는 관찰 결과와 제안하는 방법들을 소개합니다.

3.1 OBSERVATIONS

입력 질문 프롬프트가 주어지면, 먼저 이를 $Prompt = [t_1, \dots, t_n]$으로 토큰화합니다. 그런 다음 레이어 $\ell$에서 텍스트 토큰 $t_i$의 중요도를, 레이어 $\ell$의 text-to-text (t2t) attention map에서 모든 attention heads의 평균값으로부터 받는 총 attention weight로 정의합니다:

여기서 $A_{t2t}^{(\ell,h)}[j, i]$는 토큰 $t_j$에서 $t_i$로 향하는 헤드 $h$의 attention을 나타내며, $H$는 attention heads의 수입니다. 직관적으로, 높은 $Imp^\ell$를 가진 토큰들은 language stream의 현재 핵심 텍스트 토큰들이며, 따라서 해당 레이어의 cross-modal pruning 결정을 가이드하는 데 가장 적합합니다.

3.1.2 DYNAMICS OF TEXT TOKEN IMPORTANCE

텍스트 토큰의 중요도가 레이어를 거치며 크게 진화함을 증명하기 위해, LLava-1.5-7B를 대상으로 간단한 실증 연구를 수행했습니다. TextVQA 데이터셋의 1,000개 샘플에서 t2t attention maps를 추출했습니다. 각 선택된 레이어에서 상위 20%의 텍스트 토큰을 해당 레이어의 key text tokens로 선택한 후, 레이어 간 선택된 토큰 인덱스의 **mean Intersection over Union (mIoU)**를 계산했습니다(그림 1a).

서로 다른 레이어 간의 지속적으로 낮은 mIoU 값은 추론 중에 key text tokens 세트가 실질적으로 변화함을 나타냅니다. 예를 들어, 레이어 0과 24 사이의 0.169 mIoU는 오직 16.9%의 핵심 텍스트 토큰만이 겹치고 나머지는 모두 다름을 의미합니다. 이는 VLM이 추론의 서로 다른 단계에서 입력 질문의 서로 다른 부분에 집중한다는 text token importance의 내재적인 동적 특성을 강조합니다. 결과적으로, 어떠한 static text-prompt–guided pruning 방식도 이러한 진화하는 semantic alignment를 포착하는 데 실패할 가능성이 높습니다. 이러한 결과는 진화하는 attention distribution을 온라인에서 추적하고 대응할 수 있는 적응형 레이어별 text-guidance mechanism의 필요성을 뒷받침합니다.

3.1.3 CROSS-ATTENTION SHIFTS OF VLM

Pruning hyperparameters를 설정하는 원칙적인 접근 방식이 복잡한 시행착오 기반의 튜닝보다 필요할 뿐만 아니라 더 바람직하다고 주장합니다. 이를 뒷받침하기 위해 추론 중 cross-attention shifts가 발생하는 위치를 조사했습니다. 구체적으로, LLava-1.5-7B를 사용하여 각 레이어의 시각 토큰에 대한 누적 text-to-vision (t2v) attention scores를 계산했습니다.

이러한 중요한 토큰들이 언제 의미적으로 두드러지는지(semantically salient) 이해하기 위해, transformer layers 전반에 걸친 누적 attention trajectories를 분석했습니다. 각 곡선에 change-point detection을 적용하여 모델의 attention pattern이 크게 변하는 레이어를 식별했습니다. 직관적으로, attention shift point는 (1) 토큰이 훨씬 더 많은 attention을 받기 시작하여 중요해지거나, (2) 토큰의 정보 내용이 이미 완전히 추출되어 중복되게 됨을 나타낼 수 있습니다.

그림 1b와 1c는 MME 및 TextVQA 데이터셋에서 집계된 attention shift locations의 분포를 보여줍니다. 데이터셋의 차이에도 불구하고 매우 일관된 경향을 관찰했습니다. attention shifts는 layer 1과 layer 10-20 부근에 밀집되어 나타나는 반면, layer 2-9와 20+에서는 낮은 빈도를 보였습니다. 이러한 발견은 pruning schedule 설계를 위한 데이터 기반 근거를 제공하며, pruning locations가 단순한 경험적 직관이 아닌 모델 자신의 attention behavior에 의해 결정되어야 함을 시사합니다.

3.2 ADAPTIVE TOKEN PRUNING

위의 두 가지 핵심 관찰 결과를 바탕으로, VLM inference acceleration을 위한 AdaptInfer를 제안합니다.

3.2.1 DYNAMIC TEXT GUIDANCE PRUNING

더 정보에 입각한 적응형 방식으로 visual token pruning을 가이드하기 위해, 모델의 내부 attention signals를 활용하는 dynamic text-guidance mechanism을 제안합니다. language model에 들어가기 전에 정적으로 고정된 text tokens의 서브셋을 선택하는 대신, 미리 정의된 각 pruning layer에서 추론 중에 이들의 상대적 중요도를 동적으로 추론합니다. 모델에 의해 이미 계산된 attention maps를 재사용합니다. AdaptInfer의 아키텍처는 그림 2에 나와 있으며, dynamic text guidance mechanism은 다음 세 단계로 나뉩니다.

첫째, 각 pruning layer에서 text-to-text attention matrix $A_{t2t}^{(h)} \in \mathbb{R}^{T \times T}$를 추출합니다. 여기서 $T$는 text tokens의 수이고, $h$는 총 $H$개 중 해당 attention head의 인덱스입니다. 각 text token의 중요도를 추정하기 위해, 우리는 query dimension을 따라 attention scores를 집계합니다:

여기서 $w$는 모든 attention heads에 대해 평균화된 text tokens에 대한 soft prior distribution 역할을 하며, 각 토큰이 시퀀스의 나머지 부분으로부터 얼마나 많은 attention을 받는지를 나타냅니다.

둘째, 이 prior를 사용하여 남은 visual tokens의 수 $V$에 대한 t2v attention matrix $A_{t2v}^{(h)} \in \mathbb{R}^{T \times V}$의 가중치를 reweight합니다. $A_{t2v}^{(h)}$는 text tokens가 queries로 사용되고 vision tokens가 keys 및 values 역할을 하는 cross-attention matrix를 나타냅니다. 모든 attention heads의 평균에 대한 각 visual token의 중요도 점수는 다음과 같이 계산됩니다:

여기서 $s_j$는 모든 text tokens에서 visual token $j$로 향하는 집계되고 가중치가 부여된 attention을 반영합니다.

마지막으로, 이 점수들을 바탕으로 모든 visual tokens의 순위를 매기고 현재 레이어를 위해 top-k를 유지합니다:

중요한 점은, 모든 text tokens가 visual token scoring에 참여하지만, 동적으로 추론된 자신들의 중요도에 비례하여 기여한다는 것입니다. 또한, $A_{t2t}$와 $A_{t2v}$ 모두 표준 forward passes에서 기본적으로 계산되기 때문에, 본 방법은 추가적인 computational overhead를 거의 발생시키지 않습니다. 이 솔루션은 training-free 패러다임을 따르며 기존 VLMs에 plugin으로서 원활하게 통합될 수 있음에 유의하십시오.

3.2.2 ANALYSIS OF COMPUTATIONAL COMPLEXITY

$n = T + V$가 현재의 sequence length를 나타내고, $d$가 VLM의 hidden state dimension, $m$이 FFN network 내 projection layer의 hidden size라고 가정할 때, prefill stage에서 각 transformer layer의 FLOPs는 다음과 같이 추정될 수 있습니다:

각 pruning layer에 대한 추가적인 FLOPs는 아래와 같이 계산됩니다:

두 attention matrices 모두 forward pass 중에 이미 계산되므로, 이 추가 비용은 메인 transformer 계산에 비해 매우 미미합니다. 그 후, decode stage 동안 각 레이어의 FLOPs는 다음과 같이 추정될 수 있습니다:

3.2.3 LAYER-WISE PRUNING SCHEDULE

위에서 설명한 attention shift analysis에 따라, VLMs에서 관찰된 attention dynamics와 일치하는 pruning schedule을 설계합니다. visual tokens를 pruning하는 것은 pruning safety와 computational savings 사이의 본질적인 trade-off를 수반합니다. 공격적으로 pruning하려면 일찍 수행해야 하지만, 너무 일찍 pruning하는 것은 중요성이 아직 드러나지 않은 토큰들을 제거할 위험을 필연적으로 수반합니다.

이전 연구들은 토큰 순위를 매기기 위해 attention scores에 직접 의존합니다 그러나 모든 transformer layers의 attention scores가 pruning을 위한 증거로서 동일하게 신뢰할 수 있는 것은 아니라고 주장합니다. attention shift는 레이어 전반에 걸쳐 attention-based rankings가 얼마나 신뢰할 수 있는지 나타낼 수 있습니다. attention-shift analysis는 두 가지 체계를 밝히는 데 도움이 됩니다:

첫째, high-frequency regions(예: 레이어 1 및 레이어 10-20)에서는 토큰 중요도가 활발하게 재할당됩니다(처음으로 중요해지거나 모델에 의해 다 소모됨). 여기서의 attention rankings는 불안정하며 따라서 pruning에 안전하지 않습니다. 둘째, stable regions(예: 레이어 2-9 및 20+)에서는 중요도 순위가 일관되게 유지되므로 신뢰할 수 있는 pruning signals를 제공합니다.

위의 논의를 바탕으로, LLava-1.5-7B에서 레이어 1 이후와 레이어 20 이후에 vision tokens를 pruning하도록 선택합니다. 두 위치 모두 각 stable region의 시작을 의미하며, 안정적인 attention rankings에 의존하여 더 많은 FLOPs를 절약하기 위한 조기 pruning을 가능하게 합니다. 너무 많은 정보 토큰을 너무 일찍 제거하게 되는 레이어 1에서의 over-pruning을 방지하기 위해, 우리는 레이어 1과 20 사이에 추가적인 pruning location을 선택합니다. 이 단계는 대략 레이어 1과 20의 중간인 레이어 10에 배치되어, (1) 각 pruning이 효과를 발휘할 수 있는 충분한 깊이를 보장하고 (2) high-volatility band와의 간섭을 최소화합니다. 이 스케줄은 신중함과 효율성의 균형을 맞춥니다. 휴리스틱하거나 균일한 pruning schemes와 비교할 때, 본 접근 방식은 data-driven적이고 architecture-aware하며, 태스크와 데이터셋 전반에 걸쳐 잘 일반화되면서도 값비싼 hyperparameter tuning을 필요로 하지 않습니다.

3.3 DISCUSSION

선택된 pruning hyperparameters는 LLaVA-1.5-7B에 대한 경험적 관찰에서 비롯되었으므로, LLaMA-7B backbone을 기반으로 구축된 VLMs에 특히 맞춤화되어 있습니다. 그럼에도 불구하고, 제안하는 adaptive pruning schedule은 간단한 오프라인 attention shift analysis를 수행함으로써 다른 파라미터 규모나 아키텍처를 가진 다른 모델로 쉽게 전이될 수 있기 때문에 일반화 가능합니다. LLaVA-1.5-13B 및 Qwen2-VL-2B(Wang et al., 2024a)에 대한 추가 실험은 부록 C와 D에 제시되어 있습니다. attention shift distributions를 기반으로, 우리는 이후 실험을 위해 LLaVA-1.5-13B에서는 레이어 1, 11, 22를, Qwen2-VL-2B에서는 레이어 0, 9, 19를 pruning locations로 선택했습니다.

또한, 관찰 연구에 사용된 데이터셋 중 하나는 두 개의 주요 카테고리와 14개의 서브카테고리로 구성된 포괄적인 멀티모달 벤치마크인 MME입니다. 일관된 통계적 패턴은 attention dynamics가 대체로 안정적이며 서로 다른 유형의 multimodal tasks 전반에 걸쳐 전이 가능함을 나타냅니다.

4 EXPERIMENT

4.1 EXPERIMENTAL SETTINGS

4.1.1 DATASETS

멀티모달 평가를 위해 MME, GQA, MMBench (MMB), ScienceQA (SQA), TextVQA (TVQA), POPE 등 5개의 벤치마크를 사용했습니다. 또한 TGIF-QA, MSVD-QA, MSRVTT-QA 등 3개의 비디오 기반 벤치마크에서도 테스트를 진행했습니다.

4.1.2 BASELINES

FastV, ToMe, Pyramid Drop (PDrop), SparseVLM 등 4가지 최신 vision token sparsification 프레임워크를 비교 대상으로 선정했습니다.

4.1.3 IMPLEMENT DETAILS

공정한 비교를 위해 보존되는 token budgets을 128, 64, 48, 32개로 설정했습니다. 실험은 LLava-1.5-7B와 InternVL-chat-7B 두 가지 모델에서 수행되었습니다.

4.2 MAIN RESULTS

LLava-1.5-7B 실험 결과(Table 1), AdaptInfer는 128개와 64개 토큰 예산 모두에서 가장 높은 정확도를 기록했습니다. 특히 128개 토큰 예산에서 원본 모델 대비 97.5%의 성능을 유지했으며, 64개로 줄였을 때도 93.1%의 정확도를 지켜내며 SparseVLM보다 1.7% 높은 성능을 보였습니다. 64개 토큰 유지는 prefill token load를 88.9% 줄여 매우 효율적인 추론을 가능케 합니다. InternVL-Chat-7B에서도 유사하게 128개(97.7%), 64개(91.9%)의 높은 정확도 비율을 유지했으나, 32개로 극단적인 pruning을 할 경우 정보 손실로 인해 성능이 81.5%까지 하락함을 확인했습니다.

4.3 EVALUATION ON QWEN2-VL

이미지뿐만 아니라 비디오까지 지원하는 Qwen2-VL에서도 성능을 측정했습니다. AdaptInfer는 50%, 30%, 10%의 토큰 유지 비율 전반에서 SparseVLM과 대등하거나 능가하는 성능을 보였습니다. 흥미롭게도 50% 비율에서는 원본 모델보다 약간 더 나은 성능을 보이기도 했는데, 이는 불필요한 redundant visual tokens를 제거함으로써 noise가 줄어들어 QA 성능이 향상되었음을 시사합니다.

4.4 LATENCY TEST

NVIDIA RTX 4090 환경에서 실제 가속 성능을 측정한 결과(Table 4), AdaptInfer는 64개 토큰 예산에서 샘플당 33.0 ms의 CUDA latency를 기록했습니다. 이는 PDrop(34.5 ms)이나 SparseVLM(36.7 ms)보다 빠른 수치로, 추가적인 attention 계산이나 오프라인 매칭 단계가 없어 계산 부하가 거의 없기 때문입니다.

4.5 ABLATION STUDY

Dynamic Guidance의 필요성: 정적 가이드 방식인 SparseVLM과 비교했을 때, AdaptInfer는 48개 및 32개 토큰의 극단적인 상황에서도 훨씬 높은 성능을 유지하여 dynamic text guidance의 효과를 입증했습니다.
Pruning Hyperparameters: 관찰 기반의 스케줄링 전략을 균등, 단일 레이어, 무작위 레이어 방식과 비교한 결과, 제안한 스케줄이 LLaMa-7B backbone에서 최적임을 확인했습니다.

5 CONCLUSION

본 논문은 dynamic text-guided pruning을 통해 VLM 가속화를 위한 새로운 plug-and-play 솔루션인 AdaptInfer를 제안합니다. 나아가 cross-attention shifts에 대한 offline analysis를 제공하며, 이는 원칙적인 pruning schedule의 동기가 되었습니다. VLM acceleration plugin은 높은 정확도를 유지하면서 추가적인 computational overhead를 최소화합니다. 특히,

AdaptInfer는 실험에서 선택된 모든 token budgets 하에서 SOTA 정확도를 달성했습니다. 예를 들어, AdaptInfer는 레이어당 평균적으로 단 64개의 vision tokens만을 보존하면서도 LLaVA-1.5-7B에서 CUDA latency를 61.3% 줄이고 93.1%의 평균 정확도를 유지했습니다.

'Test-time Adaptation' 카테고리의 다른 글

AVA-VLA: IMPROVING VISION-LANGUAGE-ACTION MODELSWITH ACTIVE VISUAL ATTENTION (0)	2026.02.11
3D-CAVLA: Leveraging Depth and 3D Context to Generalize Vision–Language Action Models for Unseen Tasks (0)	2026.02.11
EfficientVLA: Training-Free Acceleration andCompression for Vision-Language-Action Models (0)	2026.02.03
VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching (0)	2026.01.28
LearnPruner: Rething Attention-based Token Pruning In Vision Language Models (1)	2026.01.24

Embodied AI in Robotics

ADAPTINFER: ADAPTIVE TOKEN PRUNING FOR VISION–LANGUAGE MODEL INFERENCE WITH DYNAMICAL TEXT GUIDANCE

ABSTRACT

1 INTRODUCTION