본문 바로가기

Test-time Adaptation

Attention Debiasing for Token Pruning inVision–Language Models

논문 주소 : https://arxiv.org/pdf/2508.17807v2
깃허브: https://github.com/intcomp/attention-bias

 

Abstract

Vision Language model은 일반적으로 text tokens보다 훨씬 더 많은 visual tokens를 인코딩하며, 이는 상당한 token redundancy를 초래합니다. 따라서 정보가 없는 visual tokenspruning하는 것은 computational efficiency를 향상시키는 데 필수적이며, language-to-vision attention은 이를 위한 중요도 기준으로 널리 사용되어 왔습니다.

 

그러나 본 연구에서는 VLMsattention이 체계적으로 편향(biased)되어 있음을 발견했습니다. 구체적으로, 시퀀스의 뒷부분에 나타나는 토큰을 불균형으로 선호하며(이미지 하단 영역에 대해 과도한 attention으로 나타남) 의미가 없는 padding tokens에 부풀려진 점수를 할당합니다. 이러한 동작은 LLMs 로 부터 상속된 고유한 recency biasattention sink effects에서 기인하며, 무관한 시각적 컨텐츠를 보존함으로써 attention-based pruning을 왜곡합니다.

 

 의미적 관련성과 더 잘 부합하는 pruning 기준을 도출하기 위해, attention의 신뢰성을 회복하는 두 가지 가볍고 효과적인 debiasing techniques를 도입합니다. 첫 번째는 recency-induced attention trends를 제거하여 위치 왜곡을 보정함으로써, content-aware하고, position-agnostic한 중요한 척도를 생성합니다. 두 번쨰는 padding tokens에 대한 spurious attention을 제거하여 attention sink effectis를 억제합니다. 

 

 본 연구의 방법은 model-agnostic, pruning-method-agnopstic, task-agnostic하며, 기존 VLM pruning모델들과 pulg-and-play 로 통합합니다. 단순함에도 불구하고, 본 연구의 접근 방식은 일관되게 강력한 성능 향상을 제공합니다. 이미지 및 비디오 기반 태스크를 아우르는 10개의 vision–language benchmarks에서, 7개의 state-of-the-art visual token pruning 방법들과 두 가지 대표적인 VLM architectures를 대상으로 우리의 방법을 평가했습니다. 우리의 방법은 일관되게 상당한 성능 향상을 달성하여 강력한 효과와 일반화 가능성을 입증했습니다.

 

I. INTRODUCTION

Vision-language models (VLMs)은 image captioning, visual question answering, complex visual reasoning을 포함한 광범위한 multimodal tasks 전반에 걸쳐 눈부신 발전을 이루었습니다. 그들의 강력한 cross-modal alignment와 확장 가능한 아키텍처는 연구 및 실제 응용 분야 모두에서 널리 채택될 수 있게 했습니다.이러한 진보에도 불구하고, VLMs는 여전히 높은 computational cost와 느린 inference로 인해 어려움을 겪고 있습니다. 주요 bottleneck은 방대한 수의 visual tokens에서 발생합니다. 대부분의 VLMs는 이미지와 텍스트를 별도로 인코딩한 다음, 그 토큰들을 LLM decoder에 입력하기 전에 결합합니다. 시각적 신호의 본질적인 중복성으로 인해, visual tokens은 text tokens보다 훨씬 더 많으며, 이는 상당한 computational overhead와 비효율적인 inference를 초래합니다.

 

이러한 overhead를 줄이기 위해, 최근 연구들은 텍스트 입력과 무관한 visual tokens를 제거하는 것을 목표로 하는 visual token pruning을 탐구합니다. 널리 사용되는 전략은 language-to-vision attention에 의존하는 것입니다. 즉, 더 높은 attention을 받는 visual tokens는 텍스트와 더 semantically aligned된 것으로 간주되는 반면, 낮은 attention을 받는 토큰은 성능에 미치는 영향을 최소화하면서 버려질 수 있습니다.

 

그러나 최근의 증거들은 LLMs가 비정상적인 attention 동작을 보인다는 점을 드러냅니다. 첫째, LLMs는 시퀀스의 뒷부분에 나타나는 토큰을 일관되게 선호하는 강력한 recency bias를 가진 것으로 알려져 있습니다. 이는 인간의 인지가 더 최근의 사건을 더 잘 기억하는 경향이 있다는 인지 및 심리학의 발견과 일치합니다. VLMs에서 recency bias이미지의 하단에 위치한 visual tokens에 불균형적으로 높은 attention이 가해지는 것으로 나타납니다. 둘째, attention sink 현상은 모델이 Begin-of-Sequence (BOS) token과 같이 의미적으로 비어 있는 토큰에 비정상적으로 큰 attention scores를 할당하게 만듭니다. 이는 VLMs에서도 동일한 문제가 나타나는 것을 관찰했습니다. decoder는 입력 이미지의 padding regions에 유효한 시각적 컨텐츠가 없음에도 불구하고 종종 부풀려진 attention을 할당합니다. recency biasattention sink 모두 language-to-vision attention을 왜곡하여, pruning 알고리즘이 정보가 없거나 텍스트와 무관한 visual tokens를 보존하게 만듭니다.

 

recency bias는 순차적 학습 데이터와 next-token prediction 목표로 인해 발생하는 LLMs의 보편적이고 본질적인 특성입니다 최근 연구를 보면, Rotary Positional Embedding(RoPE)의 영향을 약화시키거나 제거하는 것이 recency bias를 효과적으로 완화할 수 있음을 보여주었습니다. 그럼에도 불구하고, recency bias는 근본적으로 LLMs의 본질적인 모델링 및 최적화 특성에서 비롯되므로, positional encoding 체계를 수정하는 것만으로는 완전히 제거할 수 없습니다. VisPruner와 같은 또 다른 최근 연구를 보면 시각적 정보만을 사용하여 토큰을 pruning함으로 써 text-to-vision attentionrecency bias를 우회하려고 시도합니다. 그러나 이러한 접근 방식은 cross modal relevance를 무시하므로 언어 입력과 가장 관련이 깊은 visual tokens를 신뢰성있게 식별할 수 없습니다. 

 

이러한 attention biases를 해결하고 의미적 관련성과 더 잘 부합하는 pruning 기준을 도출하기 위해, 본 연구에서는 극도로 간단하면서도 매우 효과적인 두 가지 기술을 제안합니다. 첫째, recency bias를 제거하기 위해 대규모 데이터를 사용하여 attention의 위치적 경향을 통계적으로 모델링하고 지수적 recency-bias 함수를 구축합니다. 이 학습된 함수로 attention을 정규화함으로써, 위치에 관계없고 내용에 의존적인(position-agnostic, content-dependent) 중요도 기준을 얻습니다. 둘째, 이미지의 padding area에서 발생하는 attention sink를 제거하기 위해, padding visual tokensattention scores를 단순히 0으로 처리하여 pruning 과정에서 어떠한 padding region도 보존되지 않도록 보장합니다. 제안된 두 가지 debiasing 메커니즘을 통해, 본 방법은 language-to-vision attention의 신뢰성을 효과적으로 향상시키고 기존의 attention-based visual token pruning 방법들에 대해 일관된 성능 향상을 가져옵니다.

 

다양한 VLM architectures를 대상으로 한 10개의 이미지 기반 및 3개의 비디오 기반 vision–language benchmarks에 대한 광범위한 실험은, 우리의 접근 방식이 6개의 대표적인 attention-based visual token pruning 방법들을 일관되고 유의미하게 개선함을 입증합니다. 그림 1에 요약된 바와 같이, 우리의 debiasing 기술은 평가된 모든 pruning 방법에서 일관된 이득을 제공합니다. 전반적으로 우리의 방법은 다음과 같은 유리한 특성을 보입니다:

  • Simplicity and efficiency: 구현이 용이하며 추가적인 computational overhead가 거의 발생하지 않습니다.
  • Training-free and plug-and-play: 모듈에 재학습이 필요하지 않으며 기존의 임의의 attention-based pruning 방법들에 즉시 원활하게 통합될 수 있습니다.
  • Consistent effectiveness: 서로 다른 모델과 벤치마크에 걸쳐 기존 방법들보다 일관되고 실질적인 성능 향상을 제공합니다.

 

II. RELATED WORK

A. Large Vision-Language Models

Large vision-language models (VLMs)은 강력한 vision encoders와 대규모 언어 모델을 통합하여 다양한 태스크에서 멀티모달 추론을 가능하게 합니다. 강력한 성능에도 불구하고, VLMsvision encoders가 생성하는 방대한 수의 visual tokens로 인해 심각한 계산 비효율성을 겪고 있습니다. 텍스트와 달리 이미지는 수백 또는 수천 개의 패치 토큰으로 표현되는 경우가 많으며, 이는 cross-modal attention에서 상당한 quadratic complexity를 초래합니다.

 

 효율적인 transformer 설계를 위한 초기 노력은 주로 단일 모달 환경에서 토큰 중복 문제를 다루었습니다. Compressive TransformersFunnel-Transformer와 같은 방법들은 표현을 압축하여 시퀀스 길이를 줄였으며, 이는 깊은 transformer 레이어가 모든 토큰의 해상도를 필요로 하지 않는다는 것을 보여주었습니다. 시각 도메인에서는 DynamicViTSpViT가 많은 visual tokens가 최종 예측에 거의 기여하지 않으며 추론 중에 동적으로 제거될 수 있음을 보여주었습니다. ToMe와 같은 토큰 병합 방식은 중복된 토큰을 버리는 대신 병합할 수 있음을 밝혀내어 성능 저하를 최소화하면서 상당한 속도 향상을 달성했습니다. 이러한 관찰 결과는 멀티모달 추론에 맞춘 시각적 토큰 감소 연구를 촉발시켰으며, LLaVA와 같은 최근 모델들은 필수적인 의미 정보가 보존된다면 공격적인 토큰 압축이 가능하다는 것을 입증했습니다.

 

B. Visual-Token Reduction in VLMs

 초기 VLM 가속화 방법은 주로 모델 재학습이나 추가적인 학습 가능 모듈에 의존했습니다. 예를 들어, FastV는 학습된 중요도 예측기를 사용해 토큰을 제거하고, LLaVA-PruMerge는 추가 학습을 통해 어텐션 기반 선택과 토큰 병합을 결합합니다. 이와 유사하게 SparseVLM은 추론 중 토큰 수를 줄이기 위해 sparsification-aware training을 도입했습니다.

 

 대규모 모델의 재학습을 피하기 위해, 최근에는 training-free visual token pruning에 연구가 집중되고 있습니다. Fit-and-Prune은 모델 파라미터 수정 없이 어텐션 통계를 매칭하여 신속한 배포를 가능하게 하며, VTC-CLSvision encoder[CLS] token이 불필요한 토큰을 식별하는 충분한 전역 중요도 단서를 제공함을 보여주었습니다. HiREDEVIT 역시 추가 학습 없이 어텐션 패턴을 활용해 토큰 제거를 가이드합니다.

 

 일부 방법들은 language guidance를 통합하여 pruning 결정을 개선합니다. LVPruningcross-modal attention을 사용해 각 토큰의 텍스트 컨텍스트 기여도를 측정하며, IVTP는 시각적 saliency과 쿼리 관련성을 모두 고려한 instruction-aware pruning을 도입했습니다. ATP-LLaVA는 추론 중 상호작용에 따라 pruning 비율을 적응적으로 조정합니다.

 

 또 다른 연구 방향은 diversity-awarestructure-aware pruning을 강조합니다. DivPrune은 중복 정보 보유를 피하기 위해 토큰 선택을 다양성 최대화 문제로 공식화하며, KIND와 같은 그래프 기반 접근 방식은 토큰을 그래프 노드로 모델링하여 영향력 있는 토큰을 선택합니다. conditional diversity based pruning은 언어 쿼리에 조건화된 관련성과 다양성의 균형을 명시적으로 맞춥니다.

 

계층적 및 점진적 토큰 감소 전략도 탐구되었습니다. Conical visual concentration은 단계별로 토큰을 제거하며, Dynamic-LLaVAST3는 공간적 및 시간적 단서를 통합하여 이미지와 비디오 환경 모두에서 적응형 pruning을 지원합니다. 보완적인 방법으로, 극단적인 토큰 압축 방식들은 단 몇 개의 토큰만으로도 충분할 수 있음을 보여줍니다. LLaMA-VID는 각 프레임을 두 개의 토큰으로 압축하고, LLaVA-Mini는 단 하나의 토큰으로 시각 입력을 표현합니다.

 

전반적으로 VLMs의 시각적 토큰 감소 기술은 재학습 기반 방식에서 가볍고 training-free이며 plug-and-play가 가능한 전략으로 진화해 왔습니다. 하지만 기존 방법들은 LLMs 고유의 systematic attention biases를 간과하거나 우회하여, 어텐션 기반 pruning 기준을 잘못된 방향으로 이끌 수 있다는 한계가 있습니다.

 

III. METHODOLOGY

 본 연구의 방법은 attention 기반 visual token pruning에서 발생하는 두 가지 주요 편향인 recency biaspadding regions에서의 attention sink 문제를 해결하기 위해 각각 positional debiasingpadding attention suppression을 도입합니다.

 

A. Positional Debiasing

 

$a_i \in \mathbb{R}^+$를 $i$번째 visual token에 대한 언어 토큰의 attention 점수(여러 attention head의 평균)라고 합시다. 최근 연구들에 따르면, VLMs는 시퀀스 뒷 부분의 visual tokens 가 일관되게 더 높은 attention을 받는 강력한 recency bias를 보입니다. 이러한 편향은 단순히 위치 때문에 정보가 없는 토큰을 보존하게 함으로 써 pruning을 잘못된 방향으로 이끕니다.

 

내용과 무관한 positional bias ($b_i$)을 content-driven attention ($\hat{a}_i$)과 분리하기 위해, 본 연구에서는 어텐션 점수를 다음과 같이 분해합니다: 

여기서 $b_i$는 위치 편향을 포착하고 $\hat{a}_i$는 이상적인 content-driven attention 을 나타냅니다. 이 이상적인 어텐션은 더 신뢰할 수 있는 pruning 기준을 제공합니다.

 

단순한 접근 방식은 대규모 샘플에 대한 attention 점수를 평균을 내어 위치 편향 $b_i$를 추정하는 것입니다. $a_i^j$$j$번째 이미지의 어텐션이라고 합시다. 위치 편향은 내용과 무관하므로, 본 연구에서는 편향 항을 $N$개 이미지에 대한 평균 어텐션으로 추정합니다:

 

여기서 $N$은 이미지의 수입니다. 그러면 이상적인 어텐션은 다음과 같습니다:

 하지만 이러한 직접적인 정규화에는 두 가지 단점이 있습니다. 첫째, $\bar{a}_i$는 종종 노이즈가 많고 불안정합니다. 둘째, 고정된 수의 visual tokens에 묶여 있어 모델 간 적용 가능성이 제한됩니다.

 

 매끄럽고 길이에 구애받지 않는 위치 편향 표현을 얻기 위해, 본 연구에서는 attention trend에 지수 함수를 피팅합니다. 구체적으로, 우리는 다음과 같은 파라미터 곡선을 정의합니다:

여기서 $\mu$$\sigma$는 곡선 파라미터를 나타냅니다. 파라미터 $\sigma$VLM에서 recency bias의 강도를 수치화합니다. 

 

또한 최소제곱법을 통해 $(\mu, \sigma)$를 추정합니다:

 

여기서 $L$visual tokens의 수입니다. 피팅된 곡선은 다음과 같습니다:

이 곡선은 debiasing을 위한 분모 역할을 하며 다음과 같은 결과를 냅니다:

이 정규화는 내용과 무관한 recency bias를 제거합니다. 그림 2는 원본 평균 어텐션 $\bar{a}_i$, 피팅된 곡선 $f(i/L)$, 그리고 debiased attention $\hat{a}_i$를 시각화합니다.

 

B. Padding Attention Suppression

 최근 연구들은 LLMsBOS token이나 시각적 입력의 padding tokens 같이 의미적으로 무의미한 토큰에 불균형적으로 큰 어텐션을 할당하는 attention sink 현상을 식별했습니다. 이 효과를 제거하기 위해, 단순히 padding token의 점수를 0으로 만들어 attention을 억제합니다:

 

실제 적용 시에는 먼저 식 (6)을 사용하여 recency bias를 제거한 다음, 식 (7)을 통해 padding attention suppression을 적용합니다.

 

C. Discussion

 본 방법은 어텐션 기반 순위를 왜곡하는 recency bias와 패딩으로 인한 attention sinks를 명시적으로 다룸으로써, bias-aware 관점에서 어텐션 기반 visual token pruning을 재검토합니다. content-agnostic positional effects를 content-dependent attention으로부터 분리함으로써, 접근 방식은 더 신뢰할 수 있고 해석 가능한 pruning 신호를 제공합니다. 중요한 점은, 제안된 debiasing 연산들이 가볍고, 재학습이 필요 없으며(training-free), 기존의 어텐션 기반 pruning 파이프라인에 원활하게 통합될 수 있다는 것입니다.

 

IV. EXPERIMENTS

 본 섹션에서는 LVPruning이 다양한 ranking signalspruning schemes에서 얼마나 효과적인지, 그리고 모델 규모(LLaVA-v1.5 7B/13B)와 모달리티(이미지/비디오)에 걸쳐 얼마나 견고한지 검증합니다. 또한 Positional DebiasingPadding Attention Suppression의 개별 기여도를 분석합니다.

 

A. Baseline Pruning Methods

본 연구에서는 FastV, PyramidDrop, HiMAP, SparseVLM, TokenCarve, iLLaVA 등 6개의 대표적인 어텐션 기반 시각 토큰 pruning 방법을 베이스라인으로 선정했습니다. 이들은 어텐션 상호작용을 통해 토큰 순위를 매기고 하위 토큰을 제거하여 계산 비용을 줄이는 공통 패러다임을 공유합니다. 이들의 기본 구조는 유지한 채 우리의 debiasing 기술만 적용하여 효과를 측정했습니다.

 

B. Image Understanding Tasks (RQ1)

 

 

  • Datasets: VQAv2, GQA, VizWiz, ScienceQA-Image, POPE 등 총 10개의 벤치마크를 통해 지각, 추론, 멀티모달 대화 능력을 포괄적으로 평가했습니다.
  • Quantitative Results: 128개의 시각 토큰만 사용하는 제한된 환경에서, 본 연구의 방법은 모든 베이스라인의 성능을 일관되게 향상시켰습니다. LLaVA-v1.5-7B에서 FastV에 적용 시 정확도가 59.6에서 62.5로 상승했으며, 13B 모델에서도 유사한 성능 향상을 보였습니다.
  • Qualitative Results: 기존 방식은 이미지 하단이나 패딩 영역의 무의미한 토큰을 보존하는 경향이 있으나, 본 연구의 방법은 이를 억제하고 세밀하고 의미 있게 관련된 정보(예: 자 위의 숫자 패치)를 정확히 보존합니다.

C. Video Understanding (RQ2)

 비디오 영역에서도 TGIF-QA, MSVD-QA, MSR-VTT-QA 벤치마크를 통해 검증했습니다. Video-LLaVA 프레임워크에 통합한 결과, FastV의 평균 정확도가 57.3%에서 57.9%로, GPT score가 3.54에서 3.58로 상승하는 등 제한된 토큰 예산 내에서도 유효성을 입증했습니다.

 

D. Ablation Study (RQ3)

 

  • Debiasing 효과: Positional Debiasing(PD)과 Padding Attention Suppression(PAS)을 개별적으로 적용했을 때보다, 두 방법을 결합했을 때 FastVPyramidDrop 모두에서 가장 높은 성능 향상을 보였습니다.
  • 모델링 전략 및 positional bias trend: 단순 평균 어텐션을 사용하는 것보다, 우리가 제안한 매끄러운 exponential function 피팅 방식이 노이즈를 줄이고 더 신뢰할 수 있는 편향 추정치를 제공하여 성능이 더 좋았습니다.
  • 토큰 수 및 레이어: 토큰 유지 예산이 적어질수록(공격적인 pruning) 우리의 방법이 제공하는 성능 이득이 더 두드러졌으며, 다양한 레이어에서 pruning을 수행해도 안정적인 개선을 보여주었습니다.

 

E. Attention Bias in Visual Token Pruning

  • Recency Bias: 모든 베이스라인 방식은 내용과 무관하게 시퀀스 후반부(이미지 하단) 토큰을 선호하는 체계적인 편향을 보였습니다. 본 방법은 이 편향 강도($\sigma$)를 0에 가깝게 대폭 줄여 잘못된 토큰 선택을 방지합니다.
  • RoPE의 영향: 단순히 RoPE를 제거하는 방식은 일관된 개선을 보여주지 못한 반면, attention signal 교정 방식은 모든 벤치마크에서 우수한 성능을 보였습니다.
  • Padding-Induced Attention Sink: 패딩 영역은 의미가 없음에도 불구하고 특정 차원에서 비정상적으로 큰 활성화를 보이며 어텐션 점수를 왜곡합니다. 이는 패딩 모드(Mean, Constant 등)를 바꾼다고 해결되지 않으며,  padding-aware filtering을 통해 직접 제거해야만 실질적인 정확도 향상(62.0 -> 64.2)을 얻을 수 있습니다.

V. CONCLUSION

  본 연구에서 우리는 attention bias의 관점을 통해 vision–language models에서의 visual token pruning을 재검토합니다.  일반적으로 사용되는 attention 기반 pruning 신호가 대규모 언어 모델로부터 상속된 두 가지 고유한 효과에 의해 체계적으로 왜곡된다는 것을 보여줍니다. 하나는 나중에 나오는 visual tokens를 과도하게 선호하는 recency bias이며, 다른 하나는 의미적으로 비어 있는 padding tokens에 부풀려진 점수를 할당하는 attention sink 동작입니다. attention을 더 신뢰할 수 있는 pruning 기준으로 복원하기 위해, 단 몇 줄의 코드만으로 기존 pruning 프레임워크에 삽입할 수 있는 두 가지 가볍고 재학습이 필요 없는 debiasing 기술인 positional debiasingpadding-aware attention suppression을 제안합니다. 10개의 이미지 벤치마크와 3개의 비디오 벤치마크에 대한 광범위한 실험은 고정된 토큰 예산 하에서 6개의 대표적인 어텐션 기반 pruning 방법들에 걸쳐 일관된 성능 향상을 입증합니다.

 

 본 연구의 방법에는 한계가 있습니다. Padding-aware suppression은 패딩을 명시적으로 도입하는 인코더에만 적용됩니다. 패딩이 없거나 다르게 토큰화된 아키텍처는 이 구성 요소로부터 직접적인 이득을 얻을 수 없습니다. 더욱이, 본 접근 방식은 이러한 현상의 근본적인 원인을 완전히 제거하기보다는 추론 중에 편향된 어텐션 신호를 완화하는 방식입니다. Recency biasattention sinks는 대규모 언어 모델의 근본적인 모델링 및 최적화 특성에서 비롯되며, 어텐션 점수를 수정하는 것이 표현이나 동역학에서의 잠재적인 편향을 완전히 해결하지는 못합니다. 향후 연구에서는 attention bias를 보다 근본적으로 해결하기 위해 더 원칙적이고 아키텍처에 구애받지 않는 debiasing 및 학습 단계의 전략을 탐구할 수 있을 것입니다.