Vision-Language Action Models : Concepts, Progress, Applications and Challenges--(2)

SeohyunKim_2 2025. 6. 30. 15:31

이어서 작성합니다.

2.2. Multimodal Integration: From Isolated Pipelines to Uni fied Agents

VLA 모델 출현의 핵심적인 진보는, 통합된 아키텍처 내에서 비전, 언어, 액션을 공동 처리하는 Multimodal 통합 능력에 있습니다. 전통적인 로봇 시스템은 지각, 자연어 이해, 제어를 별개의 모듈로 처리하며, 주로 수동 정의된 인터페이스나 데이터 변환을 통해 연결되었습니다. 예를 들어, 고전적 파이프라인에서는 지각 모델이 상징적 레이블을 출력하고, 이는 플래너가 액션으로 매핑하는 구조였으며, domain-specific hand engineering에 크게 의존했습니다. 이 방식은 적응성이 부족하고, 새로운 환경이나 모호한 상황에 취약했으며, 정해진 템플릿을 넘는 일반화가 어려웠습니다.

이와 대조적으로, 현대 VLA는 대규모 사전 훈련된 인코더와 Transformer 기반 아키텍처를 활용하여 end-to-end 모달리티 융합을 구현합니다. 이로 인해 모델은 동일한 계산 공간에서 시각적 관찰과 언어 지시를 함께 해석할 수 있어 유연하고 문맥 기반 reasoning이 가능해집니다.
예를 들어 “빨갛게 잘 익은 사과를 집어라”라는 지시에서,

Vision encoder (예: ViT, ConvNeXt)는 장면 속 객체의 색상과 익음 정도를 분석했습니다.
언어 모델 (예: T5, GPT, BERT 변형)은 지시를 고차원 임베딩으로 인코딩합니다.

이 임베딩들은 cross-attention 또는 joint tokenization을 통해 통합된 latent space를 형성하여 action policy에 정보를 제공합니다.

이러한 multimodal 시너지는 CLIPort에서 처음으로 효과적으로 구현되었습니다. CLIPort는 CLIP 임베딩을 semantic grounding에 활용하고, convolutional decoder를 통해 픽셀 수준 조작을 수행하며, 언어 구문 분석 없이 자연어를 visuomotor 정책에 직접 연결했습니다.
또한 VIMA는 object-centric visual token과 지시 토큰을 함께 처리하는 Transformer encoder를 통해, few-shot spatial reasoning generalization을 실현하며 이 방식을 확장했습니다.

최근 연구는 temporal 및 spatial grounding을 통합하여 fusion 구조를 더욱 진전시켰습니다.

VoxPoser는 3D 객체 선택의 모호성을 voxel 기반 추론으로 해결습니다.
RT-2는 vision-language tokens를 transformer에 통합하여 zero-shot instruction generalization을 가능케 했습니다.
Octo는 메모리 확장형 transformer를 통해 다양한 장면에서 long-horizon decision-making을 수행하며, 지각-언어-행동 공동 학습의 확장 가능성을 입증했습니다.

결과적으로, VLA는 현실 기반 grounding 문제에 대한 강력한 해결책을 제공합니다.
예를 들어,

Occllama는 attention 기반 메커니즘으로 partial observability를 처리
ShowUI는 자연어 기반 인터페이스를 통해 비전문가 사용자도 음성 또는 키보드 입력으로 에이전트를 제어할 수 있게 합니다.

이러한 기능은 단순한 표면 수준 fusion이 아니라, semantic, spatial, temporal alignment 전반에 걸친 깊이 있는 통합 덕분에 가능합니다.

2.3. Tokenization and Representation: How VLAs Encode the World

VLA 모델이 기존 Vision-Language 아키텍처와 차별화되는 핵심 혁신은, perceptual, 언어적, 물리적 action space에 대한holistic reasoning을 가능하게 하는 token 기반 representation framework에 있습니다.

Transformer와 같은 autoregressive generative models에서 영감을 받아, 현대 VLA는 비전, 언어, 상태, 액션 등의 다양한 모달리티를 공유된 embedding space 내의 discrete tokens으로 표현하여 세계를 인코딩합니다.

이로써 모델은

"무엇을 해야 하는지"에 대한 semantic reasoning
"어떻게 해야 하는지"에 대한 control policy execution

위 두가지를 완전히 학습 가능하고 조합적인(compositional) 방식으로 이해할 수 있게 됩니다.

Prefix Tokens: Encoding Context and Instruction: Context 및 prefix token은 context backbone 역할을 하며, 환경 장면(이미지 또는 비디오)과 함께 제공되는 자연어 지시를 모델 내부 표현에 프라이밍하는 compact embedding으로 인코딩됩니다. 예를 들어, 그림 7에 묘사된 "녹색 블록을 빨간색 쟁반 위에 쌓아라"라는 테스크에서는,
- 비전 입력은 ViT 또는 ConvNeXt와 같은 vision encoder를 통해 어수선한 테이블 상판을 처리
- 자연어 지시는 T5 또는 LLaMA 같은 대규모 언어 모델로 embedding 됩니다.
이 두 입력은 prefix token 시퀀스로 변환되어, 모델이 과제 목표와 환경 레이아웃에 대한 초기 이해를 형성합니다.
이러한 shared representation은 cross-modal grounding을 가능하게 하여, 시스템이
- 공간 참조(예: "왼쪽에", "파란 컵 옆에")와
- 객체 의미론(예: "녹색 블록")을 비전과 언어 양쪽 모달리티에서 처리할 수 있게 합니다.
State Tokens: Embedding the Robot’s Configuration: VLA는 외부 자극을 지각하는 것뿐 아니라, 로봇의 내부 물리적 상태를 인식해야 합니다. 이를 위해 joint 위치, force-torque 센서 값, gripper 상태, end-effector pose, 그리고 주변 객체의 위치 같은 정보를 state token으로 실시간 인코딩합니다. 이러한 토큰은 상황 인식과 안전 확보, 특히 manipulation이나 locomotion 작업에서 중요합니다.

그림 8은 VLA 모델이 조작 및 내비게이션 설정에서 state token을 활용하여 동적이고 문맥을 반영한 의사결정을 수행하는 방식을 보여줍니다. 예를 들어, 그림 8a의 시나리오에서는 깨지기 쉬운 물체 근처에서 부분적으로 확장된 로봇 팔이 나타나며, 이때 state token은 joint angle, gripper pose, end-effector 근접도 같은 proprioceptive 정보를 인코딩하여 Transformer가 물리적 제약에 기반한 추론을 하도록 도와줍니다. 이로 인해 모델은 충돌 위험을 인식하고, 팔 궤적을 재조정하거나 힘 출력을 조절하는 등의 적절한 행동을 생성할 수 있습니다.

또한 그림 8b의 모바일 로봇 플랫폼에서는 odometry, LiDAR, 관성 센서 데이터 등이 state token으로 표현되며, 이는 지형 인식 기반 이동과 장애물 회피에 핵심적입니다. Transformer는 이 상태 표현을 환경 및 언어 지시와 통합하여, 변화하는 환경에 적응하는 내비게이션 액션을 생성합니다.

결과적으로, state token은 로봇의 내부 구성과 외부 감각 정보를 통합하는 구조화된 표현을 제공하며, autoregressive decoder가 이를 바탕으로 정확하고 문맥에 부합하는 액션 시퀀스를 생성할 수 있게 합니다.
Action Tokens: Autoregressive Control Generation: VLA 토큰 파이프라인의 최종 계층에는 Action Token이 포함되며, 이는 motor control의 다음 단계를 나타내기 위해 모델에 의해 autoregressive하게 생성됩니다. 각 토큰은 joint angle updates, torque values, wheel velocities, 또는 high-level movement primitives와 같은 low-level control signals에 해당합니다.

Inference 동안 모델은 Prefix Token과 State Token을 기반으로 이러한 토큰을 한 번에 한 단계씩 decoding하여, VLA 모델을 효과적인 language-driven policy generator로 만듭니다. 이 방식은 실제 actuation system과의 원활한 통합을 가능하게 하며, 가변 길이의 action sequence를 지원하고, reinforcement learning 또는 imitation learning 프레임워크를 통한 fine-tuning을 가능하게 합니다. 특히 RT-2와 PaLM-E 같은 모델은 perception, instruction, 그리고 embodiment가 통합된 token stream 구조를 보여줍니다.

예를 들어, 그림 9에 묘사된 사과 따기 task에서는 모델이 과수원의 이미지와 텍스트 지시로 구성된 Prefix Token을 받고, 로봇의 현재 팔 자세와 gripper 상태를 담은 State Token과 함께 처리합니다. Action Token은 로봇 팔을 사과 쪽으로 유도하고, gripper의 orientation을 조정, 적절한 force로 grasp하기 위해 단계적으로 예측됩니다. 이 접근 방식의 장점은, 전통적으로 text generation에 사용되던 Transformer가 이제 문장을 생성하듯이 물리적 action sequence를 생성할 수 있다는 것입니다 — 여기서 문장은 곧 movement입니다.

로 로봇 공학에서 VLA 패러다임을 operationalize하기 위해 , 그림 9에서 multimodal 정보—특히 vision, language, 그리고 proprioceptive state—가 어떻게 encoding, fusion, 그리고 실행 가능한 action sequence로 변환되는지를 보여주는 구조화된 파이프라인을 제시합니다.

이 end-to-end loop는 로봇이 “초록색 잎 근처의 잘 익은 사과를 집어라”와 같은 복잡하고 context-sensitive한 task를 해석하고 정밀한 manipulation을 실행할 수 있도록 합니다. 시 시스템은 multimodal input acquisition으로 시작하며, 여기서 세 가지 독립적인 데이터 스트림이 수집됩니다:

시각적 관찰 (예: RGB-D frame),
자연어 명령,
실시간 로봇 상태 정보 (예: joint angle 또는 velocity).

이들은 pretrained modules 를 사용하여 각각 independently discrete embeddings로 tokenized됩니다. 다이어그램에 나타난 바와 같이, 이미지는 Vision Transformer (ViT) 백본을 통해 처리되어 vision tokens을 생성하고 , 지시는 BERT 또는 T5와 같은 language model에 의해 구문 분석되어 language tokens으로 변환되며, , 상태 입력은 lightweight MLP encoder를 통해 compact state tokens으로 변환됩니다.

구체적으로 구현 세부 정보를 제공하기 위해 Algorithm 1은 VLA tokenization process를 형식화합니다. RGB-D 프레임 $I$, 자연어 지시 $T$, 그리고 joint angle vector $\theta$가 주어졌을 때, 알고리즘은 순차적으로 실행 가능한 set of action tokens을 생성합니다.

이미지 $I$는 ViT를 통해 처리되어 400개의 vision tokens $V$를 생성
지시 $T$는 BERT에 의해 인코딩되어 12개의 language tokens $L$을 생성
로봇 상태 $\theta$는 multilayer perceptron (MLP)을 통해 64차원 state embedding $S$로 변환됩니다.

이러한 토큰은 cross-attention module을 통해 융합되며, grounded action에 필요한 의미론, 의도, 상황 인식을 포착하는 공유 512차원 표현 $F$를 생성합니다. 이후, policy decoder(예: FAST)는 이 fused features $F$를 50개의 discrete action tokens으로 매핑하며, 이는 최종 motor commands $\tau_{1:N}$으로 detokenizing되어 실행됩니다.

Decoding process는 Action Prediction Code라는 pseudocode 예시에서 보여지듯, Transformer 기반 아키텍처로 구현됩니다. 이 Transformer는 12개의 게층, 512차원의 model dimension, 8개의 attention heads로 초기화 되며, fused token을 입력 받아 이전 토큰과 context를 기반으로 다음 action token을 autoregressively 예측합니다. 최종 motor trajectory는 이 output을 detokenizing하여 얻습니다. 이 구현 방식은 대규모 언어 모델의 text generation 방식과 유사하지만, 여기서 문장은 곧 motion trajectory이며, 물리적 행동 생성을 위한 자연어 생성 기술의 전환적 적용입니다.

종합적으로, Figure 9, Algorithm 1, 그리고 pseudocode는 perception, instruction, embodiment가 어떻게 일관되고 해석 가능한 token space 내에서 통합되는지를 보여줍니다. 이러한 modularity는 프레임워크가 다양한 task와 robot morphologies 전반에서 일반화 가능하게 하며, 예를 들어 사과 따기, 가사 작업, mobile navigation 등의 실제 응용에 빠른 배포를 가능하게 합니다.

또한, tokenization steps의 명확한 분리 구조는

token learning,
hierarchical planning,
symbolic grounding과 같은 후속 연구 주제에 확장성을 제공합니다.

2.4. Learning Paradigms: Data Sources and Training Strategies

VLA 모델을 훈련하기 위해서는 웹 기반의 semantic knowledge와 로봇 공학 데이터셋의 task-centric 정보를 통합하는 hybrid learning paradigm이 필요합니다. 앞서 설명한 것처럼, VLA의 multimodal architecture는 language understanding, visual perception, motor control을 지원하기 위해 다양한 형태의 데이터에 노출되어야 합니다. 이는 주로 두 가지 핵심 데이터 소스를 통해 이루어집니다.

첫째, 그림 10에서처럼, 대규모 internet-derived corpora는 VLA 모델의 semantic prior를 형성합니다.

이미지-캡션 쌍 (예: COCO, LAION-400M),
지시 따르기 데이터셋 (예: HowTo100M, WebVid),
시각 질문-응답 데이터셋 (예: VQA, GQA) 등이 포함됩니다.

이러한 데이터는 vision-language encoder의 pretraining에 사용되며, object, action, concept에 대한 일반적 표현 학습을 돕습니다. 주로 contrastive learning, language modeling losses, masked modeling objectives 등을 활용해 공유 embedding space에서 vision과 language를 정렬합니다. 이 과정은 compositional generalization, object grounding, zero-shot transfer를 가능하게 하는 기반을 제공합니다.

둘째, semantic understanding만으로는 physical task execution에 불충분하므로, embodied experience에서의 학습이 필요합니다. 실제 로봇이나 high-fidelity simulator에서 수집된 데이터셋을 사용해, language와 perception이 action으로 변환되는 방식을 학습합니다.
대표적인 데이터셋으로는 RoboNet, BridgeData, RT-X 등이 있으며, 이들은 language-command paired videos, joint trajectories, environment interactions를 제공합니다. 데이터 수집 방식은 kinesthetic teaching, teleoperation, 또는 scripted policies를 통해 이루어지며, 학습은 주로

behavior cloning,
reinforcement learning (RL),
imitation learning 등으로 구성됩니다.

이때 policy decoder는 fused visual-language-state embeddings로부터 action token을 예측하도록 훈련됩니다.

최근에는 multitask training이나 curriculum learning을 적용해 masked language modeling으로 pretrain한 뒤, autoregressive token-level loss로 robot demonstration에 fine-tuning하는 전략이 사용됩니다. 예를 들어,

Push object → Multi-step manipulation 순서로 훈련
OpenVLA 및 sim-to-real transfer 기반 domain adaptation으로 실제 환경과 synthetic 데이터의 간극을 해소

이러한 방식은 semantic prior와 task grounding data를 함께 사용하여, VLA가 task, domain, embodiment 전반에 걸쳐 robust generalization을 달성하도록 합니다.

또한, co-fine-tuning을 통해 다양한 데이터 소스를 정렬하며 VLA는 visual-language inputs → action sequence로 매핑하는 방식을 학습합니다. 이 과정은 다음과 같습니다:

object affordance 이해 (예: 사과는 잡을 수 있다),
action outcomes 예측 (예: 들어 올리기엔 힘과 trajectory가 필요)

이를 토대로 로봇의 능력을 향상시키며, 새로운 시나리오로의 일반화도 가능하게 합니다. 주방 manipulation task로 학습된 모델이 야외 과수원에서 사과 따기를 수행할 수 있는 것은 localization, grasping, language-following의 공통 원리를 학습했기 때문입니다.

마지막으로, Google DeepMind의 RT-2 (Robotic Transformer 2)는 이러한 원리를 실증합니다.
RT-2는 action generation을 text generation처럼 처리하며, 각 action token은 로봇 제어 공간의 discrete command에 해당합니다.

이 모델은 web-scale multimodal data와 수천 개의 robot demonstrations로 훈련되어, 새로운 명령어를 유연하게 해석하고, 새로운 객체 및 task에 zero-shot generalization을 수행할 수 있습니다—이는 기존 제어 시스템이나 초기 multimodal 모델로는 불가능했던 성능입니다.

2.5. Adaptive Control and Real-Time Execution

VLA의 또 다른 강점은 센서로부터 실시간 피드백을 사용하여 동작을 즉시 조정하는 adaptive control 능력에 있습니다. 이 능력은 과수원, 가정, 병원과 같이 예상치 못한 변화(예: 바람에 의해 사과가 움직이거나, 조명 변화, 사람의 등장 등)가 task parameter를 바꾸는 동적이고 비정형적인 환경에서 특히 중요합니다.

Execution 중, state token은 sensor input 및 joint feedback을 반영하여 실시간으로 업데이트되며, 이에 따라 모델은 계획된 action을 즉시 수정할 수 있습니다. 예를 들어, 사과 따기 시나리오에서 목표 사과가 약간 움직이거나, 다른 사과가 시야에 들어오는 경우, 모델은 장면을 동적으로 재해석하고 grasp trajectory를 조정합니다. 이러한 능력은 인간과 유사한 적응력을 모방하며,
전통적인 pipeline 기반 로봇 시스템에 비해 VLA 시스템의 핵심적 장점 중 하나로 평가됩니다.

3. Progress in Vision-Language-Action Models

VLA 모델의 시작은 2022년 11월 ChatGPT와 같은 Transformer-based LLM의 전례 없는 semantic reasoning 능력에서 촉발되었습니다. 이러한 성공은 연구자들이 언어 모델을 멀티모달 도메인으로 확장하여 로봇 공학에서 perception과 action을 통합하도록 자극했습니다. 2023년 GPT-4는 multimodal capabilities(텍스트 + 이미지)을 도입했으며 이는 물리적 액션 통합 시도를 가속했습니다. 동시에 CLIP·Flamingo(2022) 같은 VLM은 contrastive learning으로 강력한 visual-text alignment를 확립, zero-shot object recognition을 가능케 하여 VLA의 기반을 마련했습니다.

또 다른 전환점은 RT-1의 130 k 로봇 demonstrations로, vision-language-action components를 joint training하는 데 필수적인 action-grounding data를 제공했습니다 이어 Google RT-2 는 vision, language, action tokens을 통합하고 로봇 제어를 autoregressive sequence prediction task로 취급하는 획기적 VLA 아키텍처를 제시했습니다. RT-2는 DCT 압축과 BPE를 사용해 action을 discretized하여 새 객체에서 63 % 성능 향상을 달성했습니다. Cross-attention transformers 기반 multimodal fusion은 ViT(400 patch tokens)로 처리된 이미지와 language embeddings를 결합해 “그릇 왼쪽에 있는 빨간 컵을 집어라” 같은 복잡한 명령을 실행할 수 있게 했습니다.

또한 UC Berkeley Octo(2023)는 OpenX-Embodiment 데이터셋의 800 k demonstrations로 학습된 93 M parameters와 diffusion decoders를 제공하는 open-source 접근을 도입, 연구 범위를 더욱 확장했습니다.

3.1. Architectural Innovations in VLA Models

2023년부터 2024년까지 Vision-Language-Action(VLA) 모델은 상당한 아키텍처적 발전과 정교한 훈련 전략의 진화를 겪었습니다.

가장 두드러진 혁신 중 하나는 Dual-system architectures로, 대표적으로 NVIDIA의 Groot N1 (2025)이 있습니다. 이 구조는 저수준 제어를 담당하는 System 1(10ms 지연 시간의 확산 정책)과, 고수준 작업 분해(task decomposition)를 수행하는 System 2(LLM 기반 플래너)로 구성됩니다. 이러한 분리 구조는 전략적 계획과 실시간 제어 간의 효율적 조율을 가능하게 하여 동적인 환경에서의 적응력을 크게 향상시켰습니다.

또한, Stanford의 OpenVLA (2024) 는 970,000개의 실제 로봇 시연으로 학습된 7B 파라미터의 오픈소스 VLA 모델을 도입했습니다. 이 모델은 DINOv2 및 SigLIP의 듀얼 비전 인코더와 Llama 2 언어 모델을 결합하였으며, RT-2-X (55B)와 같은 훨씬 더 큰 모델보다도 우수한 성능을 보여주었습니다.

학습 패러다임 역시 진화했습니다. LAION-5B와 같은 웹 스케일 비전-언어 데이터와 RT-X 같은 로봇 궤적 데이터셋에 대한 co-fine-tuning방식이 등장하여, 모델의 의미론적 지식을 물리적 제약 조건과 효과적으로 정렬시킬 수 있게 되었습니다.

데이터 부족 문제를 해결하기 위해, UniSim같은 합성 데이터 생성 도구가 도입되어 가려진 객체나 복잡한 장면 등을 포함한 사실적인 시나리오를 생성함으로써 강건한 학습을 가능하게 했습니다.

또한, LoRA (Low-Rank Adaptation)를 통해 파라미터 효율성도 크게 향상되었습니다. LoRA는 전체 모델을 재학습하지 않고도 도메인 적응을 가능하게 하며, GPU 사용 시간을 최대 70%까지 절감시킬 수 있습니다.

Physical Intelligence의 pi 0 모델 (2024)은 diffusion-based policies을 도입함으로써 action diversity을 향상시켰지만, 그만큼 높은 계산 자원을 요구하기도 했습니다.

이러한 일련의 발전은 VLA 기술의 민주화, 연구 협업의 활성화, 그리고 혁신의 가속화로 이어졌습니다.

최근의 VLA 모델들은 효율성, 모듈성, 그리고 강건성을 균형 있게 만족시키는 세 가지 주요 아키텍처 패러다임으로 수렴하고 있습니다:

Early Fusion Models
Dual-System Architectures
Self-Correcting Frameworks

이러한 각각의 혁신은 실제 로봇 시스템에서 object grounding, generalization, 그리고 action reliability과 관련된 핵심 과제를 해결하는 데 중점을 두고 있습니다.

1. Early Fusion Models

이 접근 방식은 policy module 로 전달되기 전, 입력 단계에서 비전 및 언어 표현의 융합에 중점을 둡니다. ICLR 2025에서 발표된 Huang 등의 EF-VLA 모델 은 CLIP 이 정립한 표현 정렬(representational alignment) 유지하면서 이러한 흐름을 대표합니다. EF-VLA는 이미지-텍스트 쌍을 CLIP의 고정된 인코더(frozen encoders) 로 각각 인코딩하고, 생성된 embeddings transformer backbone 의 초반부에서 융합하여 액션을 예측합니다.

이 설계는 CLIP의 사전학습으로 형성된 semantic consistency을 유지함으로써 overfitting을 방지하고 일반화 성능을 향상시킵니다. 실제로 EF-VLA는 구성적 조작 태스크(compositional manipulation tasks)에서 20% 성능 향상, 보지 못한 목표 설명에 대해 85% 성공률을 기록했습니다. 또한 비전-언어 모듈을 미세 조정하지 않음으로써, 계산 효율성을 확보하고 catastrophic forgetting을 방지합니다.

2. Dual-System Architectures

인간 인지 이론의 dual-process theories에 영감을 받은 NVIDIA의 Groot N1 (2025)은 System 1과 System 2, 두 가지 상호 보완적인 서브시스템을 구현합니다.

System 1은 10ms 지연 시간(latency)을 가진 diffusion-based control policy으로 작동하며,end-effector stabilization, adaptive grasping 등 정밀하고 빠른 저수준 제어를 담당합니다.
System 2는 LLM을 활용해 고수준 Task planning, skill composition, high-level sequencing을 담당합니다.

System 2는 장기 목표(예: “테이블 정리”)를 atomic subtasks로 분해하고, System 1은 이를 기반으로 실시간 제어를 수행합니다. 이 구조는 multi-timescale reasoning을 가능하게 하며, 빠른 반응성과 고차원적 사고를 동시에 요구하는 환경에서 특히 효과적입니다.

실제로 다단계 가정 조작 태스크에서 Groot N1은monolithic models보다 17% 더 높은 성공률을 기록했으며, 충돌로 인한 실패율도 28% 감소시켰습니다.

3. Self-Correcting Frameworks

세 번째 아키텍처 혁신은 외부 감독 없이 실패를 감지하고 복구하는 자기-수정 VLA 모델의 개발입니다. 대표적으로 SC-VLA (2024)는 빠른 inference path와 느린 correction path로 구성된 hybrid execution loop를 도입합니다.

기본 동작은 경량 Transformer를 사용하여 fused embeddings으로부터 포즈 및 액션을 직접 예측합니다. 실패가 감지되면(예: 잡기 실패, 충돌 등), 모델은 Chain-of-Thought reasoning을 수행하는correction path를 활성화합니다. 이때 내부 LLM 또는 외부 전문가 시스템에 쿼리를 보내어 실패 원인을 진단하고 수정 전략을 생성합니다 [48].

예를 들어, 로봇이 가려진 객체를 반복적으로 잘못 인식하는 경우, LLM은 시점 변경(active viewpoint change) 또는 그리퍼 방향 수정(gripper reorientation) 등을 제안할 수 있습니다.

이러한 구조는 closed-loop experiments에서 태스크 실패율을 35% 감소시키고, 복잡하거나 적대적인 환경에서 복구 성공률을 크게 향상시켰습니다.

low-level policy의 강조는 확산 기반 컨트롤러(예: Pi-0, DexGraspVLA )에 의해 대표되며, 이는 부드럽고 다양한 모션 분포를 생성하는 데 탁월하지만, 상대적으로 높은 계산 비용이 수반됩니다. 이에 반해 고수준 플래너(예: FAST Pi-0 Fast, CoVLA)는 빠른 하위 목표(subgoal) 생성 또는 coarse trajectory prediction에 중점을 두고 있으며, 세부적인 제어는 전문화된 모듈 또는 기존 모션 플래너에 위임합니다. HybridVLA 및 Helix와 같은 end-to-end 듀얼-시스템 모델은 modular interpretability을 유지한 채 두 구성 요소를 공동 학습함으로써 이러한 구분을 점차 흐리고 있습니다.

표 1은 최근 VLA 모델들이 이러한 trade-off을 어떻게 조율하고 있는지를 체계적으로 보여줍니다. 예컨대, OpenDriveVLA 및 CombatVLA 와 같은 시스템은 동적이고 안전이 중요한 도메인에서의 hierarchical planning을 우선시하는 반면, Edge VLA 및 TinyVLA는 고수준 추론 능력을 일부 희생하더라도 실시간 저수준 정책 실행을 중시하는 경량 edge 중심 설계로 구성되어 있습니다. 이러한 분류 프레임워크는 단순히 VLA 설계 공간을 분류하는 데 그치지 않고, 완전히 end-to-end 이면서 embedded deployment에 최적화된 계층형 구조 등 충분히 탐색되지 않은 조합을 식별함으로써 향후 연구 개발 방향을 제시합니다.

또한 VLA 모델의 최근 발전을 종합하기 위해, 표 2는 2022년부터 2025년까지 발표된 주요 시스템들의 구조와 특징을 비교한 요약표를 제공합니다. 이 표에 수록된 모델들은 early fusion, dual-system processing, self-correcting feedback loop 등 다양한 아키텍처 혁신을 기반으로 구축되었으며, 각기 다른 설계 철학과 학습 전략을 반영하고 있습니다. 각 항목은 모델의 핵심 구성 요소—vision 및 language encoder, action decoder—뿐만 아니라, 해당 모델이 동작 가능하게 학습된 데이터셋까지 명시하여 비교 분석을 가능하게 합니다.

예를 들어, CLIPort 및 RT-2 는 semantic embeddings을 행동 정책과 정렬하여 VLA의 초석을 마련했으며, Pi-Zero, CogACT , Groot N1 등의 후속 모델은 diffusion-based 또는 high-frequency controllers를 도입하여 더 높은 확장성과 정밀도를 구현했습니다. 특히, 여러 최신 VLA 시스템은 인터넷 규모의 비전-언어 코퍼스 및 로봇 궤적 데이터셋을 활용한 multimodal pretraining을 통해 일반화 능력과 zero-shot capabilities을 크게 향상시켰습니다.

따라서 이러한 표 기반의 비교는 VLA 아키텍처의 functional diversity, domain applicability, emerging design trends를 한눈에 파악할 수 있도록 해 주며, 실제 및 시뮬레이션 환경 전반에서의 연구 개발을 위한 중요한 reference point으로 기능합니다.