(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI

이어서 작성하겠습니다. 앞의 내용이 궁금하신 분들은 아래 링크 타고 읽어보시면 됩니다!

https://seohyun00.tistory.com/2

III. Vision-Language-Action-Model

Vision Language Action(VLA) 모델은 Vision(시각 정보), Language(텍스트 정보)와 같은 멀티모달 입력을 처리하여 로봇 행동을 출력하는 모델입니다.

목적: Embodied AI 분야에서 명령을 따르는 로봇 정책의 핵심 역할 수행.
구성 요소: 강력한 Vision Encoder, Language Encoder, Action Decoder를 기반으로 설계.

연구 방향

1. 구성 요소 개선

VLA 모델의 성능을 향상시키기 위해 Vision Encoder, Language Encoder, Action Decoder와 같은 구성 요소를 개선.

2. 저 수준 제어 정책 최적화

단순한 명령을 처리하고 기본적인 행동을 실행하는 저 수준 제어 정책에 집중.

3. 작업 분해(Task Decomposition)

저 수준 제어를 추상화하고, 복잡한 작업을 하위 작업으로 분해하여 해결.
저 수준 제어 정책과 고 수준 작업 계획자의 조합을 Hierarchical Policy(계층적 정책)으로 간주.

계층적 정책 (Hierarchical Policy)

저 수준 정책은 간단한 행동을 처리하고, 고 수준 작업 계획자는 작업을 하위 작업을 나누는 형식으로 협력.

위와 같이 Hierarchical Policy의 구조를 시각적으로 설명하며, 이러한 VLA 모델은 저 수준 제어 정책과 고 수준 작업 계획자를 결합하여 계층적 정책으로 통합될 수 있다. 이처럼 VLA 모델은 멀티모달 입력을 처리하고, 복잡한 로봇 작업을 해결하기 위한 중요한 도구로 자리잡고 있다.

A. Constituents of VLA

Vision-Language-Action(VLA)모델은 여러 기술적 요소를 필수 구성 요소로 통합하여 작동한다. 주요 구성 요소는 다음과 같다.

Transformers in Reinforcement Learning
- Decsion Transformer와 Trahectory Transformer와 같은 선도적인 연구는 강화학습에서 Transformer를 사용하는 길을 열었으며, 확장 가능하고 높읖 용량의 정책 개발을 촉진 하였다.
Vision Encoder
- Vision Encoder는 VLA 모델에서 환경의 상태를 효과적으로 Encoding하고 충분한 정보를 제공하는 데 필수적이다. 일부 연구는 사전학습된 비전 표현(PVRs)을 개선하기 위해 Vision Encoder를 사전학습 시키는 데 초점을 맞춘다.
Dynamics Learning
- 환경의 동역학을 학습하여 VLA 모델이 자신의 행동 결과를 이해하고, 보다 정보에 근거한 결정을 내릴 수 있도록한다.
World Model
- Dynamics Learning의 확장으로, 보상 신호와 같은 추가 정보를 제공하는 World Model을 개발한다. 이 접근법은 Imagined Rollouts을 샘플링하여 실제 환경과 상호작용을 줄이고 데이터의 효율성을 높인다.
LLM-Induced World Models
- 대규모 언어 모델(LLMs)에서 학습된 인터넷 규모의 상식 지식을 활용하여 World Model의 개발하는 방식이 점점 인기를 얻고 있다.

이러한 기술들은 VLA 모델이 멀티모달 정보를 통합하고, 환경의 동적 특성을 학습하며, 강화학습에서 데이터 효율성을 극대화 하는 데 기여한다.

1) Reinforcement Learning Transformer

강화 학습(RL)은 State-Action-Reward 의 Sequence로 구성되며, 이는 Sequence 모델링 문제의 구조와 자연스럽게 정렬되어 Transformer 모델에 적합한 형태이다.

주요 연구

Decision Transformer
- 정책(Policy)를 학습하는 데 초점을 맞춰 행동(Action)을 모델링.
- 강화 학습 문제를 Sequence 모델링 문제로 변환.
Trajectory Transformer
- Decision Transformer와 유사하지만, 궤적 내의 State와 Return을 모델링 목표에 포함하여 차별화 진행.
- 강화 학습의 복잡성을 보다 세부적으로 Capture 가능.
Gato
- 다중 모달리티 , 다중 작업, 다중 구현체 환경을 통합한 모델.
- 단일 Transformer Architecture로 다양한 작업(ex: Atari 게임, Image Captioning, 로봇 블록 쌓기) 수행 가능.
- 강화 학습 시퀀스 모델링의 확장성과 일반화 가능성을 입증하였다.

2. Pretrained Visual Representation(PVRs)

Vision Encoder의 성능은 로봇 제어 정책의 성능에 직접적인 영향을 미친다. Vision Encoder는 객체의 범주, 위치, 환경의 Affordance에 대한 중요한 정보를 제공하므로, 고 품질의 사전학습된 비전 표현(PVRs)을 얻기 위한 다양한 방법이 연구되고 있다.

주요 연구

CLIP
- 원래 로봇 작업을 위해 설계되지는 않았으나, CLIP은 CLIPort, EmbCLIP, CoW와 같은 로봇 모델에서 Vision Encoder로 널리 쓰임.
- Batch 내에서 올바른 Text-Image 쌍을 식별하도록 훈련됨.
- 언어와 비전 간의 정렬을 강화하며, 텍스트 지시를 입력으로 제공받는 작업에서 특히 효과적.
- WebImageText(WIT) 데이터셋(4억 개의 이미지-텍스트 쌍)으로 대규모 학습.
R3M
- 두 가지 주요 사전 학습 목표를 제시:
  1. 시간적 대비 학습(Time Contrastive Learning): 시간적으로 가까운 프레임 간 거리를 최소화하고, 먼 프레임 간 거리를 최대화.
  2. 비디오-언어 정렬(Video-Language Alignmnet): 비디오가 언어 지시에 해당하는지 학습.
- 비디오 시퀀스의 시간적 관게를 캡처하고, PVR의 의미적 연관성을 강화.
MVP(Masked Visual Pre-Training)
- Masked AutoEncoder(MAE) 기법을 채택하여 입쳑 패치의 일부를 마스킹하고, 이를 재구성하도록 학습.
- 자기 지도 학습(Self-supervised Learning)방식으로 로봇데이터 셋에 MAE를 확장.
- 조작 작업(Manipulation Tasks)에서 성능 향상 기여.
VIP(Value-Implicit Pre-Training)
- 초기 및 목표 프레임을 끌어당기고, 연속 프레임을 밀어내어 장기적인 시간 관계를 캡처
- R3M과 비교했을 때, 특정 작업에서 성능 우위를 보였으나, 후속 연구에서는 평가 결과가 엇갈림.
VC-1(Vision Cortex-1)
- 기존 PVR을 체계적으로 분석하고, 최적의 ViT 구성을 탐구하여 성능 향상.
- 다양한 조작 및 내비게이션 데이터셋에서 기존 방법과 비교 분석.
Voltron
- MAE 목표에 언어 조건 및 언어 생성 추가.
- Vision-Language 정렬을 강화하여 언어 조건부 모방 작업에서 성공률을 크게 향상.
SpawnNet
- 두 개의 Stream Architecture: 사전 학습된 Vision encoder와 새로 학습된 특징을 Adapter Layer로 융합.
- Vision Encoder는 재학습하지 않고도 매개 변수 효율적 미세 조정(PEFT) 방법보다 우수한 성능 달성.
Holo-Dex
- 자가 지도 학습(SSL)을 활용하여 시각 정책을 위한 저차원 표현 학습.
- 3D Visual 입력으로 사용하는 "Home PreTrained Representation" 방법 제안.
T-Dex
- 시각적 입력만으로는 다중 손가락 로봇 제어가 충분하지 않음을 지적하며, 촉각 기반 정책을 도입.

3) Dynamics Learning

Dynamic Learning은 Forward Dynamics 또는 Inverse Dynamics을 이해하도록 모델을 학습시키는 목표를 포함한다.

Forward Dynamics: 특정 행동(Action)에 의해 발생하는 다음 상태(Next State)를 예측.
Inverse Dynamics: 이전 상태(Previous state)에서 주어진 다음 상태로 전이하기 위해 필요한 행동을 결정.

일부 연구에서는 이러한 목표를 State Sequence Shffled Problem 으로 정의한다. Dynamics Learning은 주로 보조 작업(Auxiliary task) 으로 활용되어 로봇 작업 성능 향상에 기여한다.

주요 연구

Vi-PRoM
- 세 가지 사전 학습 목표를 제시:
  1. 대비적 자기 지도 학습: 설 다른 비디오를 구별
  2. 시간적 동역학 학습: 섞인 비디오 프레임복원
  3. 이미지 분류: pseudo labels 활용.
- 행동 복제(Behavior Cloning)과 PPO(정책 최적화)에서 효과적인 성능 입증.
MIDAS
- Inverse Dynamics 예측: 관찰에서 행동을 예측하는 과제로 학습.
- 환경의 전이 동역학을 이해하고 작업에 활용.
SMART
- 세 가지 학습 목표 포함:
  1. Forward Dynamics 예측: 다음 잠재 상태 예측
  2. Inverse Dynamics 예측: 이전 행동을 예측.
  3. Hindsight Control: 전체 제어 시퀀스 중 일부 행동을 마스킹하고 이를 복원.
- 첫 번째와 두 번째 목표는 단기 동역학을 캡처
- 세 번째 목표는 장기적인 시간 의존성을 학습하도록 설계.
MaskDP
- Masked Decision Prediction: 상태 및 행동 토큰을 마스킹하여 재구성.
- 기존 BERT, MAE와 같은 마스킹 모델과 달리 Downstream 작업에 직접 적용.
PACT(Perception-Action Causal Transformer)
- State-Action Transfer Modeling: 상태및 행동 시퀀스를 입력으로 받아 상태 및 행동 토큰을 Autoregressive 방식으로 예측.
- 사전학습된 모델을 위치 추적(Localization), 맵핑(Mapping), 내비게이션(Navigagion)등 다양한 Downstream 작업에 활용.
VPT(Video Pretraining)
- Label이 없는 인터넷 데이터를 활용한 사전학습 방법.
- 소량의 Label data를 사용해 Inverse Dynamics 모델을 학습하고, 이를 활용해 인터넷 비디오를 자동으로 라벨링.
- Semi-Supervised Imitation Learning을 통해 인간 수준의 성능 달성.

4) Classical World Model

Classical World Model은 환경의 동작을 표현하고 예측하는 기본적인 Framework로, Imagination을 통한 학습을 가능하게 하여 로봇 공학 및 다양한 도메인에서 계획 및 의사결정 능력을 향상시킨다.

주요 연구

Dreamer Framework
- Dreamer:
  - 주요 모듈:
    1. 표현 모델(Representation Model) : 이미지를 잠재 상태(Latent States)로 인코딩.
    2. 전이 모델(Transition Model): 잠재 상태 간 전이를 모델링.
    3. 보상 모델(Reward Model): 특정 상태에 대한 보상을 예측.
  - 학습 과정:
    - Actor-Critic Framework에서 행동 및 가치 모델을 활용.
    - 학습은 학습된 동역학을 통해 Imagination으로 진행.
- DreamerV2
  - 이산 잠재 상태 공간(Discrete Latent State Space)을 도입.
  - 성능을 개선 한 목표(Objective)추가.
- DreamerV3
  - 고정된 하이퍼파라미터로 다양한 도메인에 확장.
- DayDreamer
  - 실제 로봇의 물리적 작업에 Dreamer Freamwork 적용.
Masked world Model(MWW)
- DreamerV2의 Vision Encoder를 CNN과 Vision Transformer(ViT)로 구성된 하이브리드 구조.
- MAE 접근법에서 영감을 얻음.
- 보조 보상 예측 손실(Auxiliary reward prediction loss) 도입.
- 다양한 시각적 로봇 작업에서 성능 개선.
Iso-Dream
- controllable 동역학과 Non-Controllable 동역학을 분리하여 Inverse Dynamics 최적화.
- 분리된 Latent Imagination을 기반으로 에이전트 행동 최적화.
- Non-Controllable State Transfer Branch는 행동과 독립적으로 Rollout 가능.
- Long-horizon Decision-Making에 유리.
Transformer-based World Model (TWM)
- Transformer-XL 아키텍처를 기반으로 한 World Model
- Latent Imagination을 통해 새로운 궤적을 생성하여 Model-Free agent 학습.
- DreamerV2의 KL Divergence loss을 수정하고, Thresholded Entropy Loss 도입.
IRIS
- GPT 스타일의 Autoregressive Transformer를 사용하고, VQ-VAE를 Vision Encoder로 활용.
- 실제 관찰에서 Rollout된 상상을 활용하여 정책 학습
SWIM
- 인간 중심 대규모 비디오 데이터를 활용하여 World Model 학습.
- 인간 데이터와 로봇 데이터 간의 격차를 Visual affordance maps에 기반하여 보완
- 인간 데이터의 지식을 로봇 제어로 효과적으로 전이.
Genie
- Generative Interactive Environments 라는 새로운 클래스의 모델 제안.
- 시공간 비디오 토크나이저, 자기회귀 동역학 모델, 잠재 행동 모델 포함.
- 비디오를 비지도 학습으로 훈련.
- 프레임 별 상호작용이 가능하도록 환경 제공.

5) LLM 기반 World Model

LLM 기반 World Model은 LLM과 구조화된 World 표현을 통합하여 고급 계획, 의사결정, 추론 능력을 제공한다. 이러한 접근 방식은 LLM을 활용하여 World Model을 생성하거나 상호작용하며, 다양한 작업에서 높은 성능을 발휘한다.

주요 연구

DECKARD(배경이 Minecraft 입니다) :
- Abstract world model(AWM)을 방향성 비순환 그래프로 생성, Microsoft에서 아이템 제작 작업에 맞춤 설계.
- 프로세스:
  - Dream 단계: AWM을 기반으로 Subgoal 샘플링.
  - Wake 단계: Subgoal을 실행하고, 게임과의 상호작용을 통해 AWM 업데이트.
- AWM 기반 Guidance를 활용해 기존 방법보다 더 빠르게 아이템 제작 수행.
LLM-DM
- PDDL(Planning Domain Definition Language)로 World Model 생성.
- 시전 방법인 LLM+P는 수작업으로 제작된 PDDL만 활용함.
- PDDL 모델을 생성하고 구문 검사기 및 인간 전문가 피드백을 통해 수정.
- PDDL 모델은 상징적 시뮬레이터로 작동하며, LLM Planner의 계획 생성 지원.
RAP
- LLM을 정책(policy 행동 예측)과 World Model(상태 전이 분포 제공)로 활용.
- 몬테카를로 트리 탐색(MCTS)을 통합하여 점진적으로 추론 트리 구축.
- 탐색과 활용의 균형을 맞추며 높은 보상 경로(high-reward path)를 발견.
LLM-MCTS
- RAP를 확장하여 부분 관측 마코프 결정 프로세스(POMDPs)를 처리.
- LLM이 다음과 같은 역할 수행:
  - World Model: 초기 상태에 대한 신뢰도를 생성.
  - Policy: 행동 선택을 안내하는 휴리스틱 제공.
- 상식적 지식을 활용해 MCTS 탐색 공간을 줄이고 효율성 향상.
E2WM
- 시뮬레이터를 World Model로 간주하여 MCTS를 통해 데이터 수집.
- 수집된 데이터를 바탕으로 LLM을 미세 조정하여 구체적인 경험(Embodied experiences)을 학습.
- 계획 생성, 활동 인식, 추적 능력 향상.
3D-VLA
- 3D World Model을 사용해 목표 상태(goal state)를 생성.
- Image, Depth map, Point Cloud와 같은 시각 입력 처리.
- 사용자 Query에 따라 Diffusion Model 을 활용해 Goal State를 Image 또는 Point Cloud로 생성

6. Reasoning

LLM의 추론 능력은 Chain-of-Thought(CoT) 추론과 같은 방법을 통해 크게 발전해 왔다. 이러한 기술은 현재 Embodied AI에서도 채택되어 계획 수립, 의사결정, 작업 실행을 강화하는 데 활용되고 있다.

주요 연구

EmbodiedGPT:
- CoT(Chain-of-Thought) 활용:
  - Embodied Planning을 강화하여, 로봇이 작업을 단계적으로 계획하도록 지원.
ThinkBot:
- Missing Action Recovery:
  - 누릭된 행동 설명을 복구하기 위해 CoT(Chain-of-Thought) 적용.
RAT:
- Retrieval-Augmented Generation + CoT:
  - 문맥을 고려한 Reasoning을 통해 장기 생성(Long-horizon generation)을 개선.
ReAct:
- Verbal Reasoning + Actions:
  - 언어적 추론과 행동을 결합하여 다양한 의사결정 과제를 해결.
Tree-Planner:
- Tree-of-Thoughts ApproVach:
  - 다양한 옵션을 계층적으로 평가하고 최적의 계획을 선택.
Text2Motion:
- Symbolic & Geometric Reasoning:
  - LLM이 생성한 작업 계획을 실행 가능성을 검증.
Reflexion
- Verbal Reinforcement Learning:
  - 강화 학습의 가중치 업데이트 대신 언어적 피드백을 사용하여 모델 성능을 개선.

Pros and Cons of Reasoning Approaches

장점:
- Pretrained Visual Representations:
  - 로봇이 환경의 현재 상태를 이해하고 작업을 수행하기 위한 객체 탐지, Affordance 맵 추출, Vision-Language 정렬에 도움.
  - 로봇이나 인간 데이터를 활용한 사전 학습으로 모델 성능 향상.
- Dynamics Learning:
  - 상태 간 전환 이해.
  - 시각적 관찰을 적절한 상태 표현으로 매핑하며, 행동과 상태의 관계를 파악.
단점:
- World Model의 복잡성:
  - 월드 모델은 환경의 동작을 완전히 모델링하여 다단계 상태 예측 및 최적 행동 계산 가능.
  - 하지만 구현 및 학습이 더 어려움.

다음 페이지에서 계속 됩니다.

'Vision Language Action model' 카테고리의 다른 글

[Paper Review] RT-2: Vision-Language-Action Models TransferWeb Knowledge to Robotic Control (1)	2025.02.02
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (5) (1)	2025.01.22
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (4) (0)	2025.01.22
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (3) (0)	2025.01.22
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (1) (0)	2025.01.21

Embodied AI in Robotics

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (2)

III. Vision-Language-Action-Model

연구 방향

계층적 정책 (Hierarchical Policy)

A. Constituents of VLA

1) Reinforcement Learning Transformer

2. Pretrained Visual Representation(PVRs)

3) Dynamics Learning

4) Classical World Model

5) LLM 기반 World Model

6. Reasoning

Pros and Cons of Reasoning Approaches

'Vision Language Action model' 카테고리의 다른 글

티스토리툴바

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (2)

III. Vision-Language-Action-Model

연구 방향

계층적 정책 (Hierarchical Policy)

A. Constituents of VLA

1) Reinforcement Learning Transformer

2. Pretrained Visual Representation(PVRs)

3) Dynamics Learning

4) Classical World Model

5) LLM 기반 World Model

6. Reasoning

Pros and Cons of Reasoning Approaches

'Vision Language Action model' 카테고리의 다른 글

'Vision Language Action model' Related Articles

티스토리툴바