(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI

이전 내용이 궁금하신 분들은 아래 링크 참고 바랍니다!

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (1)

https://seohyun00.tistory.com/2

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (2)

https://seohyun00.tistory.com/3

B. Low-Level Control Policy

저 수준 제어 정책은 Action Decoder와 Perception modules(ex. Vision Encoder, Language Encoder)를 통합하여, 시뮬레이션 및 실제 환경에서 언어 지시를 실행하는 네트워크를 형성합니다.

제어 정책 네트워크의 다양성은 개별 모듈 선택과 통합 전략에서 비롯됩니다.
저 수준 제어 정책 설계에 대한 다양한 접근 방식을 탐구하며, Action Decoder는 Backbone을 기준으로 세 가지 유형으로 분류합니다.
- Non-Transformer 기반 제어 정책: Transfromer를 사용하지 않은 초기 모델.
- Transformer 기반 제어 정책: Transformer 아키텍처를 활용하여 시간적 일관성을 멀티모달 입력 처리를 개선.
- LLM 기반 제어 정책: LLM을 활용하여 더 높은 수준의 일반화 성능과 멀티모달 지식 처리를 제공.
기타 접근 방식
- 멀티모달 지시 처리: 여러 입력 모달리티(ex: 이미지, 언어)를 결합하여 작업 지시를 이해.
- 3D Vision 통합: 3D Vision 데이터를 활용하여 공간 정보를 풍부하게 하고 로봇의 행동 정확성을 개선.
- Diffusion 기반 행동 생성: Diffusion 모델을 활용해 고 차원 행동 공간에서 안정적이고 다중 모달 분포를 학습.
- Motion Planning: 최적의 행동 궤적을 계산하고 로봇 팔이나 기타 End-effector의 동작을 계획.

1) Early Non-Transformer Control Policies

CLIPort:

CLIP의 Vision 및 Language Encoder와 Transporter network를 통합한 2-stream Architecture.
- 첫 번째 Stream: CLIP Vision Encoder가 RGB 이미지에서 Semantic information을 추출.
- 두 번째 Stream: Transporter network가 RGB-D 이미지에서 seatial information을 추출.
언어 지시에 따라 객체를 잡고 놓는 작업 수행 가능.

BC-Z:

두 가지 작업 지시 처리:
- Language 지시는 USE Language Encoder로 인코딩.
- 인간 시연 비디오는 ResNet18로 인코딩.
환경은 RGB 이미지로 제공되며, ResNet18로 인코딩.
지시 및 이미지 임베딩은 FiLM 레이어를 통해 결합, 동작 생성.
Task Generation으로 이전에 보지 못한 작업에 일반화 가능.(Zero shot 가능)

MCIL:

자연어 지시를 활용한 로봇 정책으로, 기존 작업 ID나 목표 이미지 조건에 의존하지 않음.
구조화되지 않은(Unstructured) 시연 데이터 활용 가능.
학습 방식:
- 모델은 이미지 또는 언어 목표를 따르도록 학습.
- 일부 훈련 데이터는 이미지와 언어 목표가 쌍으로 구성.

HULC:

Hierarchical robot learning 및 Multi-modal Transformer 도입.
Transformer는 고 수준 행동을 학습하고, 저 수준 정책과 Global Plan을 계층적으로 분할.
Contrastive Learning 기반 VL(Vision-Language) semantic alignment loss 도입.
HULC++:
- Self-supervised Learning 기반 Affordance Model 추가.
- 언어 지시로 지정된 작업 영역 내에서 작업 수행 가능.

Universal Policy (UniPi)

Text-conditioned Video Generation으로 의사결정 문제 접근.
텍스트 지시에 따라 비디오를 생성하고, 생성된 Video- Frame에서 inverse dynamics을 통해 동작 예측.
다양한 로봇 작업에서 뛰어난 일반화 성능 제공.
인터넷 비디오에서 실제 로봇으로 Knowledge Transfer 가능.

2) Transformer-Based Control Policies

Transformer 기반 제어 정책은 Transformer 아키텍처를 활용하여 복잡한 로봇 작업을 효율적으로 처리하고 학습한다. 이러한 방법은 시간적 일괄성(temporal consistency), 멀티모달 입력(Multi-modal inputs), 작업 및 구현체 전반에 걸친 improved Generalization을 강조한다.

Interactive Language:

언어 기반 실시간 제어:
- 사용자의 언어 지시로 저 수준 제어 정책을 실시간으로 guide.
장기적인 재 배치 작업(long-horizon rearrangement tasks) 처리 가능.
대규모 언어 지시 데이터셋의 사용으로 깆노 데이터셋 대비 높은 성능.

Hiveformer

Multi-View 관찰 및 기록 보존:
- 과거 관찰 기록과 현재 관찰을 통합하여 정책에 반영.
CLIPort, BC-Z와 같은 기존 시스템이 현재 고나찰만 사용하는 한계를 극복.
Transformer를 정책 backbone으로 채택한 초기 사례 중 하나.

BeT Variants:

BeT:
- Trajectory Transformer을 기반으로 비 잔문가 시연 데이터의 노이즈와 멀티모달 특성을 처리.
- K-Mean 기반 action discretization.
- Continous action correction.
C-BeT:
- 목표 프레임이나 시연 데이터를 추가해 목표를 명시적으로 지정.
VQ-BeT:
- Vector Quantization을 도입해 장기적인 행동 모델링 성능 개선.

Gato

Multi-modal, Multi-task, Multi-embodiment 일반화 에이전트:
- 단일 모델로 Atari 게임, 이미지 캡셔닝, 블록 쌓기 수행.
입력 및 출력 토큰화를 통합하여 다양한 작업과 도메인에서 동시에 학습 가능.

RoboCat

Gato 모델을 기반으로 설계.
자기 개선(self-improvement) 프로세스:
- 모델을 미세 조정(finetuning)하고 새 데이터를 자체 생성.
- 최소 100개의 시연으로 새로운 작업에 신속히 적응.
VQ-GAN 이미지 인코더 통합.
시뮬레이션 및 실제 환경에서 Multi-task, Multi-embodiment 실험을 통해 성능 검증.

RT Variants

RT-1:
- EfficientNet 기반 비전 인코더와 FiLM 레이어를 사용하여 이미지와 언어 Embedding을 결합.
- Transformer Decoder를 사용해 과거 이미지를 활용, 행동 예측 성능 향상.
Q-Transformer:
- RT-1을 확장하여 Q-learning 도입.
- 실패 궤적도 학습에 활용 가능하며, 보수적 정규화를 통해 안정성 확보.
RT-Trajectory:
- 언어 지시 대신 궤적 스케치를 정책 조건으로 사용.
- 다양한 작업에서 궤적을 재사용 가능.
ACT & RoboAgent:
- ACT: 조건부 VAE 정책으로 행동 시퀀스를 예측.
- RoboAgent: MT-ACT 모델로 action chunking을 확장하고, semantic augmentation을 추가.

3) Multi-modal-Instruction Control Policies

VIMA

핵심 개념:
- Multi-modal prompts를 도입하여, 기존의 Text Prompt보다 더 복잡하고 구체적인 작업 정의 가능.
주요 작업 유형:
1. Object Manipulation: 객체 조작.
2. Visual Goal Reaching: 시각적 목표 달성.
3. Novel Concept Grounding: 새로운 개념 연결.
4. One-shot Video Imitation: 단일 비디오를 기반으로 한 모방 학습.
5. Visual Constraint Satisfaction: 시각적 제약 조건 만족.
6. Visual Reasoning: 시각적 추론.
의의:
- Text Prompt만으로는 표현하기 어려운 복잡한 작업을 정의할 수 있음.
VIMA-Bench:
- 모델의 일반화 능력을 평가하기 위해 개발된 벤치마크.
- 평가 기준:
  1. Placement (배치).
  2. Combinatorial (조합).
  3. Novel Object (새로운 객체).
  4. Novel Task (새로운 작업).

MOO

핵심 개념:
- RT-1을 확장하여 멀티모달 프롬프트를 처리 가능하게 함.
- OWL-ViT를 프롬프트 내 이미지 인코딩에 사용.
방법:
- RT-1 데이터셋에 새로운 객체와 추가 프롬프트 이미지를 확장.
- 이를 통해 RT-1의 일반화 성능을 향상.
새로운 타겟 지정 방식:
1. 손가락으로 가리키기.
2. 그래픽 사용자 인터페이스(GUI)에서 클릭.

4) Control Policies with 3D Vision

3D World 에서 3D 표현을 시각적 입력으로 사용하는 것은 2D 이미지보다 더 풍부한 정보를 제공하며, 로봇 제어 정책에서 유리하다. 다양한 3D 표현 방식이 활용되고 있으며, 이를 통해 관찰과 행동간의 성능을 개선하려는 다양한 연구가 진행되고 있다.

주요 3D 표현 방식

Point Clouds

RGB-D 입력에서 직접적으로 파생되어 단순하고 직관적.
DP3와 3D Diffuser Actor는 Point Clouds를 활용하여 성능을 향상시킴.

Voxels

3D 데이터를 격자(grid) 형태로 표현
- RoboUniView:
  - UVFormer 모듈을 통해 RoboFlamingo에 3D 점유 정보(occupancy information)를 추가하여 성능 개선.
- VER:
  - 멀티뷰 이미지를 3D 셀로 조합(coarse-to-fine voxelization)하여 비전-언어 내비게이션 작업 성능을 개선.

Adaptive Resolution 3D Feature Field (Act3D)

특정 작업의 필요에 따라 해상도를 조정하는 연속적 3D 특성 필드 제공.
Voxelization의 계산 비용 문제를 해결.

Virtual Views (RVT, RVT-2)

3D 입력을 직접 사용하는 대신 가상 뷰에서 이미지를 재 렌더링하여 입력으로 활용.

2D-to-3D Projection (RoboPoint)

VLM을 사용해 2D 이미지에서 직접 Affordance Points를 예측하고, 이를 깊이 맵(depth maps)을 활용해 3D 공간으로 투영.

Perceiver-Actor (PerAct)

RGB-D 이미지로부터 복원된 Voxel Map을 입력으로 사용.
출력은 Gripper의 이동을 안내하는 최적의 Voxel로 제공.
6-DoF 환경에서 데이터 증강 가능.
소수의 시연(few-shot demonstrations)으로도 효율적인 작업 학습 가능.

SceneScript

Layout과 Object의 배치를 정의하는 구조화된 언어 명령을 도입.
장면을 AutoRegression Token 기반 방식으로 생성.
Mesh, Voxel Grid, Point Cloud, Radiance fields와 같은 기존 방법과 차별화.
레이아웃 추정 및 객체 탐지에서 최신(state-of-the-art) 방법들과 경쟁적인 성능을 달성.

5) Diffusion 기반 행동 생성

Diffusion 기반 행동 생성은 컴퓨터 비전에서 성공적으로 사용된 Diffusion 모델을 로봇 정책에 적용한 것이다. 이러한 방법들은 고차원 행동 공간과 다중 모달 분포에 중점을 두며, 훈련에서 뛰어난 유연성과 안정성을 보여준다.

Diffusion Policy

핵심 개념:
- 로봇 정책을 Denoising Diffusion Probabilistic Models (DDPMs)로 공식화.
주요 기술:
- Receding Horizon Control: 점진적으로 목표를 추적하며 계획.
- Visual Conditioning: 시각 정보를 기반으로 행동 조건을 설정.
- Time-Series Diffusion Transformer: 시계열 데이터를 효과적으로 모델링.
장점:
- 멀티모달 행동 분포(multimodal action distributions).
- 고차원 행동 공간(high-dimensional action spaces).
- 안정적인 훈련(training stability).

Scaling Up and Distilling Down (SUDD)

핵심 개념:
- LLM 기반 데이터 생성과 필터링된 데이터셋의 distillation 결합.
작동 방식:
1. LLM을 활용한 데이터 생성:
  - Grasp samplers나 Motion Planner와 같은 로봇 유틸리티와 결합.
2. Diffusion Policy 확장:
  - Language-based conditioning을 추가하여 멀티태스크 학습 수행.
3. 성공 궤적 학습:
  - 필터링된 데이터셋을 증류하여 안정적이고 효과적인 정책 학습.

Octo

핵심 개념:
- Transformer 기반 Diffusion Policy.
특징:
- 모듈형 설계:
  - 작업 정의 인코더(task definition encoders).
  - 관찰 인코더(observation encoders).
  - 행동 디코더(action decoders).
- Open X-Embodiment 데이터셋 사용.
장점:
- 다양한 로봇과 작업에서 긍정적 전이 효과와 일반화 성능을 입증.

MDT

핵심 개념:
- 컴퓨터 비전에서 제안된 DiT 모델을 행동 예측 헤드에 적용.
- 기존의 U-Net 기반 아키텍처를 대체.
특징:
- 보조 목표:
  1. Masked Generative Foresight: 미래 행동 예측.
  2. Contrastive Latent Alignment: 잠재 표현 정렬.
- U-Net 기반 모델(SUDD)보다 더 나은 성능을 보임.

RDT-1B

핵심 개념:
- DiT 기반의 양손 조작(bimanual manipulation)을 위한 확산 모델.
특징:
- 다양한 로봇에서 Unified action format을 도입.
- 6,000개 이상의 궤적을 포함한 이질적인 멀티로봇 데이터셋으로 사전 학습.
- 1.2B 파라미터로 확장, Zero-shot generalization 성능을 입증.

6) Diffusion-Based Control Policy with 3D Vision

3D 비전(3D Vision)과 확산 기반 정책(Diffusion-Based Policy)을 결합하여 로봇의 제어 성능을 향상시키는 접근법.

DP3

특징:
- Diffusion Policy에 3D 입력을 통합.
- 3D 입력을 활용하여 정책의 성능을 개선.
결과:
- 기존 2D 비전이나 단순 정책보다 뛰어난 결과를 보임.

3D Diffuser Actor

특징:
- DP3와 동일한 핵심 아이디어를 기반으로 개발.
- Act3D와 Diffusion Policy을 결합하여 새로운 모델 아키텍처 제안.
차별점:
- DP3는 3D 입력을 확산 정책에 단순히 적용한 반면, 3D Diffuser Actor는 Act3D와 함께 사용하여 구조적으로 더 정교한 모델을 구현.

7) Motion Planners

Language Costs

핵심 개념:
- 자연어를 활용하여 인간-로봇 상호작용(human-in-the-loop) 제어 시스템에서 로봇의 동작을 수정하는 방법.
작동 방식:
- 인간의 언어 지시로부터 생성된 **비용 지도(cost maps)**를 사용.
- 비용 지도는 로봇이 **최적의 행동(optimal action)**을 계산하는 데 활용.
장점:
- 사용자가 직관적인 언어 명령으로 목표를 수정하거나 선호도를 지정하며, 오류를 복구 가능.

2. VoxPoser

핵심 개념:
- LLM과 VLM을 사용하여 3D voxel maps를 생성.
- Voxel maps 는 Affordance와 Constraint를 각각 나타냄.
작동 방식:
1. LLM의 프로그래밍 기능:
  - 언어 지시를 실행 가능한 코드로 번역.
  - VLM(ex: ViLD, MDETR, OWL-ViT, SAM)을 호출하여 객체 좌표를 획득.
2. 보셀 지도 구성:
  - Affordance Map과 Constraint Map을 기반으로 로봇 동작 범위를 정의.
3. Model Predictive Control (MPC):
  - 로봇 팔의 엔드 이펙터를 위한 실행 가능한 궤적 생성.
특징:
- 학습 불필요: LLM과 VLM을 직접 연결해 모션 플래닝 수행.
- 응용: 직관적 언어 명령을 기반으로 로봇 작업 궤적 생성.

3. RoboTAP

핵심 개념:
- 로봇 시연을 단계별로 분해하여 작업을 학습하는 방식.
작동 방식:
1. 시연 단계 분해:
  - 그리퍼가 열리고 닫히는 지점에서 각 작업을 분할.
2. TAPIR 알고리즘 사용:
  - Active points을 감지하여, 소스 위치에서 목표 위치까지의 객체를 추적.
3. Classic Visual Servoing:
  - 추적 경로를 사용해 로봇을 제어.
4. 최종 모션 플랜 생성:
  - 각 단계를 연결하여 로봇 작업 궤적 완성.
장점:
- Few-shot Visual Imitation: 적은 양의 시연 데이터로 작업 학습 가능.

8) LLM-based Control Policies

RT-2

특징:
- 대규모 멀티모달 모델을 로봇 작업에 활용하려는 노력.
- PaLI-X와 PaLM-E에서 영감을 받아 개발됨.
- Co-Fine-Tuning 방식을 도입:
  - 인터넷 규모 VQA 데이터와 로봇 데이터를 함께 학습

결과:
- 모델의 일반화 성능 향상.
- Emergent Capabilities(예상치 못한 능력) 발현.
목표:
- 저 수준 제어 정책 과 고수준 작업 계획자를 통합하여 포괄적인 로봇 시스템 구현.

RT-X

특징:
- RT-1과 RT-2를 기반으로 새롭게 재훈련된 버전.
- *Open X-Embodiment (OXE)**라는 대규모 오픈소스 데이터셋 사용:
  - 160,266개의 작업, 527개의 기술, 22개의 구현체 포함.
  - 기존 데이터셋보다 훨씬 더 큰 규모.

결과:
- RT-1-X와 RT-2-X는 원본 모델들보다 성능이 우수.

OpenVLA:
- RT-X의 오픈소스 대안으로 개발됨.

RT-H

특징:
- 액션 계층(action hierarchy) 도입:
  - 언어 지시와 저수준 행동(회전 및 이동) 사이에 중간 예측 레이어를 추가.
  - 예: "pick"과 "pour"는 모두 "move the arm up"과 같은 중간 동작 공유.

장점:
- 서로 다른 작업 간 데이터 공유를 개선.
- 실패 시 수정 지시를 사용자가 제공할 수 있도록 하며, 이를 학습.

RoboFlamingo

특징:
- 기존의 Flamingo를 로봇 정책에 적용.
- LSTM 기반 정책 헤드를 VLM에 부착하여 작동.

결과:
- 사전 학습된 VLM이 언어 조건부 로봇 조작 작업에 효과적으로 전이 가능함을 입증.

Pros and Cons

a.) Architectures

Cross-Attention
- 장점:
  - 더 작은 모델 크기로도 우수한 성능을 제공.
  - 시각 정보와 언어 정보를 정밀하게 융합하여 복잡한 작업 처리에 적합.
- 단점:
  - 구현이 상대적으로 복잡하며, 모델 설계 및 조정에 더 많은 노력이 필요.

FiLM (Feature-wise Linear Modulation)
- 장점:
  - RT-1과 후속 모델들에서 사용되며 검증된 메커니즘.
  - 시각적 입력을 언어적 명령과 효과적으로 조정.
- 단점:
  - 다른 융합 방법에 비해 일부 작업에서 일반화 성능이 제한될 수 있음.

Concatenation
- 장점:
  - 구현이 간단하며, 빠르게 적용 가능.
  - 큰 모델에서는 비슷한 성능을 낼 수 있음 [176].
- 단점:
  - 작은 모델에서는 성능이 떨어질 가능성이 있으며, 복잡한 작업 처리에는 한계.

다음 페이지에서 계속 됩니다.

'Vision Language Action model' 카테고리의 다른 글

[Paper Review] RT-2: Vision-Language-Action Models TransferWeb Knowledge to Robotic Control (1)	2025.02.02
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (5) (1)	2025.01.22
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (4) (0)	2025.01.22
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (2) (1)	2025.01.21
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (1) (0)	2025.01.21

Embodied AI in Robotics

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (3)

B. Low-Level Control Policy

1) Early Non-Transformer Control Policies

2) Transformer-Based Control Policies

3) Multi-modal-Instruction Control Policies

4) Control Policies with 3D Vision

주요 3D 표현 방식

5) Diffusion 기반 행동 생성

6) Diffusion-Based Control Policy with 3D Vision

7) Motion Planners

8) LLM-based Control Policies

Pros and Cons

a.) Architectures

'Vision Language Action model' 카테고리의 다른 글

티스토리툴바

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (3)

B. Low-Level Control Policy

1) Early Non-Transformer Control Policies

2) Transformer-Based Control Policies

3) Multi-modal-Instruction Control Policies

4) Control Policies with 3D Vision

주요 3D 표현 방식

5) Diffusion 기반 행동 생성

6) Diffusion-Based Control Policy with 3D Vision

7) Motion Planners

8) LLM-based Control Policies

Pros and Cons

a.) Architectures

'Vision Language Action model' 카테고리의 다른 글

'Vision Language Action model' Related Articles

티스토리툴바