(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI

이어서 작성 하겠습니다.

이전 내용이 궁금하신 분들은 아래 링크 참고 바랍니다!

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (1)

https://seohyun00.tistory.com/2

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (2)

https://seohyun00.tistory.com/3

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (3)

https://seohyun00.tistory.com/4

b) Action Types and Their Training Objectives

Low-Level Control Policies

대부분의 저수준 제어 정책은 End-effector pose에 대한 행동을 예측.
Motion Planning Module:
- 개별 관절의 동작은 Inverse Kinematics을 통해 제어.
- 장점:
  - 다양한 구현체(embodiments)로의 일반화에 유리.
- 단점:
  - 정교한 동작에는 제한이 있음.

Behavior Cloning (BC) Objective

Imitation Learning(모방 학습)에서 사용되는 주요 학습 목표.
다양한 행동 유형에 대해 각각 다른 변형(variants)을 사용.
Ex:특정 동작을 재현하도록 설계된 BC는 특정 작업에 적합한 변형을 통해 효율성을 높임.

훈련 목표:

Continuous Action :
- 평균 제곱 오차(MSE)로 정의:
- $L_{\text{Cont}} = \sum_{t} \text{MSE}(a_t, \hat{a}_t)$
여기서 $\hat{a}_t$는 모델이 예측한 행동, $a_t$는 시연 데이터에서 제공된 행동

Discrete Action:
행동 값을 여러 구간(bin)으로 나눔.
교차 엔트로피 손실(CE)로 정의
$L_{Disc}=∑_tCE(a_t,\hat a^t)$

SE(2) Action:
- CLIPort와 VIMA에 적용됨.
- 집기(pick) 및 놓기(place) 자세를 예측.
- CE 손실 사용: LSE(2)=CE(apick,a^pick)+CE(aplace,a^place)
- $L_{\text{SE(2)}} = \text{CE}(a_{\text{pick}}, \hat{a}{\text{pick}}) + \text{CE}(a{\text{place}}, \hat{a}_{\text{place}})$

DDPM Objective (Diffusion 기반):
- 데이터 샘플 $x_0$와 random noise $ε_k$ 를 사용:
  - $L_{DDPM}=MSE(ϵ_k,ϵ_θ(x_0+ϵ_k,k))$
$x_0$: 데이터셋에서 추출된 raw example.
$\varepsilon_k$: Iteration k 에서 추가된 random noise.
$\varepsilon_\theta$:
- Noise prediction network.
- 여기서는 VLA 모델이 해당 역할을 수행.

Discrete Action vs SE(2) Action in Robotics

Discrete Action (ex: RT-1):

장점:
- RT-1에서 우수한 성능을 보이며, 다양한 작업에서 효율적으로 동작.
단점 (Octo 주장):
- Early grasping issues를 초래할 가능성 있음.
- Ex: 대상 물체를 부적절한 시점에 잡는 문제 발생.

SE(2) Action:

특징:
- 모델이 두 가지 End-effector poses만 예측하도록 요구.
- Ex: Pick pose와 place pose.
장점:
- 최대 두 번의 Forward passes로 예측 가능.
- 간단하고 효율적인 동작 생성에 적합.
단점:
- Action dexterity과 Generalizability에 제한이 있음.
- 복잡한 작업에서 유연성이 부족할 수 있음.

c) LLM vs Non-LLM Control Policies

LLM 기반 제어 정책 (LLM-based Control Policies):

장점:
- 사용자 의도 해석: LLM은 사용자 지시를 더 잘 분석하고 해석하여 Instruction-following abilities을 크게 향상.
단점:
- 훈련 비용: LLM의 훈련은 높은 비용이 소요됨.
- 추론 속도: 느린 추론 속도는 특히 Dynamic environments에서 성능에 큰 영향을 미침.
- 환경이 변화할 경우, LLM의 추론 중 변경 사항을 반영하지 못할 가능성 존재.

Non-LLM 기반 제어 정책 (Non-LLM-based Control Policies):

장점:
- 속도 우위: 추론 속도가 빠르며, 동적 환경에서 더 안정적.
- 저렴한 훈련 비용: LLM에 비해 훈련 및 배포 비용이 낮음.
단점:
- 사용자 지시나 의도를 정확히 이해하거나 복잡한 명령을 처리하는 데 한계가 있음.

d) RT 시리즈: Robotic Transformer 모델

RT-1에서 시작된 Robotics Transformer(RT) 시리즈는 로봇 행동 예측을 위한 다양한 Transformer 기반 모델을 포함하며, 점진적인 개선과 새로운 기능을 추가했다.

RT 시리즈 주요 발전 단계:

BC-Z
- RT-1 이전 모델로, 행동 예측에 단순 MLP 레이어만 사용.
- 제한된 학습 능력과 확장성.
RT-1
- Transformer을 사용한 최초의 Robotics Transformer 모델.
- 더 큰 데이터 셋을 처리하고 더 나은 일반화 성능을 제공.
- 비교 우위: 기존 RNN 기반 모델 보다 더 많은 데이터를 학습 가능.
MOO
- RT-1을 확장하여 Multl-modal Prompt 처리 지원.
- 이미지와 텍스트를 함께 입력으로 받아 더 유연한 작업 수행 가능.
RT-Trajectory
- RT-1을 확장하여 궤적 스케치(trajectory sketches)를 입력으로 처리 가능.
- 예: 그래픽 인터페이스로 그려진 궤적 또는 시연 비디오에서 추출된 경로.
Q-Transformer
- RT-1을 기반으로 Q-러닝을 사용하여 학습.
- 성공 및 실패 궤적 데이터를 모두 활용해 강화 학습 성능 향상.
RT-2
- ViT와 LLM을 통합한 완전히 새로운 Architecture
- 기존 RT-1보다 더 정교한 작업 처리 및 높은 성능 달성.
RT-X:
- RT-1과 RT-2를 대규모 데이터 셋으로 재 학습.
- 160,266개의 작업과 527개의 기술 포함.
- 더 다양한 작업에서 뛰어난 성능을 발휘.
RT-H:
- RT-2를 기반으로 행동 계층(action hierarchies) 추가.
- 장점: 데이터 공유 촉진 및 작업 간 학습 효율성 향상.
- 예: “집기”와 “따르기” 작업 모두에서 “팔을 위로 움직이기”와 같은 공통 동작 재 사용.

C. High-level Task Planner

High-Level Task Planner는 복잡한 작업을 실행 가능한 하위 작업으로 분할하는데 중점을 두고, 이를 Task Decomposition(작업 분해)라고 한다. 이 접근법은 Task and Motion Planner(TAMP)와도 밀접한 관련이 있으며, 주로 LLM을 기반으로 구축된다.

주요 특징

LLM 기반 설계:
- 많은 고수준 작업 계획자는 LLMs을 기반으로 구축.
다중 모달 통합:
- 다중 모달 모듈을 End-to-end fashion으로 LLM에 통합하는 것이 일반적이나, 멀티모달 데이터를 활용한 훈련은 비용이 높음.
- 이를 대신하여 Language나 Code를 다중 모달 정보 교환의 매개체로 사용하여 LLM이 자연스럽게 처리할 수 있도록 하는 방식도 존재.

1) End-to-End Task Planners

저 수준 제어 정책은 간단한 언어 지시를 이해하고 실행하는 데 효과적이지만, 다중 하위 작업이 포함된 Long-horizon tasks(장기적인 작업)에서는 한계를 가짐.
LLM은 이러한 복잡한 장기 작업을 해석하고 분해하는 데 강력한 도구로 활용됨.

작동 방식

LLM 기반 고수준 계획자는 장기 작업을 더 단순한 하위 작업으로 분해.
하위 작업은 저수준 제어 정책이 순차적으로 실행하여 Hierarchical robotic system(계층적 로봇 시스템)을 개발.

대표적인 연구 및 프레임워크

SayCan :

SayCan은 고 수준 LLM 계획자와 저수준 제어 정책을 통합하는 프레임워크로, 사용자의 고수준 지시를 받아 실행 가능한 저 수준 기술을 선택한다.

작동 방식:

Task-Grounding (고수준 계획):
- LLM Planner가 사용자로부터 받은 고 수준 지시를 바탕으로, 가장 가능성이 높은 저수준 기술을 결정.
- 이를 "say"라는 개념으로 표현.
World-Grounding (저수준 실행 가능성 평가):
- 저수준 정책이 Value Function을 affordance 함수로 제공하여 기술을 수행할 가능성을 평가.
- 이를 "can"이라는 개념으로 표현.
결합 및 최적 기술 선택:
- LLM Planner의 계획과 affordance를 모두 고려하여, 현재 상태에서 실행 가능한 최적의 기술을 선택.

특징:

고수준 언어 계획과 저수준 행동 실행 간의 매끄러운 연결.
LLM의 강력한 계획 능력과 저수준 정책의 실행 가능성 평가를 결합하여 실용적인 작업 수행.

LID: Active Data Gathering:

LID는 Active Data Gathering (ADG)라는 새로운 데이터 수집 절차를 제안하여 데이터 활용도를 극대화한다.

주요 특징:

Hindsight Relabeling:
- 실패한 궤적(Trajectories)의 레이블을 재할당하여 데이터를 재활용.
- 성공 여부에 관계없이 데이터를 효과적으로 활용.
텍스트 변환:
- 모든 환경 입력을 textual descriptions(텍스트 설명)으로 변환.
결과:
- 언어 모델 기반 정책이 combinatorial generalization 능력을 강화.

Translated ⟨LM⟩: Two-Step Action Translation:

Translated ⟨LM⟩는 고수준 명령을 실행 가능한 행동으로 번역하는 2단계 프로세스를 제안한다.

작동 방식:

계획 생성 (Plan Generation):
- 사전 학습된 causal LLM을 활용하여 고수준 명령을 자유 형식 언어 표현(free-form language phrases)으로 분해.
행동 번역 (Action Translation):
- 사전 학습된 Masked LLM을 활용해 생성된 행동 표현과 Virtual-Home 행동 간 유사성을 계산하여 Mapping.
- 번역된 행동은 계획에 추가되며, 업데이트된 계획이 다음 행동 표현을 생성하도록 활용.
반복 프로세스:
- 계획이 완료될 때까지 위 과정을 반복.
Re-prompting 전략:
- 에이전트가 precondition errors(사전 조건 오류)를 만났을 때, corrective actions(수정 행동)을 생성하여 문제를 해결.

SL)³: Semi-Supervised Skill Learning with Latent Language:

고 수준 하위 작업과 저수준 행동을 연결하여 sparse natural language annotations (희소한 자연어 주석)으로 학습 가능한 hierarchical policy(계층적 정책)을 구축한다.

학습 절차:

Segmentation:
- 고수준 하위 작업(subtasks)을 저수준 행동(low-level actions)과 정렬.
Labeling:
- 하위 작업 설명(subtask descriptions)을 추론.
Parameter Update:
- 네트워크 매개변수를 업데이트.

결과

재사용 가능한 기술(reusable skills)을 계층적 구조에서 발견.

EmbodiedGPT:

EmbodiedGPT는 embodied-former라는 모듈을 도입하여 작업 관련 Instance-level features을 출력한다.

작동 방식:

정보 통합:
- Vision encoder embeddings.
- LLM에서 제공하는 Embodied Planning Information.
저수준 정책에 정보 제공:
- Instance feature는 즉각적인 다음 행동을 결정하는 데 필요한 정보를 제공.

PaLM-E:

PaLM-E는 ViT (Vision Transformer)와 PaLM을 통합하여 고수준 Embodied Reasoning Tasks를 수행할 수 있는 대형 다중 모달 언어 모델을 구현한다.

작동 방식:

입력 처리:
- 이미지와 고수준 언어 지시를 입력으로 받아들임.
고수준 계획 생성:
- PaLM-E는 입력을 기반으로 Text Plan을 생성하며, 이는 저 수준 로봇 정책을 위한 지시로 작동.
저수준 실행:
- 생성된 계획은 SayCan을 활용하여 실행 가능한 저 수준 지시로 매핑.
환경 변화에 따른 재계획:
- 저수준 정책이 동작을 수행하는 동안, 환경 변화가 발생하면 Replanning을 수행.

주요 기능:

VQA(Vision Question Answering) 작업:
- 일반적인 VQA 작업 처리.
- Embodied VQA 작업 추가 처리.
모바일 조작 환경:
- 환경 변화와 같은 동적 시나리오에서 높은 적응성을 보여줌.

다음이 마지막 페이지 입니다.

'Vision Language Action model' 카테고리의 다른 글

[Paper Review] RT-2: Vision-Language-Action Models TransferWeb Knowledge to Robotic Control (1)	2025.02.02
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (5) (1)	2025.01.22
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (3) (0)	2025.01.22
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (2) (1)	2025.01.21
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (1) (0)	2025.01.21

Embodied AI in Robotics

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (4)

b) Action Types and Their Training Objectives

Discrete Action vs SE(2) Action in Robotics

c) LLM vs Non-LLM Control Policies

d) RT 시리즈: Robotic Transformer 모델

C. High-level Task Planner

1) End-to-End Task Planners

대표적인 연구 및 프레임워크

'Vision Language Action model' 카테고리의 다른 글

티스토리툴바

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (4)

b) Action Types and Their Training Objectives

Discrete Action vs SE(2) Action in Robotics

c) LLM vs Non-LLM Control Policies

d) RT 시리즈: Robotic Transformer 모델

C. High-level Task Planner

1) End-to-End Task Planners

대표적인 연구 및 프레임워크

'Vision Language Action model' 카테고리의 다른 글

'Vision Language Action model' Related Articles

티스토리툴바