본문 바로가기

Vision Language Action model

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (4)

이어서 작성 하겠습니다. 

 

이전 내용이 궁금하신 분들은 아래 링크 참고 바랍니다!

 

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (1)

https://seohyun00.tistory.com/2

 

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (2)

https://seohyun00.tistory.com/3

 

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (3)

https://seohyun00.tistory.com/4

b) Action Types and Their Training Objectives

Low-Level Control Policies

  • 대부분의 저수준 제어 정책은 End-effector pose에 대한 행동을 예측.
  • Motion Planning Module:
    • 개별 관절의 동작은 Inverse Kinematics을 통해 제어.
    •  장점:
      • 다양한 구현체(embodiments)로의 일반화에 유리.
    • 단점:
      • 정교한 동작에는 제한이 있음.

Behavior Cloning (BC) Objective

  • Imitation Learning(모방 학습)에서 사용되는 주요 학습 목표.
  • 다양한 행동 유형에 대해 각각 다른 변형(variants)을 사용.
  • Ex:특정 동작을 재현하도록 설계된 BC는 특정 작업에 적합한 변형을 통해 효율성을 높임.

훈련 목표:

  • Continuous Action :
    • 평균 제곱 오차(MSE)로 정의:
    • $L_{\text{Cont}} = \sum_{t} \text{MSE}(a_t, \hat{a}_t)$
    여기서 $\hat{a}_t$는 모델이 예측한 행동, $a_t$는 시연 데이터에서 제공된 행동

  • Discrete Action:
  • 행동 값을 여러 구간(bin)으로 나눔.
  • 교차 엔트로피 손실(CE)로 정의
  • $L_{Disc}​=∑_t​CE(a_t​,\hat a^t​)$

 

  • SE(2) Action:
    • CLIPort와 VIMA에 적용됨. 
    • 집기(pick) 및 놓기(place) 자세를 예측.
    • CE 손실 사용: LSE(2)=CE(apick,a^pick)+CE(aplace,a^place)
    • $L_{\text{SE(2)}} = \text{CE}(a_{\text{pick}}, \hat{a}{\text{pick}}) + \text{CE}(a{\text{place}}, \hat{a}_{\text{place}})$

  • DDPM Objective (Diffusion 기반):
    • 데이터 샘플 $x_0$와 random noise $ε_k$ 를 사용:
      • $L_{DDPM}​=MSE(ϵ_k​,ϵ_θ​(x_0​+ϵ_k​,k))$
  • $x_0$: 데이터셋에서 추출된 raw example.
  • $\varepsilon_k$: Iteration k 에서 추가된 random noise.
  • $\varepsilon_\theta$:
    • Noise prediction network.
    • 여기서는 VLA 모델이 해당 역할을 수행.

Discrete Action vs SE(2) Action in Robotics

Discrete Action (ex: RT-1):

  • 장점:
    • RT-1에서 우수한 성능을 보이며, 다양한 작업에서 효율적으로 동작.
  • 단점 (Octo 주장):
    • Early grasping issues를 초래할 가능성 있음.
    • Ex: 대상 물체를 부적절한 시점에 잡는 문제 발생.

 


SE(2) Action:

  • 특징:
    • 모델이 두 가지 End-effector poses만 예측하도록 요구.
    • Ex: Pick pose와 place pose.
  • 장점:
    • 최대 두 번의 Forward passes로 예측 가능.
    • 간단하고 효율적인 동작 생성에 적합.
  • 단점:
    • Action dexterity과 Generalizability에 제한이 있음.
    • 복잡한 작업에서 유연성이 부족할 수 있음.

c) LLM vs Non-LLM Control Policies

 

LLM 기반 제어 정책 (LLM-based Control Policies):

  • 장점:
    • 사용자 의도 해석: LLM은 사용자 지시를 더 잘 분석하고 해석하여 Instruction-following abilities을 크게 향상.
  • 단점:
    • 훈련 비용: LLM의 훈련은 높은 비용이 소요됨.
    • 추론 속도: 느린 추론 속도는 특히 Dynamic environments에서 성능에 큰 영향을 미침.
    • 환경이 변화할 경우, LLM의 추론 중 변경 사항을 반영하지 못할 가능성 존재.

Non-LLM 기반 제어 정책 (Non-LLM-based Control Policies):

  • 장점:
    • 속도 우위: 추론 속도가 빠르며, 동적 환경에서 더 안정적.
    • 저렴한 훈련 비용: LLM에 비해 훈련 및 배포 비용이 낮음.
  • 단점:
    • 사용자 지시나 의도를 정확히 이해하거나 복잡한 명령을 처리하는 데 한계가 있음.

d) RT 시리즈: Robotic Transformer 모델

RT-1에서 시작된 Robotics Transformer(RT) 시리즈는 로봇 행동 예측을 위한 다양한 Transformer 기반 모델을 포함하며, 점진적인 개선과 새로운 기능을 추가했다.

RT 시리즈 주요 발전 단계:

  1. BC-Z
    • RT-1 이전 모델로, 행동 예측에 단순 MLP 레이어만 사용.
    • 제한된 학습 능력과 확장성.
  2. RT-1
    • Transformer을 사용한 최초의 Robotics Transformer 모델.
    • 더 큰 데이터 셋을 처리하고 더 나은 일반화 성능을 제공.
    • 비교 우위: 기존 RNN 기반 모델 보다 더 많은 데이터를 학습 가능.
  3. MOO
    • RT-1을 확장하여 Multl-modal Prompt 처리 지원.
    • 이미지와 텍스트를 함께 입력으로 받아 더 유연한 작업 수행 가능.
  4. RT-Trajectory
    • RT-1을 확장하여 궤적 스케치(trajectory sketches)를 입력으로 처리 가능.
    • 예: 그래픽 인터페이스로 그려진 궤적 또는 시연 비디오에서 추출된 경로.
  5. Q-Transformer
    • RT-1을 기반으로 Q-러닝을 사용하여 학습.
    • 성공 및 실패 궤적 데이터를 모두 활용해 강화 학습 성능 향상.
  6. RT-2
    • ViT와 LLM을 통합한 완전히 새로운 Architecture
    • 기존 RT-1보다 더 정교한 작업 처리 및 높은 성능 달성.
  7. RT-X:
    • RT-1과 RT-2를 대규모 데이터 셋으로 재 학습.
    • 160,266개의 작업과 527개의 기술 포함.
    • 더 다양한 작업에서 뛰어난 성능을 발휘.
  8. RT-H:
    • RT-2를 기반으로 행동 계층(action hierarchies) 추가.
    • 장점: 데이터 공유 촉진 및 작업 간 학습 효율성 향상.
    • 예: “집기”와 “따르기” 작업 모두에서 “팔을 위로 움직이기”와 같은 공통 동작 재 사용.

C. High-level Task Planner

High-Level Task Planner는 복잡한 작업을 실행 가능한 하위 작업으로 분할하는데 중점을 두고, 이를 Task Decomposition(작업 분해)라고 한다. 이 접근법은 Task and Motion Planner(TAMP)와도 밀접한 관련이 있으며, 주로 LLM을 기반으로 구축된다. 

 

주요 특징

  • LLM 기반 설계:
    • 많은 고수준 작업 계획자는 LLMs을 기반으로 구축.
  • 다중 모달 통합:
    • 다중 모달 모듈을 End-to-end fashion으로 LLM에 통합하는 것이 일반적이나, 멀티모달 데이터를 활용한 훈련은 비용이 높음.
    • 이를 대신하여 Language나 Code를 다중 모달 정보 교환의 매개체로 사용하여 LLM이 자연스럽게 처리할 수 있도록 하는 방식도 존재.

1) End-to-End Task Planners

  • 저 수준 제어 정책은 간단한 언어 지시를 이해하고 실행하는 데 효과적이지만, 다중 하위 작업이 포함된 Long-horizon tasks(장기적인 작업)에서는 한계를 가짐.
  • LLM은 이러한 복잡한 장기 작업을 해석하고 분해하는 데 강력한 도구로 활용됨.

작동 방식

  • LLM 기반 고수준 계획자는 장기 작업을 더 단순한 하위 작업으로 분해.
  • 하위 작업은 저수준 제어 정책이 순차적으로 실행하여 Hierarchical robotic system(계층적 로봇 시스템)을 개발.

대표적인 연구 및 프레임워크

SayCan :

SayCan은 고 수준 LLM 계획자와 저수준 제어 정책을 통합하는 프레임워크로, 사용자의 고수준 지시를 받아 실행 가능한 저 수준 기술을 선택한다.

 

작동 방식:

  1. Task-Grounding (고수준 계획):
    • LLM Planner가 사용자로부터 받은 고 수준 지시를 바탕으로, 가장 가능성이 높은 저수준 기술을 결정.
    • 이를 "say"라는 개념으로 표현.
  2. World-Grounding (저수준 실행 가능성 평가):
    • 저수준 정책이 Value Function을 affordance 함수로 제공하여 기술을 수행할 가능성을 평가.
    • 이를 "can"이라는 개념으로 표현.
  3. 결합 및 최적 기술 선택:
    • LLM Planner의 계획과 affordance를 모두 고려하여, 현재 상태에서 실행 가능한 최적의 기술을 선택.

특징:

  • 고수준 언어 계획저수준 행동 실행 간의 매끄러운 연결.
  • LLM의 강력한 계획 능력저수준 정책의 실행 가능성 평가를 결합하여 실용적인 작업 수행.

LID: Active Data Gathering:

LID는 Active Data Gathering (ADG)라는 새로운 데이터 수집 절차를 제안하여 데이터 활용도를 극대화한다.

 

주요 특징:

  1. Hindsight Relabeling:
    • 실패한 궤적(Trajectories)의 레이블을 재할당하여 데이터를 재활용.
    • 성공 여부에 관계없이 데이터를 효과적으로 활용.
  2. 텍스트 변환:
    • 모든 환경 입력을 textual descriptions(텍스트 설명)으로 변환.
  3. 결과:
    • 언어 모델 기반 정책이 combinatorial generalization 능력을 강화.

Translated ⟨LM⟩: Two-Step Action Translation:

Translated ⟨LM⟩는 고수준 명령을 실행 가능한 행동으로 번역하는 2단계 프로세스를 제안한다.

 

작동 방식:

  1. 계획 생성 (Plan Generation):
    • 사전 학습된 causal LLM을 활용하여 고수준 명령을 자유 형식 언어 표현(free-form language phrases)으로 분해.
  2. 행동 번역 (Action Translation):
    • 사전 학습된 Masked LLM을 활용해 생성된 행동 표현 Virtual-Home 행동 간 유사성을 계산하여 Mapping.
    • 번역된 행동은 계획에 추가되며, 업데이트된 계획이 다음 행동 표현을 생성하도록 활용.
  3. 반복 프로세스:
    • 계획이 완료될 때까지 위 과정을 반복.
  4. Re-prompting 전략:
    • 에이전트가 precondition errors(사전 조건 오류)를 만났을 때, corrective actions(수정 행동)을 생성하여 문제를 해결.

SL)³: Semi-Supervised Skill Learning with Latent Language:

고 수준 하위 작업저수준 행동을 연결하여 sparse natural language annotations (희소한 자연어 주석)으로 학습 가능한 hierarchical policy(계층적 정책)을 구축한다.

 

학습 절차:

  1. Segmentation:
    • 고수준 하위 작업(subtasks)을 저수준 행동(low-level actions)과 정렬.
  2. Labeling:
    • 하위 작업 설명(subtask descriptions)을 추론.
  3. Parameter Update:
    • 네트워크 매개변수를 업데이트.

결과

  • 재사용 가능한 기술(reusable skills)을 계층적 구조에서 발견.

EmbodiedGPT:

EmbodiedGPT는 embodied-former라는 모듈을 도입하여 작업 관련 Instance-level features을 출력한다.

 

작동 방식:

  1. 정보 통합:
    • Vision encoder embeddings.
    • LLM에서 제공하는 Embodied Planning Information.
  2. 저수준 정책에 정보 제공:
    • Instance feature는 즉각적인 다음 행동을 결정하는 데 필요한 정보를 제공.

PaLM-E:

PaLM-E는 ViT (Vision Transformer)PaLM을 통합하여 고수준 Embodied Reasoning Tasks를 수행할 수 있는 대형 다중 모달 언어 모델을 구현한다.

.

작동 방식:

  1. 입력 처리:
    • 이미지고수준 언어 지시를 입력으로 받아들임.
  2. 고수준 계획 생성:
    • PaLM-E는 입력을 기반으로 Text Plan을 생성하며, 이는 저 수준 로봇 정책을 위한 지시로 작동.
  3. 저수준 실행:
    • 생성된 계획은 SayCan을 활용하여 실행 가능한 저 수준 지시로 매핑.
  4. 환경 변화에 따른 재계획:
    • 저수준 정책이 동작을 수행하는 동안, 환경 변화가 발생하면 Replanning을 수행.

주요 기능:

  • VQA(Vision Question Answering) 작업:
    • 일반적인 VQA 작업 처리.
    • Embodied VQA 작업 추가 처리.
  • 모바일 조작 환경:
    • 환경 변화와 같은 동적 시나리오에서 높은 적응성을 보여줌.

 

다음이 마지막 페이지 입니다.