본문 바로가기

Vision Language Action model

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (1)

논문 주소: https://arxiv.org/pdf/2405.14093

Abstract

Deep Learning이 Computer Vision, Natural Language Processing, Reinforcement Learning 등 여러 분야에서 놀라운 성공을 이루고 있습니다. 이 분야를 대표하는 Neural networkCNN, Transformer, Deep Q-Network 등을 활용해 다양한 모델과 놀라운 발전을 이루고 있습니다. 단일 모델 신경망을 기반으로 다수의 멀티모달 모델 이 개발되어 Visual QnA, 이미지 캡션 생성, 음성 인식 등 다양한 작업을 해결해 왔습니다.

 

Embodied  AI에서 지시를 따르는 Robot Policy의 부상은 Vision-Language-Action 모델로 알려진 새로운 유형의 멀티모달 모델의 개발을 촉진했습니다. 이 모델들의 다중 모달 처리 능력로봇 학습의 근본적인 요소가 되어지구요. VLA(Vision-Language-Action)모델은 다재다능성, 정교함, 일반화 가능성들의 특성을 강화하기 위해 다양한 방법이 도입되고 있습니다. 일부 모델은 특정 구성 요소를 개선하는 데 중점을 두며, 또 다른 모델은 저 수준 동작을 예측하는 제어 정책 개발에 주력합니다. 또 어떤 VLA 모델은 장기적인 작업실행 가능한 하위 작업으로 분해할 수 있는 고 수준 작업 계획자의 역할을 수행합니다.

최근 몇 년간, 수 많은 VLA 모델이 등장하면서, Embodied AI의 빠른 발전을 반영하고 있습니다. 따라서 이러한 진화하는 동향으로 포괄적으로 파악하기 위한 Survey 논문입니다.


Introduce

 Vision-Language-Action(VLA) 모델은 Embodied AI 분야에서 시각,언어, 행동 모달리티의 정보를 처리하도록 설계된 Multi-Modal의 한 유형입니다. ChatGPT와 같은 대화형 AI와는 달리, Embodied AI는 환경과 상호작용하는 물리적 구현제를 제어하는 것을 추가로 요구합니다. 따라서 로봇공학은 Eobodied AI에서 가장 두드러진 분야로 꼽히고 있습니다. 

 

  Language 기반 로봇 작업에서는 PolicyLanguage 지시를 이해하고, 환경을 시각적으로 인지하며, 적절한 행동을 생성할 수 있는 멀티모달 능력을 갖춰야 합니다. 이러한 요구를 충족하기 위해 VLA 모델이 설계되었으며, 해당 용어는 최근 RT-2에 의해 정의 되었습니다. 기존의 심층 강화 학습 접근법과 비교했을 때, VLA는 복잡한 환경에서 더 우수한 다재다능성, 정교함, 일반화 가능성을 제공합니다. 그 결과, VLA는 공장과 같은 통제된 환경 뿐 아니라, 가정 내 일상 작업에서도 정교하게 활용 될 수 있습니다. 

 

 초기 Deep-Learning의 발전은 주로 단일 모달 모델로 구성됩니다. Computer Vision 분야에서는 AlexNet이 인공 신경망(ANN)의 가능성을 보여주었고, NLP 분야에서는 RNN이 다양한 언어 모델의 기초를 닦았습니다. 그러나 최근엔 Transformer가 등장하였고, 이것이 우위를 점하고 있습니다. 또한, Deep-Q network는 강화학습 문제를 해결하는 데 ANNs가 효과적임을 입증하였습니다.

 이러한 단일 모델들의 발전을 바탕으로, 멀티 모달 모델은 시각적 질문-응답, 이미지 캡션 생성, 음성 인식 등 다양한 작업을 해결할 수 있을 만큼 강력한 모델로 진화하였습니다. VLA모델은 이러한 멀티모달 모델의 최신 진화를 나타내며, Embodied AI 분야에서 중요한 역할을 하고 있습니다. 

 

 기존의 로봇 정책은 주로 강화 학습을 기반으로 하며, 일반적으로 공장이나 실험실과 같은 통제된 환경에서 제한된 작업 집합에 초점을 맞춥니다. 예를 들어, 특정 물체를 잡는 작업에 특화된 정책을 학습 시킵니다. 그러나 최근 대형 언어 모델(LMMs)비전 언어 모델(VLM)의 발전과 유사하게 보다 다재다능한 Multi-Task 정책에 대한 수요가 증가하고 있는 추세입니다. Multi-Task 정책을 개발하는 것은 더 넓은 범위에서 기술을 학습하고, 동적이고 불확실한 환경에 적응해야 하므로 더 큰 도전과제로 손 꼽힙니다. 이걸 더해 Task Specification 또한 복잡성을 더합니다. 일부 접근법은 작업을 선택하기 위해 One-hot Vector를 사용하지만, 이는 훈련 데이터셋에 포함된 작업의 수에 의해 한계가 발생합니다. 따라서 다양한 작업을 처리할 수 있는 정책을 설계하려면, 기존 강화 학습 기반 정책의 한계를 넘어선 새로운 방법론이 요구됩니다. 

 

사전 학습된 Vision 기반 모델, LMMs, 그리고 VLMs의 성공을 기반으로 Vision-Language-Action모델은 이러한 과제를 해결하는데 있어 뛰어난 역량을 입증했습니다. 최신 Vision Encoder를 기반으로 제공되는 사전학습된 시각적 표현은 VLA모델이 복잡한 환경을 인지하는 데 도움을 주며, 객체의 Class, 자세, 기하구조와 같은 정보를 보다 정확히 추정할 수 있게 합니다. 또한 Language 모델의 발전에 힘입어, 언어 지시에 기반한 Task Specification이 현실적인 옵션에 추가되었습니다. 마지막으로 Flamingo, BLIP-2Foundation VLM과 같은 Vision-Language를 통합하는 다양한 방법이 탐구 되었습니다. 

 다양한 VLM 모델들은 서로 다른 측면에 중심을 두고 있으며, 이는 Figure 1에 의해 분류 됩니다. 일부 연구는 VLA의 특정 구성 요소를 향상 시키는 데 집중합니다. 예를 들어, 사전학습된 시각적 표현, 동역학 학습, 월드 모델 등을 강화하는 것이 그 예입니다. 한편 많은 연구는 로봇 제어 정책에 초점을 맞추고 있습니다. 이 범주에서는 언어 지시가 제어 정책의 입력으로 사용되며, 환경에 기반으로 원초적 동작(Primitive Actions)을 생성합니다. 반대로 또 다른 범주의 VLA는 저 수준 제어를 추상화하는 고 수준의 게획자로 작동합니다. 이 모델들은 장기적인 로봇 작업을 하위 작업으로 분해하는 데 초점을 맞추며, 각 하위 작업은 제어 정책에 의해 하나씩 수행되어 전체 작업을 완료하게 됩니다.


BACKGROUND

A. Unimodal Models

Vision-Language-Action 모델은 Vision(시각), Language(언어), Action(행동)의 세 가지 모달리티를 통합하며, 기존 Unimodal모델에 의존하여 발전해 왔습니다. 

 

1. Computer Vision

  • 초기 모델 
    • CNN(Convolutional Neural Network)
      • ex: ResNet
      • 이미지 분류 및 객체 감지 등 다양한 작업에 활용.
  • 발전: 
    • Vision Transformer
      • ex: ViT, SAM
      • 더 일반화된 Vision 모델 개발을 가능하게 함.

2. Natural Language Processing

  • 초기 모델: 
    • RNNs
      • ex: LSTM,GRU
      • 시간적 의존성을 처리하는 언어 모델로 활용.
  • 발전
    • Transformer 기반 모델:
      • ex: BERT, ChatGPT
      • Pretrain-Fine tuning 패러다임을 도입.
      • 최근에는 Prompt Tuning이 LLMs의 성공을 이끎. 

3.  Reinforcement Learning(RL)

  • 대표 사례:
    • DQN, AlphaGo, PPO,Dactyl
    • 상태-행동-보상(MDP)구조를 활용.
  • 발전: 
    • Transformer 도입:
      • MDP를 autoregressive sequential data로 모델링하는 Transformer 기반 접근법
      • 더 정교한 정책 학습 가능.

B. Vision Language Models

1. Vision Language Tasks

Vision Language(VL) 작업은 Computer VisionNLP 모델융합을 요구하며, 대표적인 작업은 다음이 포함된다: 

  • Image Captioning: 주어진 이미지의 내용을 텍스트로 연결
  • Visual Question Answering: 이미지에 대한 질문에 응답.
  • Visual Grounding: 텍스트 설명에 따라 이미지의 특정 영역을 실별. 

2. 초기 접근법

  • Show and Tell: 초기 CNN과 RNN의 성공을 활용하여 Vision-Language 작업 수행.
  • 한계점: 모델 용량의 제한 및 멀티모달 표현의 부족. 

3. Transformer 기반 VLM의 발전

대형 언어 모델(BERT,GPT)의 도입 이후, Vision-Language Models(VLMs)은 다음 세 가지 주요 방향으로 발전했다.

  • Self-Supervised Pretraining
    •  ViLBERT: 멀티모달 Self-Supervised Pretraining의 선구자.
  • Contrastive Pretraining:
    • CLIP: Multi-Modal Alignment를 위한 Contrastive pretraining 방법 대중화. 
  • Multi-Modal LLMs(MLLMs):
    • 대형 멀티모달로 확장되어 멀티모달 지시 따르기 작업에서 최신 성능(SOTA) 달성.
    • 대표적 모델: Flamingo, LLaVA, BLIP-2

4. VLM과 VLA의 관계 

VLM은 VLM과 긴밀히 연결되어 있으며 멀티모달 아키텍처는 VLA로 쉽게 확장 가능하다. 

  1. 저 수준 제어(Low-level Actions): VLM에 ACtion Decoder를 부착하여 저 수준 제어 작업 수행.
  2. 고 수준 작업 계획(High-Level Task Planning): 충분한 추론 능력을 갖춘 VLM은 고 수준 작업 Planner로도 활용 가능.

C. Embodied AI & Robot Learning

Embodied AI물리적 환경능동적으로 상호작용하는 독특한 형태의 인공지능으로, 텍스트 대화를 처리하는 대화형 AI(ex. ChatGPT)나 Text-Video 생성과 같은 작업에 초점을 맞춘 생성형 AI(ex.SORA)와는 구별된다. Embodied AI는 스마트 가전, 스마트 안경, 자율주행 차 등 다양한 구현체를 포함하며, 그 중에서도 로봇이 가장 두드러진 구현체로 꼽힌다. 

 

Robot Learning & Reinforcement Learning

 로봇 학습은 일반적으로 강화 학습 문제로 정의 되며, 이는 상태(s), 행동(a), 보상(r)로 구성된 Markov Decision Process(MDP)로 표현된다, MDP의 궤적은 다음과 같이 나타난다: 

$$ τ=(s_{t=1}, a_{t=1},γ_{t=1},...,s_{t=T}, a_{t=T},γ_{t=T}) $$

 

보상 함수와 모방 함수

보상 함수는 정의하기 여려운 경우, 모방 학습이 궤적 내 해동 분표직접 모델링하는 데 사용된다. 이 경우, 궤적은 다음과 같이 표현된다: 

$$τ=(s_{t=1}, a_{t=1},...,s_{t=T}, a_{t=T})$$

 

언어 조건부 강화학습

많은 Multi Task 로봇 모델은 언어를 지시로 사용하여 수행할 작업이나 기술을 결정하며, 이를 언어 조건부 강화 학습(Language-Conditioned Reinforcement Learning)이라고 한다. 

 

Embodied AI로봇 학습은 물리적 세계에서의 복잡한 작업 능력을 가능하게 하며, 강화 학습언어 기반 지시의 융합을 통해 더욱 정교한 기술다재다능성을 제공한다.

 

 

다음 페이지에서 계속됩니다!