본문 바로가기

Vision Language Action model

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (5)

마지막 페이지 입니다. 이전 내용이 궁금하신 분들은 아래 링크 참고 바랍니다!

 

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (1)

https://seohyun00.tistory.com/2

 

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (2)

https://seohyun00.tistory.com/3

 

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (3)

https://seohyun00.tistory.com/4


(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (4)

https://seohyun00.tistory.com/5

2) 3D Vision in High-Level Task Planners

3D 정보는 로봇의 환경과 상호작용 및 작업 수행에 중요한 역할을 하며, 이를 활용한 작업 계획(Task Planning)연구가 활발히 이루어지고 있다. 대부분의 기존 VLM은 2D 이미지만 처리할 수 있었기에, 3D 비전을 통합하려면 아키텍처 변경이 필요하다. 이러한 모델들은 주로 End-to-End 방식으로 개발된다.

주요 연구

LEO:

  •  LEO는 기존의 이미지 입력 방식을 3D world와의 상호작용에서 제한적인 요소로 식별하고, 이를 극복하기 위해 설계된 LLM 기반 아키텍처이다.

훈련 방식: 

LEO는 새로운 데이터셋을 활용하여 두 단계로 학습한다:

  1. 3D Vision-Language Alignment:
    • 3D 환경에서 시각적 정보와 언어 정보를 정렬하여 모델이 멀티모달 데이터를 이해하도록 학습.
  2. 3D Vision-Language-ActionInstruction Tuning:
    • 3D 환경에서의 작업 수행을 위한 언어 지시 조정.

주요 기능:

  • 3D 작업 능력:
    • 3D Captioning
    • Question-Answering
  • Embodied Tasks:
    • Embodied Reasoning
    • Embodied Navigation
    • Robotic Manipulation

3D-LLM:

  • 3D-LLM은 LLM에 3D 정보를 주입하여 3D 관련 작업을 수행할 수 있도록 확장한 모델이다.

주요 기능:

  • 3D 작업 지원:
    • 3D-지원 대화(3D-assisted dialog).
    • 3D 내비게이션(3D navigation).
  • 3D 특징 표현:
    • 다양한 형태로 3D 특징을 통합:
      • Point cloud.
      • gradSLAM.
      • 신경 복셀 필드(Neural voxel field).

MultiPLY:

  • MultiPLY는 객체 중심(object-centric)의 Embodied LLM으로, 다양한 모달리티를 통합하여 확장성을 높인 모델이다.

특징:

  • 다중 모달리티 통합:
    • Audio.
    • 촉각(tactile).
    • 열 감지(thermal).

StructFormerStructFormer:

  • 객체를 복잡한 구조로 배치(Arranging objects into complex structures)하는 작업을 해결하기 위해 설계된 모델이다.

특징:

 

  • 이전 방법들은 쌍(pairwise) 단위의 의미적 관계와 순차적 조작(sequential manipulation)에 의존했으나, StructFormer는 모든 객체 간 관계를 명시적으로 추론(reasoning)하여 객체의 목표 위치(target positions)을 예측.

StructDiffusion:

  • StructDiffusionStructFormer를 기반으로 하여 확산 기반 생성(diffusion-based generation) 접근법을 통합하여 성능을 확장.
  • StructFormer의 확장판 이라고도 한다.

ShapeLLM:

  • ShapeLLM은 **ReCon++**라는 혁신적인 3D 비전 인코더를 기반으로 구축된 모델로, LLaMA와의 통합을 통해 3D 상호작용 성능을 향상시킨다.

구성 요소:

  • ReCon++
    • multi-view imagetext teachers 로부터 지식을 추출.
    • 포인트 클라우드 MAE(Masked Autoencoder)를 활용하여 3D 데이터를 효율적으로 학습.
  • LLaMA 통합
    • ReCon++와 LLaMA를 결합하여 3D 환경에서의 상호작용 및 계획 성능을 강화.
  • 3D MM-Vet 벤치마크:
    • 새롭게 제안된 3D MM-Vet 벤치마크에서 우수한 성능을 입증.
    • 3D 데이터를 활용한 상호작용 작업에서 높은 정확도와 효율성을 보여줌.
  • 적용:
    • 3D 상호작용 성능 개선 및 3D 환경 작업 수행.

3) Language-based Task Planners

Inner Monologue는 high-level command저수준 정책(low-level policy) 사이에서 closed-loop control planning을 가능하게 하는 시스템이다.

 

작동 방식:

  1. LLM 활용:
    • 저수준 제어 정책을 위한 언어 지시를 생성.
  2. 동적 업데이트:
    • 제어 정책에서 받은 피드백을 바탕으로 언어 지시를 동적으로 업데이트.
    • 피드백의 유형:
      • 성공 피드백(success feedback)
      • 객체 및 장면 피드백(object and scene feedback)
      • 인간 피드백(human feedback)
  3. 추가 학습 불필요:
    • 피드백이 텍스트 형식으로 LLM에 전달되므로, LLM에 대한 추가 학습 없이 시스템이 작동.

유사 접근법: ReAct 

  • 유연한 추론(reasoning traces) 지원:
    • 다양한 작업에 대해 보다 폭넓고 유연한 추론 가능.
  • LLM-PlannerLLM-Planner는 **계층적 정책(hierarchical policy)**을 구축하기 위한 새로운 접근 방식을 제안한다. 구성 요소:
    1. 고수준 계획자 (High-Level Planner)
      • LLM을 활용하여 Natural language plans을 생성.
    2. 저수준 계획자 (Low-Level Planner)
      • 고 수준 계획의 각 하위 목표(subgoal)원초적 동작(primitive actions)으로 변환.
    주요 차별점:
    • 기존 방법과 아키텍처 측면에서 유사하지만, 재계획(re-planning) 메커니즘을 포함하여 로봇이 "막힌 상황(get unstuck)"을 해결할 수 있도록 지원.

Socratic Models (SMs):

  • SMs는 파인튜닝 없이 다양한 사전 학습된 모델을 효과적으로 조합할 수 있는 독창적인 프레임워크를 제공한다.
  • 멀티모달 정보 기반 프롬프트(multimodal-informed prompting)를 핵심 구성 요소로 하여, 다양한 멀티모달 모델 간 정보 교환을 촉진한다.

작동 방식:

  • 비언어적 입력을 언어 설명으로 변환:
    • 멀티모달 모델을 활용해 언어가 아닌 입력(예: 이미지, 비디오)을  언어 공간(language space)에서 표현.
    • 이를 통해 다양한 모달리티를 언어 기반으로 통합.

응용 및 성능:

  • 멀티모달 작업에서 탁월한 성능을 발휘.
  • 로봇의 지각(perception)계획(planning) 작업에서 높은 유연성을 입증.
  • 작업 계획을 natural language plans뿐만 아니라 유사 코드(pseudocode) 형태로도 표현 가능.

4) Code-based Task Planners

code-based Task Planner는 LLM의 프로그래밍 능력을 활용하여 작업 계획을 생성하고 실행하는 방법으로, 추가 학습 없이 효과적인 결과를 도출한다. 주요 연구는 다음과 같다.

  • ProgPrompt:
    • 프로그램과 유사한 명세로 LLM을 프롬프트하여 가정 작업에 대한 고 수준 계획 생성.
    • 프로그램 내 assertions를 통해 환경 피드백을 통합.
  • ChatGPT for Robotics
    절차
    1. API 정의:
      • 작업 수행에 필요한 API 목록 정의(예: 객체 감지 API, 그립(grasp) API, 이동(move) API 등).
    2. 프롬프트 생성:
      • ChatGPT를 위한 프롬프트를 작성하여 환경, API 기능, 작업 목표 등을 명시.
    3. 코드 작성 및 검토:
      • 정의된 API를 기반으로 ChatGPT에 작업을 수행할 코드를 작성하도록 반복적으로 요청.
      • 시뮬레이션 및 사용자 피드백을 통해 코드 품질과 안전성을 평가.
    4. 코드 실행:
      • ChatGPT가 생성한 코드를 실행하여 작업 수행.

    주요 특징
    • 고수준 작업 계획자 역할:
      • ChatGPT는 PaLM-E와 유사하게 고 수준 작업 계획자로 동작하며, 작업 실행은 API 호출을 통해 이루어짐.
    • 사용자 중심:
      • 사용자가 작업의 목표와 환경을 정의하고 피드백을 제공함으로써 코드 작성실행을 관리.
  • ChatGPT for Robotics는 ChatGPT의 프로그래밍 능력을 활용하여 "user on the loop" 방식을 구현한다. 이는 기존의 "engineer in the loop" 방식에서 벗어나 사용자 중심의 제어를 가능하게 한다.

 

code as Policies(CaP)

  • 핵심 개념:
    • LLM의 코드 생성 능력을 활용하여 정책 코드를 생성.
    • GPT-3 또는 Codex를 사용해 코드 작성 후, 이를 통해 Perception modulescontrol APIs를 호출.
  • 주요 강점:
    • "공간 기하학적 추론(spatial geometric reasoning)"에 뛰어난 성능.
    • 새로운 지시 사항에 대한 일반화 가능.
    • Low-level control primitives의 매개변수화(parameterization).
  • COME-robot과의 연계:
    • GPT-4V의 멀티모달 기능을 활용하여 Perception API의 필요성을 제거.
    • Open-ended reasoning적응형 계획(adaptive planning)을 통해 실패 복구(failure recovery)자유 형식 지시(free-form instruction following)를 가능하게 함.

DEPS:

  • Describe,Explain, Plan, Select”의 약자로, 환경에서 수집된 피드백을 바탕으로 계획 생성 실패 원인 설명. 이를 통해 재계획을 지원하는 접근법.
  1. Self-Explanation
    • 환경에서 피드백 설명을 수집하여 실패의 원인을 분석하고 이를 기반으로 재계획(re-planning) 수행.
  2. Trainable Goal Selector
    • 병렬로 존재하는 여러 후보 하위 목표(sub-goals) 중에서 달성 가능성이 높은 목표를 선택.
    • 기존의 고수준 작업 계획자들이 간과하기 쉬운 목표 선택(goal selection) 문제를 해결.

ConceptGraphs:

  • 관찰 시퀀스를 Open-Vocabulary 3D Scene Graph로 변환하는 방법을 제안한다. 이 접근법은 객체의 의미적, 공간적 관계를 표현하여 LLM 기반 작업 계획(Task Planning)에 활용된다.
  • 객체 추출
    • RGB 이미지를 2D Segmentation Models을 사용해 객체를 추출.
  • 캡션 및 관계 설정
    • VLM을 활용해 객체에 대한 캡션 생성 및 객체 간 관계를 설정.
    • 이를 통해 3D 장면 그래프가 형성됨.
  • 텍스트 변환
    • 생성된 3D 장면 그래프를 텍스트 형식(JSON)로 변환.
    • 텍스트 형식은 LLM이 의미적, 공간적 관계를 이해하고 작업 계획을 수립하는 데 도움을 줌.

Pros and Cons.

1. End-to-End Task Planners (예: SayCan)

  • 장점:
    • 저수준 제어 정책과 유사한 아키텍처를 사용하며, 특정 작업에 최적화 가능.
  • 단점:
    • LLM과 Visual Transformer를 결합한 대규모 모델 크기로 인해 훈련 비용이 매우 높음.

2. Language-based Task Planners

  • 장점:
    • 기존의 언어 조건부 제어 정책(Language-Conditioned Control Policies)원활한 통합 가능.
  • 단점:
    • 생성된 계획을 실행 가능한 언어 지시로 매핑하려면 Fine-tuning 또는 Alignment 과정이 필요.

3. Code-based Task Planners

  • 장점:
    • LLM의 프로그래밍 능력을 활용하여 지각(perception)행동(action) 모듈을 연결.
    • 추가적인 훈련이 필요하지 않아 비용 효율적.
  • 단점:
    • 기존 모델의 성능 한계에 의해 제약될 수 있음.

IV. DATASETS AND BENCHMARKS

 

 

V. CHALLENGES AND FUTURE DIRECTIONS

이에 대한 내용은 자세히 다루지 않고 큰 틀에 대해서만 다루겠습니다.

 

Scarcity of Robotic Data:

  • 현실 세계 로봇 데이터 확보는 시간과 자원이 많이 소요되며, 시뮬레이션 데이터에만 의존하면 시뮬레이션-현실 간 격차가 커짐. 다양한 현실 데이터 확보를 위해 기관 간 협력이 필요하며, 더 현실적이고 효율적인 시뮬레이터 개발이 요구된다.

Motion Planning:

  • 현재 Motion Planning 모듈은 다양한 환경의 복잡성을 해결하는 데 한계가 있어 정밀 작업, 복잡한 환경 내비게이션 등에 어려움을 겪음. 이를 개선하려면 더 강력한 알고리즘 개발이 필요하다.

Real-Time Responsiveness:

  • 로봇 시스템은 실시간으로 의사결정을 하고 동작해야 하며, VLA 모델은 지연을 최소화하여 응답성을 높여야 함. 고수준 작업 플래너부터 모션 플래너까지 전체 시스템의 글로벌 최적화가 중요함.

Integration of Multiple Modalities:

  • VLA는 시각, 언어, 행동 등 다양한 모달리티를 통합해야 하며, 이를 위해 다중 모달 표현 학습 및 융합 기술 발전이 필요함. 음성, 오디오 등의 모달리티를 추가하면 사용자와의 협업 능력이 강화됨.

Generalization to Unseen Scenarios:

  • 다양하고 새로운 상황에서 자연어 지시를 이해하고 수행할 수 있는 로봇 시스템 개발이 필요함. 이를 위해 적응성과 확장성을 갖춘 VLA 아키텍처가 요구됨.

Long-Horizon Task Execution:

  • 단일 지시가 “방 청소”처럼 여러 단계를 포함하는 장기 과제로 번역될 수 있음. 성공적인 실행을 위해 강력한 인식 능력과 상식을 갖춘 효율적인 플래너 개발이 중요함.

Foundation Model:

  • 로봇 작업에 대한 VLA 기초 모델 탐색은 여전히 초기 단계이며, 인터넷 규모의 데이터와 최첨단 멀티모달 모델 활용이 필요함.

Multi-agent Systems:

  • 로봇 대규모 배치는 다중 에이전트 간 협력, 과제 분배, 이질적인 플릿 관리 등에서 도전 과제를 초래함. 분산 인식, 협력적 장애 복구 등의 장점을 극대화하려면 추가 연구가 필요함.

Benchmarks:

  • 현재 VLA 평가 벤치마크는 기술 평가 범위가 제한적이며, 현실적 시뮬레이터 기반의 다양한 기술 평가를 위한 벤치마크 개발이 요구됨. 고수준 플래너와 저수준 제어 정책의 통합 평가가 이상적임.

 

Safety Considerations: 

  • 로봇의 현실 세계와의 상호작용에서 안전은 필수적임. 안전 메커니즘, 위험 평가, 인간-로봇 상호작용 프로토콜의 통합이 필요하며, 의사결정 과정의 해석 가능성과 확장성을 통해 안전성을 향상시켜야 함.

Ethical and Societal Implications:

  • 로봇 배치는 프라이버시, 안전, 일자리 대체, 편향, 사회적 규범에 대한 영향 등 윤리적·법적·사회적 문제를 제기함. 이를 해결하기 위해 효과적인 규제가 필요함.

 

긴 글 읽어주셔서 감사합니다. 앞으로 Vision-Language-Action Model에 대해서 논문 리뷰 및 프로젝트 진행할 예정입니다.