(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI

마지막 페이지 입니다. 이전 내용이 궁금하신 분들은 아래 링크 참고 바랍니다!

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (1)

https://seohyun00.tistory.com/2

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (2)

https://seohyun00.tistory.com/3

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (3)

https://seohyun00.tistory.com/4

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (4)

https://seohyun00.tistory.com/5

2) 3D Vision in High-Level Task Planners

3D 정보는 로봇의 환경과 상호작용 및 작업 수행에 중요한 역할을 하며, 이를 활용한 작업 계획(Task Planning)연구가 활발히 이루어지고 있다. 대부분의 기존 VLM은 2D 이미지만 처리할 수 있었기에, 3D 비전을 통합하려면 아키텍처 변경이 필요하다. 이러한 모델들은 주로 End-to-End 방식으로 개발된다.

주요 연구

LEO:

LEO는 기존의 이미지 입력 방식을 3D world와의 상호작용에서 제한적인 요소로 식별하고, 이를 극복하기 위해 설계된 LLM 기반 아키텍처이다.

훈련 방식:

LEO는 새로운 데이터셋을 활용하여 두 단계로 학습한다:

3D Vision-Language Alignment:
- 3D 환경에서 시각적 정보와 언어 정보를 정렬하여 모델이 멀티모달 데이터를 이해하도록 학습.
3D Vision-Language-ActionInstruction Tuning:
- 3D 환경에서의 작업 수행을 위한 언어 지시 조정.

주요 기능:

3D 작업 능력:
- 3D Captioning
- Question-Answering
Embodied Tasks:
- Embodied Reasoning
- Embodied Navigation
- Robotic Manipulation

3D-LLM:

3D-LLM은 LLM에 3D 정보를 주입하여 3D 관련 작업을 수행할 수 있도록 확장한 모델이다.

주요 기능:

3D 작업 지원:
- 3D-지원 대화(3D-assisted dialog).
- 3D 내비게이션(3D navigation).
3D 특징 표현:
- 다양한 형태로 3D 특징을 통합:
  - Point cloud.
  - gradSLAM.
  - 신경 복셀 필드(Neural voxel field).

MultiPLY:

MultiPLY는 객체 중심(object-centric)의 Embodied LLM으로, 다양한 모달리티를 통합하여 확장성을 높인 모델이다.

특징:

다중 모달리티 통합:
- Audio.
- 촉각(tactile).
- 열 감지(thermal).

StructFormerStructFormer:

객체를 복잡한 구조로 배치(Arranging objects into complex structures)하는 작업을 해결하기 위해 설계된 모델이다.

특징:

이전 방법들은 쌍(pairwise) 단위의 의미적 관계와 순차적 조작(sequential manipulation)에 의존했으나, StructFormer는 모든 객체 간 관계를 명시적으로 추론(reasoning)하여 객체의 목표 위치(target positions)을 예측.

StructDiffusion:

StructDiffusion은 StructFormer를 기반으로 하여 확산 기반 생성(diffusion-based generation) 접근법을 통합하여 성능을 확장.
StructFormer의 확장판 이라고도 한다.

ShapeLLM:

ShapeLLM은 **ReCon++**라는 혁신적인 3D 비전 인코더를 기반으로 구축된 모델로, LLaMA와의 통합을 통해 3D 상호작용 성능을 향상시킨다.

구성 요소:

ReCon++
- multi-view image 와 text teachers 로부터 지식을 추출.
- 포인트 클라우드 MAE(Masked Autoencoder)를 활용하여 3D 데이터를 효율적으로 학습.
LLaMA 통합
- ReCon++와 LLaMA를 결합하여 3D 환경에서의 상호작용 및 계획 성능을 강화.

3D MM-Vet 벤치마크:
- 새롭게 제안된 3D MM-Vet 벤치마크에서 우수한 성능을 입증.
- 3D 데이터를 활용한 상호작용 작업에서 높은 정확도와 효율성을 보여줌.
적용:
- 3D 상호작용 성능 개선 및 3D 환경 작업 수행.

3) Language-based Task Planners

Inner Monologue는 high-level command과 저수준 정책(low-level policy) 사이에서 closed-loop control planning을 가능하게 하는 시스템이다.

작동 방식:

LLM 활용:
- 저수준 제어 정책을 위한 언어 지시를 생성.
동적 업데이트:
- 제어 정책에서 받은 피드백을 바탕으로 언어 지시를 동적으로 업데이트.
- 피드백의 유형:
  - 성공 피드백(success feedback)
  - 객체 및 장면 피드백(object and scene feedback)
  - 인간 피드백(human feedback)
추가 학습 불필요:
- 피드백이 텍스트 형식으로 LLM에 전달되므로, LLM에 대한 추가 학습 없이 시스템이 작동.

유사 접근법: ReAct

유연한 추론(reasoning traces) 지원:
- 다양한 작업에 대해 보다 폭넓고 유연한 추론 가능.
LLM-PlannerLLM-Planner는 **계층적 정책(hierarchical policy)**을 구축하기 위한 새로운 접근 방식을 제안한다. 구성 요소:
1. 고수준 계획자 (High-Level Planner)
  - LLM을 활용하여 Natural language plans을 생성.
2. 저수준 계획자 (Low-Level Planner)
  - 고 수준 계획의 각 하위 목표(subgoal)를 원초적 동작(primitive actions)으로 변환.
주요 차별점:
- 기존 방법과 아키텍처 측면에서 유사하지만, 재계획(re-planning) 메커니즘을 포함하여 로봇이 "막힌 상황(get unstuck)"을 해결할 수 있도록 지원.

Socratic Models (SMs):

SMs는 파인튜닝 없이 다양한 사전 학습된 모델을 효과적으로 조합할 수 있는 독창적인 프레임워크를 제공한다.
멀티모달 정보 기반 프롬프트(multimodal-informed prompting)를 핵심 구성 요소로 하여, 다양한 멀티모달 모델 간 정보 교환을 촉진한다.

작동 방식:

비언어적 입력을 언어 설명으로 변환:
- 멀티모달 모델을 활용해 언어가 아닌 입력(예: 이미지, 비디오)을 언어 공간(language space)에서 표현.
- 이를 통해 다양한 모달리티를 언어 기반으로 통합.

응용 및 성능:

멀티모달 작업에서 탁월한 성능을 발휘.
로봇의 지각(perception)과 계획(planning) 작업에서 높은 유연성을 입증.
작업 계획을 natural language plans뿐만 아니라 유사 코드(pseudocode) 형태로도 표현 가능.

4) Code-based Task Planners

code-based Task Planner는 LLM의 프로그래밍 능력을 활용하여 작업 계획을 생성하고 실행하는 방법으로, 추가 학습 없이 효과적인 결과를 도출한다. 주요 연구는 다음과 같다.

ProgPrompt:
- 프로그램과 유사한 명세로 LLM을 프롬프트하여 가정 작업에 대한 고 수준 계획 생성.
- 프로그램 내 assertions를 통해 환경 피드백을 통합.
ChatGPT for Robotics
절차
1. API 정의:
  - 작업 수행에 필요한 API 목록 정의(예: 객체 감지 API, 그립(grasp) API, 이동(move) API 등).
2. 프롬프트 생성:
  - ChatGPT를 위한 프롬프트를 작성하여 환경, API 기능, 작업 목표 등을 명시.
3. 코드 작성 및 검토:
  - 정의된 API를 기반으로 ChatGPT에 작업을 수행할 코드를 작성하도록 반복적으로 요청.
  - 시뮬레이션 및 사용자 피드백을 통해 코드 품질과 안전성을 평가.
4. 코드 실행:
  - ChatGPT가 생성한 코드를 실행하여 작업 수행.
주요 특징
- 고수준 작업 계획자 역할:
  - ChatGPT는 PaLM-E와 유사하게 고 수준 작업 계획자로 동작하며, 작업 실행은 API 호출을 통해 이루어짐.
- 사용자 중심:
  - 사용자가 작업의 목표와 환경을 정의하고 피드백을 제공함으로써 코드 작성 및 실행을 관리.
ChatGPT for Robotics는 ChatGPT의 프로그래밍 능력을 활용하여 "user on the loop" 방식을 구현한다. 이는 기존의 "engineer in the loop" 방식에서 벗어나 사용자 중심의 제어를 가능하게 한다.

code as Policies(CaP)

핵심 개념:
- LLM의 코드 생성 능력을 활용하여 정책 코드를 생성.
- GPT-3 또는 Codex를 사용해 코드 작성 후, 이를 통해 Perception modules과 control APIs를 호출.
주요 강점:
- "공간 기하학적 추론(spatial geometric reasoning)"에 뛰어난 성능.
- 새로운 지시 사항에 대한 일반화 가능.
- Low-level control primitives의 매개변수화(parameterization).
COME-robot과의 연계:
- GPT-4V의 멀티모달 기능을 활용하여 Perception API의 필요성을 제거.
- Open-ended reasoning과 적응형 계획(adaptive planning)을 통해 실패 복구(failure recovery)와 자유 형식 지시(free-form instruction following)를 가능하게 함.

DEPS:

“Describe,Explain, Plan, Select”의 약자로, 환경에서 수집된 피드백을 바탕으로 계획 생성 및 실패 원인 설명. 이를 통해 재계획을 지원하는 접근법.

Self-Explanation
- 환경에서 피드백 설명을 수집하여 실패의 원인을 분석하고 이를 기반으로 재계획(re-planning) 수행.
Trainable Goal Selector
- 병렬로 존재하는 여러 후보 하위 목표(sub-goals) 중에서 달성 가능성이 높은 목표를 선택.
- 기존의 고수준 작업 계획자들이 간과하기 쉬운 목표 선택(goal selection) 문제를 해결.

ConceptGraphs:

관찰 시퀀스를 Open-Vocabulary 3D Scene Graph로 변환하는 방법을 제안한다. 이 접근법은 객체의 의미적, 공간적 관계를 표현하여 LLM 기반 작업 계획(Task Planning)에 활용된다.
객체 추출
- RGB 이미지를 2D Segmentation Models을 사용해 객체를 추출.
캡션 및 관계 설정
- VLM을 활용해 객체에 대한 캡션 생성 및 객체 간 관계를 설정.
- 이를 통해 3D 장면 그래프가 형성됨.
텍스트 변환
- 생성된 3D 장면 그래프를 텍스트 형식(JSON)로 변환.
- 텍스트 형식은 LLM이 의미적, 공간적 관계를 이해하고 작업 계획을 수립하는 데 도움을 줌.

Pros and Cons.

1. End-to-End Task Planners (예: SayCan)

장점:
- 저수준 제어 정책과 유사한 아키텍처를 사용하며, 특정 작업에 최적화 가능.
단점:
- LLM과 Visual Transformer를 결합한 대규모 모델 크기로 인해 훈련 비용이 매우 높음.

2. Language-based Task Planners

장점:
- 기존의 언어 조건부 제어 정책(Language-Conditioned Control Policies)과 원활한 통합 가능.
단점:
- 생성된 계획을 실행 가능한 언어 지시로 매핑하려면 Fine-tuning 또는 Alignment 과정이 필요.

3. Code-based Task Planners

장점:
- LLM의 프로그래밍 능력을 활용하여 지각(perception)과 행동(action) 모듈을 연결.
- 추가적인 훈련이 필요하지 않아 비용 효율적.
단점:
- 기존 모델의 성능 한계에 의해 제약될 수 있음.

IV. DATASETS AND BENCHMARKS

V. CHALLENGES AND FUTURE DIRECTIONS

이에 대한 내용은 자세히 다루지 않고 큰 틀에 대해서만 다루겠습니다.

Scarcity of Robotic Data:

현실 세계 로봇 데이터 확보는 시간과 자원이 많이 소요되며, 시뮬레이션 데이터에만 의존하면 시뮬레이션-현실 간 격차가 커짐. 다양한 현실 데이터 확보를 위해 기관 간 협력이 필요하며, 더 현실적이고 효율적인 시뮬레이터 개발이 요구된다.

Motion Planning:

현재 Motion Planning 모듈은 다양한 환경의 복잡성을 해결하는 데 한계가 있어 정밀 작업, 복잡한 환경 내비게이션 등에 어려움을 겪음. 이를 개선하려면 더 강력한 알고리즘 개발이 필요하다.

Real-Time Responsiveness:

로봇 시스템은 실시간으로 의사결정을 하고 동작해야 하며, VLA 모델은 지연을 최소화하여 응답성을 높여야 함. 고수준 작업 플래너부터 모션 플래너까지 전체 시스템의 글로벌 최적화가 중요함.

Integration of Multiple Modalities:

VLA는 시각, 언어, 행동 등 다양한 모달리티를 통합해야 하며, 이를 위해 다중 모달 표현 학습 및 융합 기술 발전이 필요함. 음성, 오디오 등의 모달리티를 추가하면 사용자와의 협업 능력이 강화됨.

Generalization to Unseen Scenarios:

다양하고 새로운 상황에서 자연어 지시를 이해하고 수행할 수 있는 로봇 시스템 개발이 필요함. 이를 위해 적응성과 확장성을 갖춘 VLA 아키텍처가 요구됨.

Long-Horizon Task Execution:

단일 지시가 “방 청소”처럼 여러 단계를 포함하는 장기 과제로 번역될 수 있음. 성공적인 실행을 위해 강력한 인식 능력과 상식을 갖춘 효율적인 플래너 개발이 중요함.

Foundation Model:

로봇 작업에 대한 VLA 기초 모델 탐색은 여전히 초기 단계이며, 인터넷 규모의 데이터와 최첨단 멀티모달 모델 활용이 필요함.

Multi-agent Systems:

로봇 대규모 배치는 다중 에이전트 간 협력, 과제 분배, 이질적인 플릿 관리 등에서 도전 과제를 초래함. 분산 인식, 협력적 장애 복구 등의 장점을 극대화하려면 추가 연구가 필요함.

Benchmarks:

현재 VLA 평가 벤치마크는 기술 평가 범위가 제한적이며, 현실적 시뮬레이터 기반의 다양한 기술 평가를 위한 벤치마크 개발이 요구됨. 고수준 플래너와 저수준 제어 정책의 통합 평가가 이상적임.

Safety Considerations:

로봇의 현실 세계와의 상호작용에서 안전은 필수적임. 안전 메커니즘, 위험 평가, 인간-로봇 상호작용 프로토콜의 통합이 필요하며, 의사결정 과정의 해석 가능성과 확장성을 통해 안전성을 향상시켜야 함.

Ethical and Societal Implications:

로봇 배치는 프라이버시, 안전, 일자리 대체, 편향, 사회적 규범에 대한 영향 등 윤리적·법적·사회적 문제를 제기함. 이를 해결하기 위해 효과적인 규제가 필요함.

긴 글 읽어주셔서 감사합니다. 앞으로 Vision-Language-Action Model에 대해서 논문 리뷰 및 프로젝트 진행할 예정입니다.

'Vision Language Action model' 카테고리의 다른 글

OpenVLA: An Open-Source Vision-Language-Action Model (1)	2025.02.09
[Paper Review] RT-2: Vision-Language-Action Models TransferWeb Knowledge to Robotic Control (1)	2025.02.02
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (4) (0)	2025.01.22
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (3) (0)	2025.01.22
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (2) (1)	2025.01.21

Embodied AI in Robotics

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (5)

2) 3D Vision in High-Level Task Planners

주요 연구

3) Language-based Task Planners

4) Code-based Task Planners

Pros and Cons.

1. End-to-End Task Planners (예: SayCan)

2. Language-based Task Planners

3. Code-based Task Planners

IV. DATASETS AND BENCHMARKS

V. CHALLENGES AND FUTURE DIRECTIONS

'Vision Language Action model' 카테고리의 다른 글

티스토리툴바

(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (5)

2) 3D Vision in High-Level Task Planners

주요 연구

3) Language-based Task Planners

4) Code-based Task Planners

Pros and Cons.

1. End-to-End Task Planners (예: SayCan)

2. Language-based Task Planners

3. Code-based Task Planners

IV. DATASETS AND BENCHMARKS

V. CHALLENGES AND FUTURE DIRECTIONS

'Vision Language Action model' 카테고리의 다른 글

'Vision Language Action model' Related Articles

티스토리툴바