마지막 페이지 입니다. 이전 내용이 궁금하신 분들은 아래 링크 참고 바랍니다!
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (1)
https://seohyun00.tistory.com/2
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (2)
https://seohyun00.tistory.com/3
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (3)
https://seohyun00.tistory.com/4
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (4)
https://seohyun00.tistory.com/5
2) 3D Vision in High-Level Task Planners
3D 정보는 로봇의 환경과 상호작용 및 작업 수행에 중요한 역할을 하며, 이를 활용한 작업 계획(Task Planning)연구가 활발히 이루어지고 있다. 대부분의 기존 VLM은 2D 이미지만 처리할 수 있었기에, 3D 비전을 통합하려면 아키텍처 변경이 필요하다. 이러한 모델들은 주로 End-to-End 방식으로 개발된다.
주요 연구
LEO:
- LEO는 기존의 이미지 입력 방식을 3D world와의 상호작용에서 제한적인 요소로 식별하고, 이를 극복하기 위해 설계된 LLM 기반 아키텍처이다.
훈련 방식:
LEO는 새로운 데이터셋을 활용하여 두 단계로 학습한다:
- 3D Vision-Language Alignment:
- 3D 환경에서 시각적 정보와 언어 정보를 정렬하여 모델이 멀티모달 데이터를 이해하도록 학습.
- 3D Vision-Language-ActionInstruction Tuning:
- 3D 환경에서의 작업 수행을 위한 언어 지시 조정.
주요 기능:
- 3D 작업 능력:
- 3D Captioning
- Question-Answering
- Embodied Tasks:
- Embodied Reasoning
- Embodied Navigation
- Robotic Manipulation
3D-LLM:
- 3D-LLM은 LLM에 3D 정보를 주입하여 3D 관련 작업을 수행할 수 있도록 확장한 모델이다.
주요 기능:
- 3D 작업 지원:
- 3D-지원 대화(3D-assisted dialog).
- 3D 내비게이션(3D navigation).
- 3D 특징 표현:
- 다양한 형태로 3D 특징을 통합:
- Point cloud.
- gradSLAM.
- 신경 복셀 필드(Neural voxel field).
- 다양한 형태로 3D 특징을 통합:
MultiPLY:
- MultiPLY는 객체 중심(object-centric)의 Embodied LLM으로, 다양한 모달리티를 통합하여 확장성을 높인 모델이다.
특징:
- 다중 모달리티 통합:
- Audio.
- 촉각(tactile).
- 열 감지(thermal).
StructFormerStructFormer:
- 객체를 복잡한 구조로 배치(Arranging objects into complex structures)하는 작업을 해결하기 위해 설계된 모델이다.
특징:
- 이전 방법들은 쌍(pairwise) 단위의 의미적 관계와 순차적 조작(sequential manipulation)에 의존했으나, StructFormer는 모든 객체 간 관계를 명시적으로 추론(reasoning)하여 객체의 목표 위치(target positions)을 예측.
StructDiffusion:
- StructDiffusion은 StructFormer를 기반으로 하여 확산 기반 생성(diffusion-based generation) 접근법을 통합하여 성능을 확장.
- StructFormer의 확장판 이라고도 한다.
ShapeLLM:
- ShapeLLM은 **ReCon++**라는 혁신적인 3D 비전 인코더를 기반으로 구축된 모델로, LLaMA와의 통합을 통해 3D 상호작용 성능을 향상시킨다.
구성 요소:
- ReCon++
- multi-view image 와 text teachers 로부터 지식을 추출.
- 포인트 클라우드 MAE(Masked Autoencoder)를 활용하여 3D 데이터를 효율적으로 학습.
- LLaMA 통합
- ReCon++와 LLaMA를 결합하여 3D 환경에서의 상호작용 및 계획 성능을 강화.
- 3D MM-Vet 벤치마크:
- 새롭게 제안된 3D MM-Vet 벤치마크에서 우수한 성능을 입증.
- 3D 데이터를 활용한 상호작용 작업에서 높은 정확도와 효율성을 보여줌.
- 적용:
- 3D 상호작용 성능 개선 및 3D 환경 작업 수행.
3) Language-based Task Planners
Inner Monologue는 high-level command과 저수준 정책(low-level policy) 사이에서 closed-loop control planning을 가능하게 하는 시스템이다.
작동 방식:
- LLM 활용:
- 저수준 제어 정책을 위한 언어 지시를 생성.
- 동적 업데이트:
- 제어 정책에서 받은 피드백을 바탕으로 언어 지시를 동적으로 업데이트.
- 피드백의 유형:
- 성공 피드백(success feedback)
- 객체 및 장면 피드백(object and scene feedback)
- 인간 피드백(human feedback)
- 추가 학습 불필요:
- 피드백이 텍스트 형식으로 LLM에 전달되므로, LLM에 대한 추가 학습 없이 시스템이 작동.
유사 접근법: ReAct
- 유연한 추론(reasoning traces) 지원:
- 다양한 작업에 대해 보다 폭넓고 유연한 추론 가능.
- LLM-PlannerLLM-Planner는 **계층적 정책(hierarchical policy)**을 구축하기 위한 새로운 접근 방식을 제안한다. 구성 요소:
- 고수준 계획자 (High-Level Planner)
- LLM을 활용하여 Natural language plans을 생성.
- 저수준 계획자 (Low-Level Planner)
- 고 수준 계획의 각 하위 목표(subgoal)를 원초적 동작(primitive actions)으로 변환.
- 기존 방법과 아키텍처 측면에서 유사하지만, 재계획(re-planning) 메커니즘을 포함하여 로봇이 "막힌 상황(get unstuck)"을 해결할 수 있도록 지원.
- 고수준 계획자 (High-Level Planner)
Socratic Models (SMs):
- SMs는 파인튜닝 없이 다양한 사전 학습된 모델을 효과적으로 조합할 수 있는 독창적인 프레임워크를 제공한다.
- 멀티모달 정보 기반 프롬프트(multimodal-informed prompting)를 핵심 구성 요소로 하여, 다양한 멀티모달 모델 간 정보 교환을 촉진한다.
작동 방식:
- 비언어적 입력을 언어 설명으로 변환:
- 멀티모달 모델을 활용해 언어가 아닌 입력(예: 이미지, 비디오)을 언어 공간(language space)에서 표현.
- 이를 통해 다양한 모달리티를 언어 기반으로 통합.
응용 및 성능:
- 멀티모달 작업에서 탁월한 성능을 발휘.
- 로봇의 지각(perception)과 계획(planning) 작업에서 높은 유연성을 입증.
- 작업 계획을 natural language plans뿐만 아니라 유사 코드(pseudocode) 형태로도 표현 가능.
4) Code-based Task Planners
code-based Task Planner는 LLM의 프로그래밍 능력을 활용하여 작업 계획을 생성하고 실행하는 방법으로, 추가 학습 없이 효과적인 결과를 도출한다. 주요 연구는 다음과 같다.
- ProgPrompt:
- 프로그램과 유사한 명세로 LLM을 프롬프트하여 가정 작업에 대한 고 수준 계획 생성.
- 프로그램 내 assertions를 통해 환경 피드백을 통합.
- ChatGPT for Robotics
절차- API 정의:
- 작업 수행에 필요한 API 목록 정의(예: 객체 감지 API, 그립(grasp) API, 이동(move) API 등).
- 프롬프트 생성:
- ChatGPT를 위한 프롬프트를 작성하여 환경, API 기능, 작업 목표 등을 명시.
- 코드 작성 및 검토:
- 정의된 API를 기반으로 ChatGPT에 작업을 수행할 코드를 작성하도록 반복적으로 요청.
- 시뮬레이션 및 사용자 피드백을 통해 코드 품질과 안전성을 평가.
- 코드 실행:
- ChatGPT가 생성한 코드를 실행하여 작업 수행.
주요 특징- 고수준 작업 계획자 역할:
- ChatGPT는 PaLM-E와 유사하게 고 수준 작업 계획자로 동작하며, 작업 실행은 API 호출을 통해 이루어짐.
- 사용자 중심:
- 사용자가 작업의 목표와 환경을 정의하고 피드백을 제공함으로써 코드 작성 및 실행을 관리.
- API 정의:
- ChatGPT for Robotics는 ChatGPT의 프로그래밍 능력을 활용하여 "user on the loop" 방식을 구현한다. 이는 기존의 "engineer in the loop" 방식에서 벗어나 사용자 중심의 제어를 가능하게 한다.
code as Policies(CaP)
- 핵심 개념:
- LLM의 코드 생성 능력을 활용하여 정책 코드를 생성.
- GPT-3 또는 Codex를 사용해 코드 작성 후, 이를 통해 Perception modules과 control APIs를 호출.
- 주요 강점:
- "공간 기하학적 추론(spatial geometric reasoning)"에 뛰어난 성능.
- 새로운 지시 사항에 대한 일반화 가능.
- Low-level control primitives의 매개변수화(parameterization).
- COME-robot과의 연계:
- GPT-4V의 멀티모달 기능을 활용하여 Perception API의 필요성을 제거.
- Open-ended reasoning과 적응형 계획(adaptive planning)을 통해 실패 복구(failure recovery)와 자유 형식 지시(free-form instruction following)를 가능하게 함.
DEPS:
- “Describe,Explain, Plan, Select”의 약자로, 환경에서 수집된 피드백을 바탕으로 계획 생성 및 실패 원인 설명. 이를 통해 재계획을 지원하는 접근법.
- Self-Explanation
- 환경에서 피드백 설명을 수집하여 실패의 원인을 분석하고 이를 기반으로 재계획(re-planning) 수행.
- Trainable Goal Selector
- 병렬로 존재하는 여러 후보 하위 목표(sub-goals) 중에서 달성 가능성이 높은 목표를 선택.
- 기존의 고수준 작업 계획자들이 간과하기 쉬운 목표 선택(goal selection) 문제를 해결.
ConceptGraphs:
- 관찰 시퀀스를 Open-Vocabulary 3D Scene Graph로 변환하는 방법을 제안한다. 이 접근법은 객체의 의미적, 공간적 관계를 표현하여 LLM 기반 작업 계획(Task Planning)에 활용된다.
- 객체 추출
- RGB 이미지를 2D Segmentation Models을 사용해 객체를 추출.
- 캡션 및 관계 설정
- VLM을 활용해 객체에 대한 캡션 생성 및 객체 간 관계를 설정.
- 이를 통해 3D 장면 그래프가 형성됨.
- 텍스트 변환
- 생성된 3D 장면 그래프를 텍스트 형식(JSON)로 변환.
- 텍스트 형식은 LLM이 의미적, 공간적 관계를 이해하고 작업 계획을 수립하는 데 도움을 줌.
Pros and Cons.
1. End-to-End Task Planners (예: SayCan)
- 장점:
- 저수준 제어 정책과 유사한 아키텍처를 사용하며, 특정 작업에 최적화 가능.
- 단점:
- LLM과 Visual Transformer를 결합한 대규모 모델 크기로 인해 훈련 비용이 매우 높음.
2. Language-based Task Planners
- 장점:
- 기존의 언어 조건부 제어 정책(Language-Conditioned Control Policies)과 원활한 통합 가능.
- 단점:
- 생성된 계획을 실행 가능한 언어 지시로 매핑하려면 Fine-tuning 또는 Alignment 과정이 필요.
3. Code-based Task Planners
- 장점:
- LLM의 프로그래밍 능력을 활용하여 지각(perception)과 행동(action) 모듈을 연결.
- 추가적인 훈련이 필요하지 않아 비용 효율적.
- 단점:
- 기존 모델의 성능 한계에 의해 제약될 수 있음.
IV. DATASETS AND BENCHMARKS
V. CHALLENGES AND FUTURE DIRECTIONS
이에 대한 내용은 자세히 다루지 않고 큰 틀에 대해서만 다루겠습니다.
Scarcity of Robotic Data:
- 현실 세계 로봇 데이터 확보는 시간과 자원이 많이 소요되며, 시뮬레이션 데이터에만 의존하면 시뮬레이션-현실 간 격차가 커짐. 다양한 현실 데이터 확보를 위해 기관 간 협력이 필요하며, 더 현실적이고 효율적인 시뮬레이터 개발이 요구된다.
Motion Planning:
- 현재 Motion Planning 모듈은 다양한 환경의 복잡성을 해결하는 데 한계가 있어 정밀 작업, 복잡한 환경 내비게이션 등에 어려움을 겪음. 이를 개선하려면 더 강력한 알고리즘 개발이 필요하다.
Real-Time Responsiveness:
- 로봇 시스템은 실시간으로 의사결정을 하고 동작해야 하며, VLA 모델은 지연을 최소화하여 응답성을 높여야 함. 고수준 작업 플래너부터 모션 플래너까지 전체 시스템의 글로벌 최적화가 중요함.
Integration of Multiple Modalities:
- VLA는 시각, 언어, 행동 등 다양한 모달리티를 통합해야 하며, 이를 위해 다중 모달 표현 학습 및 융합 기술 발전이 필요함. 음성, 오디오 등의 모달리티를 추가하면 사용자와의 협업 능력이 강화됨.
Generalization to Unseen Scenarios:
- 다양하고 새로운 상황에서 자연어 지시를 이해하고 수행할 수 있는 로봇 시스템 개발이 필요함. 이를 위해 적응성과 확장성을 갖춘 VLA 아키텍처가 요구됨.
Long-Horizon Task Execution:
- 단일 지시가 “방 청소”처럼 여러 단계를 포함하는 장기 과제로 번역될 수 있음. 성공적인 실행을 위해 강력한 인식 능력과 상식을 갖춘 효율적인 플래너 개발이 중요함.
Foundation Model:
- 로봇 작업에 대한 VLA 기초 모델 탐색은 여전히 초기 단계이며, 인터넷 규모의 데이터와 최첨단 멀티모달 모델 활용이 필요함.
Multi-agent Systems:
- 로봇 대규모 배치는 다중 에이전트 간 협력, 과제 분배, 이질적인 플릿 관리 등에서 도전 과제를 초래함. 분산 인식, 협력적 장애 복구 등의 장점을 극대화하려면 추가 연구가 필요함.
Benchmarks:
- 현재 VLA 평가 벤치마크는 기술 평가 범위가 제한적이며, 현실적 시뮬레이터 기반의 다양한 기술 평가를 위한 벤치마크 개발이 요구됨. 고수준 플래너와 저수준 제어 정책의 통합 평가가 이상적임.
Safety Considerations:
- 로봇의 현실 세계와의 상호작용에서 안전은 필수적임. 안전 메커니즘, 위험 평가, 인간-로봇 상호작용 프로토콜의 통합이 필요하며, 의사결정 과정의 해석 가능성과 확장성을 통해 안전성을 향상시켜야 함.
Ethical and Societal Implications:
- 로봇 배치는 프라이버시, 안전, 일자리 대체, 편향, 사회적 규범에 대한 영향 등 윤리적·법적·사회적 문제를 제기함. 이를 해결하기 위해 효과적인 규제가 필요함.
긴 글 읽어주셔서 감사합니다. 앞으로 Vision-Language-Action Model에 대해서 논문 리뷰 및 프로젝트 진행할 예정입니다.