Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V

논문 주소: https://arxiv.org/pdf/2404.10220

Abstract

자율 로봇 내비게이션과 조작이 개방된 환경에서 이루어지려면 Closed-loop Feedback을 통해 추론하고 계획을 다시 세워야 합니다. 이 연구에서는 open-ended reasoning과 실제 시나리오에서 adaptive planning을 위해 GPT-4V visual-language foundation model을 활용하는 최초의 closed-loop robot system인 COME - robot을 소개합니다. COME-robot은 두 가지 주요 혁신 모듈을 포함합니다: 1) 3D 환경의 효과적인 탐색과 상식 및 상황 정보를 사용한 목표물 식별을 가능하게 하는 다단게 open vocabulary perception과 situated reasoning 모듈, 그리고 2) 작업의 실행 가능성을 확인하고, 실행 성공을 모니터링하며, 견고한 실패 복구를 위해 여러 모듈에 걸쳐 실패 원인을 추적하는 반복적인 closed-loop feedback 및 복구 메커니즘. 8가지 도전적인 실제 모바일 및 탁상 조작 작업을 포함하는 포괄적인 실험을 통해, COME-robot은 최첨단 방법에 비해 작업 성공률을(약 35%) 크게 향상시키는 것을 보여줍니다. 또한, COME-robot 설계가 어떻게 실패 복구, 자유 형식 지시 따르게, 그리고 장기적인 작업 게호기을 촉진하는지에 대한 포괄적인 분석을 수행합니다.

I. INTRODUCTION

알 수 없는 실제 환경에서 물체를 이해하고, 탐색하며, 조작할 수 있는 자율 로봇을 개발하는 것은 로봇 공학 연구의 핵심 초점이였습니다. Large foundation models의 최근 발전, 특히 Open-vocabulary, zero-shot 방식으로 기계 인식을 자연어와 정렬하는 데 있어 더욱 야심찬 목표를 촉발헀습니다. 이러한 목표 중 하나는 로봇이 자연어 지시를 따라 내비게이션 및 모바일 조작과 같은 작업을 수행하는 능력을 평가하는 Open-Vocabulary Mobile Manipulatioon(OVMM) 작업입니다. 그러나 이러한 기대는 상당한 도전을 가져옵니다.

비정형적이고 복잡한 3D 환경을 인식하고 이해하며, 작업 지향적 계획 및 추론을 위해 이를 자연어와 정렬해야하는 요구.
모바일 조작에서 long-horizon 작업을 성공적으로 실행하기 위해 환경 피드백을 사용하여 실패 복구를 위한 closed-loop replanning의 어려움.

첫 번째 과제를 해결하려면 로봇 시스템이 추론을 위해 3D 환경에 대해 이해를 효과적으로 구성하고 기반을 다져야 하며, 두 번째 과제는 신뢰할 수 있는 계획 및 실행을 위해 실패를 효과적으로 진단하고 다양한 유형의 오류로부터 효율적으로 복구할 수 있는 견고한 시스템을 요구합니다.

기존의 closed-loop replanning 시스템은 추론 및 replanning을 위해 미리 정의된 상징적 논리에 의존하며, 입력 관측(예: 이미지 또는 포인트 클라우드)을 추론으루 인한 미리 정의된 기호 및 술어에 기반을 둡니다.이러한 설계는 로봇이 이전에 보지 못한 상황에서 계획을 세워야 하는 개방형 실제 시나리오에서 로봇 시스템의 적응성을 크게 제한합니다. LLM은 텍스트 환경 피드백을 기반으로 로봇의 실패를 설명하고, 수정 사항을 제안하며, 새로운 계획을 고안하는 능력을 향상시키는 유망한 접근 방식을 제공합니다. Code generation 기능을 통해 이러한 모델은 로봇의 기본 동작을 위한 API기능을 활용하여 작업 계획과 실제 실행을 연결할 수 있습니다. VLM은 로봇 센서로부터의 원시 시각적 관측에 대한 open-vocabulary 이해를 가능하게 함으로 써 이러한 능력을 더욱 확장합니다. 그러나 이 일련의 접근 방식의 접용 가능성은 환경 탐색 및 이해 중 부분적 관측성 문제가 대부분 해결되지 않아 탁상 설정에 크게 국한되어 있습니다. 이러한 한계는 개방형 실제 환경, 특히 long-horizon 모바일 조작 작업에서 현재의 closed-loop replanning 매커니즘의 효율성을 감소시킵니다.

OVMM의 과제가 기존 방법의 한계를 해결하기 위해, 실제 OVMM을 위한 견고한 로봇 기본 동작과 GPT-4V를 통합하는 최초의 closed-loop 로봇 시스템인 COME-robot(Closed-loop Open-Vocabulary MobilE Manipulation)을 제안합니다. COME-robot의 모델 프레임워크는 그림 1에 설명되어 있습니다. 계획을 위해 VLM을 사용하는 이전 관행을 기반으로, 기존 방법의 한게를 해결하기 위해 COME-robot에 두 가지 핵심 혁신을 도입합니다 1) 환경을 효과적으로 탐색하고, 환경 정보를 구성하며, 인간의 지시를 장면 내의 다양한 수준의 목표로 번역하고, 해당 목표 물체를 실벽하기 위한 다단계 Open-Vocabulary 인식 및 상황 기분 추론 모듈, 그리고 ii) 작업 계획 및 로봇 실행에서 실패를 식별하고, 모듈 간의 종속성(예: 내비게이션 및 로컬 조작)을 고려하며, 실패 복구를 위해 다른 모듈에 걸쳐 실패 원인을 추적하는 반복적인 closed-loop 피드백 및 복구 매커니즘. 본 연구의 설계를 평가하기 위해, 8가지 도전적인 OVMM 작업을 포함하는 실제 침실에서 포괄적인 실제 로봇 실험을 수행하여, COME-robot이 모든 작업에서 기존 LLM 기반 로봇 시스템을 크게 능가함을 입증합니다. 또한, 시스템의 일반적인 실패 모드를 식별하고 COME-robot의 실패로부터 복구하는 능력에 대한 전체적인 시야를 제공하기 위해 자세한 분석을 제공합니다.

요약하자면, 본 논문의 기여는 다음과 같습니다:

복잡한 실제 환경에서 long-horizon OVMM을 위한 open-ended reasoning, navigation, 조작 및 실패 복구가 가능한 최초의 closed-loop 로봇시스템인 COME-robot을 제시합니다.
두 가지 핵심 모듈을 제안합니다: (i) 복잡한 실제 환경에서 다양한 세분석으로 인간 지시를 목표로 효과적으로 해석할 수 있도록 하는 open-vocabulary 인식 및 추론 모듈, 그리고 (ii) 계획 및 실행 실패를 자율적으로 관리하고 효율적이고 효과적인 실패 복구를 보장하기 위해 다단계 backtracking을 수행하는 closed-loop 피드백 복구 모듈.
본 설계가 기존의 최첨단 방법을 크게 능가함을 입증하는 포괄적인 실제 로봇 실험을 수행합니다. 또한, COME-robot이 보이는 실패 복구와 같은 새로운 로봇 행동에 대한 광범위한 논의를 제공합니다.

II. RELATED WORK

Open-vocabulary mobile manipulation은 로봇 공학 연구에서 중요한 과제로 제시하며, 모바일 내비게이션, 조작은 물론 넓은 환경에서 다양하고 long-horizon 작업을 이해하고 완료하는 능력을 통합해야 합니다. 이는 상당한 복잡성을 야기합니다. 많은 접근 방식이 end-to-end models를 사용하여 로봇 조작 작업을 수행하지만, 이러한 시스템은 일반적으로 행동 공간의 복잡성과 환경 이해 로 인해 비교적 간단한 탁상 설정에서 짧은 시퀀스 작업 처리로 제한됩니다. 결과적으로 현재 방법들은 high-level task plannings와 LLM을 사용하여 계호기을 생성하며, 이는 로봇이 사용 가능한 primitive skills에 의해 실행됩니다. 그러나, HomeRobot OVMM benchmark의 OK-Robot에서 보여주듯이, VLM기반의 high-level planners와 low-level executors의 순진한 조합은 종종 모듈 전반에 걸쳐 순차적인 오류로 이어집니다. 이는 특히 long-horizon mobile manipulation 작업에서 효과적인 복구 매커니즘의 필요성을 강조합니다.

LLM과 VLM을 통합한 closed-loop 로봇 시스템은 로봇 공학에서 개방형 추론 및 계획의 과제를 해결하는 유망한 방향으로 떠올랐습니다. 이러한 시스템은 일반적으로 인지 입력과 LLM, VLM을 통합하여 상식 추론 및 지시 따르기를 수행하며, LLM이 생성한 코드를 사용하여 로봇 실행을 구동합니다. 기존 접근 방식은 종종 Low-level의 완벽함을 가정하고 환경 피드백에 주로 high-level 작업 타당성 검증 및 개선을 위해 의존하며, 실행 실패를 간과합니다. 최근 접근 방식은 계획 및 실행 수준 모두에서 실패 분석 및 replanning을 위해 성공 감지 및 인간 상호작용을 통합함으로 써 이러한 격차를 완화합니다.그러나 이러한 방법들은 일반적으로 실행 실패를 해결하기 위해 간단한 재시도 전략을 사용하며, 모듈 간의 잠재적인 상호 의존성(예: 테이블의 좁은 쪽으로 내비게이션 하면 중앙에 있는 물체에 대한 접근이 제한됨)을 간과합니다. 따라서 COME-robot에서는 보다 효과적인 실패 복구를 위해 서로 다른 모듈 간의 상호 연결과 그들 간의 실패 원인 추적에 중점을 두어 이 문제를 해결합니다.

III. METHOD

이 섹션에서는 COME-robot의 closed-loop, open-vocabulary mobile manipulation 접근 방식을 자세히 설명합니다. 견고한 로봇 primitive actions와 함께 GPT-4V를 기반으로 활용하여, COME-robot의 두 가지 핵심 모듈을 명확히 설명합니다: (i) 다단계 open-vocabulary perception 및 situated reasoning module 그리고 (ii) closed-loop feedback 및 restoration mechanisms. 위 그림 2에서 본 프레임워크의 설명적인 개요를 제공합니다. 또한, 섹션 III-C에서 시스템 프롬프트 및 구현에 대한 개요를 제공합니다. 전체 프롬프트 및 추가 구현 세부 정보는 당사 웹 사이트 부록에서 참조 확인가능 합니다.

A. Open-Vocabulary Perception and Situated Reasoning

Environment Explorer

모바일 조작 설정에서 대규모 장면의 본질적인 복잡성을 해결하기 위해, 본 연구에서의 환경 탐색 및 이해를 세 가지 다른 수준으로 구성할 것을 제안합니다:

Global-level perception: 알 수없는 환경에 진입할 때, COME-robot은 먼저 global-level perception을 활성화합니다. 이 인식 단계는 로봇의 모바일 베이스와 frontier-based eploration stategy를 사용하여 환경을 스캔하고 대형 가구의 전역 객체 지도를 구축합니다. 각 객체에 대해 COME-robot은 해당 범주, 위치, 병합된 point cloud, 시각적 특징 및 언어 설명을 기록합니다.
Local-level perception: 전역 객체 지도를 구축한 후, COME-robot은 인간의 작업 지시에 따라 잠재적인 목표 영역을 추론합니다. 본 연구에서는 GPT-4V의 상식 추론 능력을 활용하여 목표 객체를 찾습니다(예: 컵은 테이블 위에 있어야 함). 목표 영역이 식별되면, COME-robot은 해당 영역(예: 테이블)로 이동하여 향후 상호작용을 위해 대형 수용 객체에 있는 작은 객체의 지역 객체 배치 지도를 구축하기 시작합니다. 특히, 객체 상태 추적을 위해 SAM-2를 사용하고, 객체 위치가 변경되면 작업 실행 중에 local-level perception을 재실행합니다.
Object-level perception: 이 단계에서 COME-robot은 해당 영역에 있는 잠재적 목표 객체의 근접 이미지를 캡처하고, GPT-4V를 활용하여 향후 추론 및 목표 식별을 위한 세밀한 객체 속성을 추출합니다.

Goal Reasoner

자연어 작업 지시에 따라 장면을 탐색한 후, GPT-4V에 목표 객체를 추론하도록 지시하여 목표 객체를 식별합니다. 이 과정은 작업 실행을 위한 객체 기능 및 가용성에 대한 상식 추론을 포함합니다. 예를 들어, 그림 2에 표시된 것처럼 COME-robot은 테이블에 두 개의 컵이 있는 것을 관찰하고 두 번째 컵이 비어있으므로 물을 붓기에 더 적합하다고 추론하며, 두 번째 컵을 집기 위한 함수 호출을 전달합니다.

B. Closed Loop Feedback and Restoration

Status verifier

실행 가능성 검증과 성공 검증의 두 가지 구성 요소로 이루어져 있습니다. 실행 가능성 검증은 multi-level enviroment explorer의 인식 피드백과 VLM dialogue context를 사용하여 작업이 진행될 수 있는지 또는 rollback이 필요한지를 평가합니다. 예를 들어, 현재 테이블에서 빈 컵을 찾을 수 없는 경우, COME-robot은 빈 컵이 있을 만한 다른 테이블을 찾기 위해 rollback 합니다. 성공 검증은 실행 전후에 손목 카메라로 촬영된 객체 이미지 뿐만 아니라 적용된 액션 함수 호출의 피드백을 포함한 multi-modal feedback을 사용하여 로봇이 실행이 성공적인지 평가합니다. 또한 실패 원인을 분석하여 적절한 복구 수준(예: 게획 또는 실행)을 결정합니다.

Plan Restorer

Rollback이 필요한 실행 불가능한 상황뿐만 아니라 다양한 실행 및 인식 실패로부터 복구하기 위해, 본 연구에서는 작업 진행을 보장하기 위한 계층적 복구 메커니즘을 제안합니다. 이 메커니즘은 환경 탐색기의 계층적 구조와 일치합니다.

Object-level recovery: COME-robot이 조작 실패에 직면하면, 먼저 조작 동작을 다시 시도하여 object-level recovery를 시작합니다. 예를 들어, 잡기 실패가 감지되면 로봇은 다른 잡기 자세로 조절하고 다시 시도합니다. 실패한 시도 중에 객체가 움직였다면, status verifier는 각 시도 전에 캡처된 이미지를 비교하여 객체가 이동했음을 추론합니다. 이러한 경우, COME-robot은 더 높은 수준의 복구로 rollback 합니다.
Local-level recovery: Object-Level recovery가 성공적인 실행에 불충분한 경우, 예를 들어 작업 중에 객체가 움직이는 경우, local-level rocovery 메커니즘은 지역 객체 지도를 업데이트하고 새로운 동작을 실행하여 목표 객체 위치를 재확인하고 재분류 합니다. 예를 들어, 그림 2에 표시된 것처럼 COME-robot은 컴의 위치를 성공적으로 재확인하고 잡습니다.
Global-level recovery: status verifier에 의해 현재 상태에서 계획이 실행 불가능하거나, 로봇이 현재 위치에서 목표 객체와 상호 작용할 수 없는 경우, COME-robot은 global- level recovery를 시작합니다. 이 단계에서 COME-robot은 새로운 목표 위치로 이동하여 대체 가구나 목표 객체에 대한 더 나은 접근을 모색하여 개선된 조건에서 작업을 다시 시도할 수 있도록 합니다.

C. Implementation Details

Prompt

본 연구에서는 계획 및 실패 복구를 위해 GPT-4V에 프롬프트를 입력합니다. 위 그림 3에 나와있듯이, 시스템 프롬프트는 작업 설명, 피드백 처리, 로봇 설정 및 스킬 라이브러리에 대한 세부 정보, 응답 지침 및 유용한 팁으로 구성됩니다. 프롬프트와 사용자의 query는 GPT-4V로 전달됭 로봇이 실행할 Python code를 생성합니다.

Primitive Actions as APIs

Come-robot이 closed loop 에서 OVMM 작업을 해결하는 데 필요한 primitive actions 라이브러리를 식별합니다. 본 연구에서는 이를 두 가지 유형의 API로 분류하고 아래에서 본 연구의 설계 선택을 자세히 설명합니다:

Perception API: 본 연구에서는 각각 전역 및 지역 객체 지도를 구축하기 위해 explore glovbal 및 explore local이라는 perception API를 설계합니다. GPT-4V에 visual feedback을 제공하기 위해 로봇의 손목 카메라를 사용하여 2D 이미지를 캡처하는 추가 API인 report observation을 도입합니다.
Execution API: 내비게이션을 위해, 전역 객체 지도에 나타나는 객체에 로봇이 접근하도록 구동하는 Maps API를 정의합니다. 조작 측면에서, 관찰된 객체 point cloud를 기반으로 로봇에게 객체를 잡도록 명령하는 grasp API와, 로봇이 손에 든 객체를 용기나 특정 위치에 놓을 수 있도록 하는 place API를 설계합니다.

실제 로봇 설정 (Real-robot Setup). 우리는 네 가지 주요 구성 요소로 이루어진 모바일 매니퓰레이터를 사용합니다: (i) RGB-D 카메라, Lidar, IMU unit을 장착한 4륜 differential drive 모바일 베이스; (ii) Robotic parallel gripper와 손목에 RGB-D 카메라가 장착된 7자유도 Kinova Gen3 robot arm.

IV. EXPERIMENT

이 섹션에서는 실험 작업 설정 및 기준 방법의 구현 세부 정보를 제공합니다. 본 연구에서는 기준 방법과의 철저한 비교를 통해 우리 시스템의 효과를 입증하고, 이러한 작업에서 COME-robot의 실행 시도를 체계적으로 분석하여 우리 설계의 중요성을 강조합니다.

A. Experimental Setup

a) Baseline: 본 연구에서는 최근 방법인 Code as Policies (CaP)를 우리의 기준선으로 선택합니다. CaP는 LLM을 활용하여 복잡한 작업에서 로봇을 명령하는 코드를 생성합니다. 원래의 CaP 방법은 완전히 관측 가능한 탁상 환경을 가정하므로, 우리는 비교를 위한 더 강력한 기준선인 CaP*로 지칭되는, 우리의 설계된 탐색 및 내비게이션 API 함수로 CaP를 보강합니다.

b) Task Design: OVMM에 대한 COME-robot의 역량을 평가하기 위해 실제 방에서 다양한 horizon을 가진 4가지 도전적인 모바일 조작 작업을 세심하게 설계합니다. 방에는 여러 테이블, 침대, 소파 및 다양한 물건을 포함한 다양한 가구가 있습니다. 우리는 COME-robot 프레임워크의 다양한 기능을 검증하는 것을 목표로 하는 작업을 설계합니다. 특히, 모바일 조작 작업은 다음과 같습니다:

A1 장난감 이동 (MOVE TOY): 장난감을 테이블에서 침대로 명확한 지시에 따라 이동하는 작업입니다. 이 작업은 로봇의 기본적인 모바일 조작 능력을 테스트합니다.
A2 모든 장난감 옮기기 (TRANSFER ALL TOYS): 흩어져 있는 장난감을 다른 테이블에서 소파로 옮기는 작업으로, 환경에서 로봇의 물체 검색 능력을 목표로 합니다.
A3 컵과 장난감 이동 (MOVE CUP AND TOY): 특정 시각적 속성을 가진 컵을 찾아 접시에 놓고, 장난감을 침대로 옮기는 작업으로, 로봇의 순차적 작업 및 시각적 추론 능력을 평가합니다.
A4 컵 모으기 (GATHER CUPS): 어떤 테이블인지 지정하지 않고 여러 테이블에서 모든 물 컵을 가져와 하나의 테이블에 놓는 작업으로, 로봇이 목표 테이블을 선택할 때 효율적인 계획을 세우는 능력을 평가합니다.

또한, 우리 메커니즘의 효과를 더 정확하게 검증하기 위해 CaP* 설정과 밀접하게 일치하는 4가지 추가 탁상 실험을 설계했습니다. 다음 작업을 설계합니다:

B1 과일 놓기 (PLACE FRUIT): 테이블은 여러 과일, 접시 및 기타 물건으로 초기화됩니다. 이 작업은 로봇의 기본적인 실행 및 지시 따르기 능력을 테스트하기 위해 명확한 지시에 따라 과일을 접시에 놓는 것입니다.
B2 컵 사이의 과일 (FRUIT AMONG CUPS): 테이블은 과일, 여러 컵 및 기타 물건으로 초기화됩니다. 이 작업은 모든 컵의 가운데에 과일을 놓는 것으로, 지시에서 공간 개념에 대한 로봇의 이해를 테스트합니다.
B3 컵 준비 (PREPARE CUP): 테이블은 빈 컵, 사용된 컵, 접시 및 기타 물건으로 초기화됩니다. 이 작업은 깨끗하고 사용하지 않은 컵을 집어 물을 붓기 위해 접시에 놓는 것으로, 목표 물체를 식별하기 위한 상식 추론이 필요합니다.
B4 테이블 정리 (TIDY TABLE): 테이블은 수납 상자와 물건(예: 과일, 장난감 등)으로 어질러져 있습니다. 이 작업은 이러한 물건을 해당 수납 상자에 넣는 것입니다. 우리는 "테이블을 정리해 주시겠어요?"와 같은 지시를 제공하여 자유 형식 지시를 통해 로봇의 개념 이해 및 추론 능력을 더욱 테스트합니다.

c) Experiment Setting: 모바일 조작 작업의 경우, 각 작업에 대해 5번의 시도를 수행합니다. 탁상 작업의 경우, 각 작업에 대해 10번의 실험 시도를 수행합니다. 유사하게, 우리는 객체의 유형, 배치, 테이블 위의 수량에 변화를 주어 시도 사이에 장면 구성을 조정합니다.

d) Metrics: 모든 모델에 대한 목표 완료의 성공률(SR)과 행동 실행의 단계별 성공률(SSR)을 보고합니다. 각 실행 API 호출은 한 단계로 간주되며(즉, report observation과 같은 perception API 제외), SSR을 위해 모든 호출에서 성공적인 호출의 수를 계산합니다. 서로 다른 계획된 경로와 방법은 동일한 작업에 대해 다양한 수의 단계가 필요할 수 있으며, 특히 COME-robot의 replanning mechanism을 고려합니다. 또한, 실패로부터 복구하는 COME-robot의 능력을 밝히기 위해, 모든 replanned executions와 이들 실행 내에서 성공적인 것들을 합산하여 COME-robot의 복구율(RR)을 보고합니다.

B. Experimental Results and Analyses

표 I과 표 II에 나와 있듯이, COME-robot은 모바일 조작 및 탁상 설정 모두에서 목표 완료에서 일관되고 상당한 개선을 달성합니다. 특히, COME-robot은 모바일 조작 설정에서 전체 성공률 65%(13/20)를 달성하여 CaP* 기준선(30%, 6/20)을 35%p 능가합니다. 유사하게, 탁상 설정에서 COME-robot은 성공률 75%를 달성하여 기준선(47.5%, 19/40)을 27.5%p 크게 능가합니다. 또한, COME-robot이 실패로부터 복구하는 능력은 실패 단계를 식별하고 replanning함으로써 단계별 성공률을 크게 향상시켜, CaP*의 76/125와 98/138에 비해 각각 101/122와 123/140의 더 높은 성능을 보여줍니다. 이러한 개선은 또한 더 높은 전체 성공률에 기여합니다. 이러한 정량적 결과는 closed-loop feedback을 사용하여 replanning할 수 있는 능력을 갖춘 COME-robot이 작업 실행 중에 발생하는 오류를 효과적으로 식별하고 수정함을 검증합니다. 이 기능은 도전적인 실제 작업에서 작업 실행 및 목표 달성을 용이하게 합니다.

C. Failure Analysis

표 I과 표 II에서 볼 수 있듯이, 복구 단계와 복구율 모두에서 실패 복구 메커니즘의 효과를 입증합니다. 이 섹션에서는 COME-robot의 실패 사례를 체계적으로 분류하고 closed loop 피드백을 활용하여 COME-robot이 이러한 실패로부터 어떻게 복구하는지 강조하는 분석을 제공합니다.

a) 인식 실패 (Perceptual Failures): 인식 실패는 주로 탐색 중 발생하는 감지 오류로 인해 발생합니다. COME-robot은 근접 검사를 위해 object-level perception을 사용하고 시각적 피드백을 활용하여 누락되거나 잘못된 감지 문제를 해결할 수 있습니다. 누락된 감지의 경우, COME-robot은 인식 모듈에 로컬 객체 장면 그래프를 재구축하고 누락된 객체를 다시 감지하도록 지시하며, 표 III에서 볼 수 있듯이 100% 복구율을 달성합니다. 잘못된 감지의 경우, COME-robot은 GPT-4V를 활용하여 감지된 객체에 대한 검증 단계를 수행합니다. 예를 들어, local-level perception module이 여러 개의 후보 컵을 감지할 때, COME-robot은 이미지 관측으로 각 컵을 검증하고 컵 0이 실제로는 컵으로 잘못 감지된 인형이며 작업과 관련이 없음을 발견합니다. 이 검증 과정은 문제를 완화하는 데 도움이 될 수 있지만, 여전히 잘못된 예측에 취약하며, 검증 후 6개의 잘못 감지된 객체가 남아 있으며, 그 중 3개는 표 III에 나와 있듯이 작업 실패로 이어집니다.

b) 실행 실패 (Execution Failures): COME-robot의 GPT-4V 기반 계획 방법은 때때로 잘못된 계획이나 유효하지 않은 API 호출을 생성할 수 있습니다(예: 사전에 잡지 않고 객체를 놓으려고 시도하거나 객체 이름 대신 객체로 내비게이션 함수를 호출하는 경우). 이러한 오류에 대해 COME-robot은 생성된 계획 및 코드를 확인하고 실행 중에 예외를 트리거하여 누락된 단계 또는 잘못된 함수 호출을 명시적으로 피드백하여 GPT-4V가 계획을 수정하도록 합니다. 실제 실행에서 실패의 주요 원인은 잡기 실패로 인해 발생합니다. 잡기 실패는 주로 로봇이 조작을 위한 공간을 크게 제약하는 비실용적인 위치(예: 테이블 모서리 또는 벽에 가까운 위치)로 이동하기 때문에 발생합니다. 그림 5의 사례 1은 잡기 실패로부터 복구하는 예시를 보여줍니다.

D. Discussions

LLM을 활용한 상식 추론만으로 open-ended instructions를 통한 모바일 조작이 충분할까요? 우리는 이러한 작업을 완료하려면 LLM이 제공하는 상식 지식과 장면 정보를 상호작용적으로 탐색하고 업데이트하는 능력이 모두 필요하다고 주장합니다. PREPARE CUP (B3) 작업을 예로 들면, 여러 개의 컵이 감지될 때 로봇은 가장 적합한 컵을 식별하기 위해 컵들을 비교해야 합니다. 모든 컵의 상태를 이해하지 않고는 지시에만 기반하여 계획을 세우는 것이 어려워집니다.

closed-loop feedback을 통한 replanning이 로봇 조작 작업에서 왜 중요할까요? 탁상 조작 작업에 비해 모바일 조작 작업은 더 긴 시퀀스를 포함하며, 로봇이 먼저 방을 탐색한 다음 가구 사이를 오가며 가구 간 조작 작업을 완료해야 합니다. 표 I에 나와 있듯이, 모바일 조작 작업은 훨씬 더 높은 평균 실행 단계를 필요로 합니다. 한편, 긴 실행 시퀀스는 실행 실패 가능성을 높이므로, CaP*에 비해 COME-robot에서 replanning의 효과를 드러냅니다. closed-loop feedback을 통한 replanning은 COME-robot이 실패를 감지하고 복구를 시도할 수 있도록 하여 작업 실패 가능성을 줄입니다.

V. CONCLUSION

결론적으로, open-vocabulary mobile manipulation을 위해 GPT-4V와 견고한 로봇 primitives를 통합한 새로운 closed-loop framework인 COME-robot을 제시합니다. 실제 환경 실험은 open-ended instructions를 해석하고, multi-modal feedback을 통해 추론하며, 인식 및 실행 실패로부터 복구하는 COME-robot의 뛰어난 능력을 보여줍니다. GPT-4V의 추론 능력을 활용하여 COME-robot은 OVMM 작업에서 전례 없는 유연성과 지능을 달성합니다. 우리는 이 연구가 foundation models를 로봇 공학과 통합하여 지능과 자율성을 향상시키는 추가 연구에 영감을 주기를 희망합니다.

'Vision Language Action model' 카테고리의 다른 글

From Foresight to Forethought: VLM-In-the-LoopPolicy Steering via Latent Alignment (1)	2025.06.07
A Self-Correcting Vision-Language-Action Model for Fast and Slow System Manipulation (3)	2025.06.06
A Unified Framework for Real-Time Failure Handling in RoboticsUsing Vision-Language Models, Reactive Planner and Behavior Trees (0)	2025.06.02
VLATest: Testing and Evaluating Vision-Language-ActionModels for Robotic Manipulation (0)	2025.05.26
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models (0)	2025.05.11

Embodied AI in Robotics

Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V

Abstract

I. INTRODUCTION

II. RELATED WORK

III. METHOD

A. Open-Vocabulary Perception and Situated Reasoning

Environment Explorer

Goal Reasoner

B. Closed Loop Feedback and Restoration

Status verifier

Plan Restorer

C. Implementation Details

Prompt

Primitive Actions as APIs

IV. EXPERIMENT

A. Experimental Setup

B. Experimental Results and Analyses

C. Failure Analysis

D. Discussions

V. CONCLUSION

'Vision Language Action model' 카테고리의 다른 글

티스토리툴바

Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V

Abstract

I. INTRODUCTION

II. RELATED WORK

III. METHOD

A. Open-Vocabulary Perception and Situated Reasoning

Environment Explorer

Goal Reasoner

B. Closed Loop Feedback and Restoration

Status verifier

Plan Restorer

C. Implementation Details

Prompt

Primitive Actions as APIs

IV. EXPERIMENT

A. Experimental Setup

B. Experimental Results and Analyses

C. Failure Analysis

D. Discussions

V. CONCLUSION

'Vision Language Action model' 카테고리의 다른 글

'Vision Language Action model' Related Articles

티스토리툴바