[Paper Review] AHA: A Vision-Language-Model for Detecting andReasoning Over Failures in Robotic Manipulation

이번에 리뷰해볼 논문은 AHA: A Vision-Language Model- for Detecting andReasoning Over Failures in Robotic Manipulation 입니다. 이 논문은 Robotics Manipulation이 동작을 실패할 경우, VLM을 통하여 실패 원인을 분석하고 이를 Feedback을 해줌으로 써 실패 확률을 줄일 수 있다는 점에 대해 증명한 논문입니다. 이는 VLM,VLA,RL 등 다양한 모델에 적용이 가능하다고 합니다.

논문주소: https://aha-vlm.github.io/Aha_paper.pdf

깃허브 : https://aha-vlm.github.io/

Abstract

Robot manipulation은 open-world에서 작업 실행 뿐 아니라, 실패를 탐지하고 학습하는 능력을 요구합니다. 최근 Vision-Language Model(VLMs)과 Large-Language-model(LLMs)의 발전은 로봇의 공간적 추론과 문제 해결 능력을 향상시켰으나, 여전히 실패에 대한 인식은 어려움을 겪고 있어 실제 환경에서의 적용에 한계가 존재합니다. 본 연구에서는 AHA를 소개합니다. AHA는 자연어를 사용하여 로봇 조작에서의 실패를 탐지하고 추론하는 Open-Source VLM입니다. 실패 탐지를 자유 형식 추론 작업으로 설정함으로 써, AHA는 실패를 식별하고, 다양한 로봇, 작업 및 환경에 걸쳐 상세하고 적응 가능한 설명을 제공합니다. 연구진은 FaliGen을 사용하여 AHA를 미세조정하였스빈다. FailGen은 로봇 실패 궤적의 첫 대규모 데이터셋인 AHA 데이터셋을 생성하는 확장 가능한 프레임워크입니다. FailGen은 시뮬레이션에서 성공적인 시연을 절차적으로 변형함으로 써, 이를 달성합니다. AHA는 오직 AHA 데이터셋으로만 훈련되었음에도 불구하고, 실제 세계의 실패 데이터셋, 로봇 시스템 및 보지 못한 작업에 효과적으로 일반화 됩니다. AHA는 두 번째로 좋은 모델(GPT-4o의 in-context learning)을 10.3% 초과하며, 여섯 개의 비교 모델 - 그 중 다섯개는 최신 VLM- 과 비교하여 여러 메트릭과 데이터셋에서 평균 35.3% 성능을 초과합니다. 본 연구에서는 AHA를 강화학습, 작업 및 동작 계획, Zero-shot 궤적 생성을 위한 LLM/VLM을 활용하는 세 가지 작업 계획 최적화 및 하위 작업 검증 개선을 통해 이러한 정책들의 성능을 향상시켜, GPT-4 모델과 비교하여 세 가지 작업 모두에서 평균 21.4% 작업 성공률을 증가시킵니다.

1 Introduction

최근 몇 년간 Foundation 모델들은 다양한 분야에서 눈에 띄는 발전을 이루었으며, open world 작업을 처리하는 능력을 보여주었습니다. 이러한 모델들, 특히, LLM과 VLM은 인간의 언어 지시를 해석하고 실행하는 데 능숙하며, 정확한 예측을 생성하고 강력한 작업 성과를 달성합니다.그러나 이러한 발전에도 불구하고, 여전히 해결해야할 주요 과제가 남아있습니다. 특히, hallucinations 문제로, 모델들은 진실과 일치하지 않는 응답을 생성하는 것이 문제입니다. 인간은 직관적으로 이러한 오류를 감지하고 수정할 수 있지만, 이러한 모델들은 종종 자신들의 실수를 인식할 수 있는 매커니즘이 부족합니다. 실패로부터 학습하는 것은 인간 지능의 근본적인 측면입니다. 예를 들어, 아이가 스케이트를 배우거나, 스윙을 완성하는 것처럼, 실패에 대해 추론할 수 있는 능력은 개선을 하기 위한 필수적인 요소입니다. 실패를 통한 개선 개념은 foundation 모델을 훈련하는데 널리 적용되며, 이는 Reinforcement learning with human Feedback(RLHF)와 같은 기술을 통해 입증됩니다. 이 기술에서 인간의 감독과 피드백은 모델이 원하는 결과로 나아가도록 유도합니다. 이 Feedback loop는 생성적 모델이 실제 세계의 목표와 일치하도록 하는 데 중요한 역할을 합니다. 그러나, 여전히 중요한 질문이 남아 있습니다: 이러한 모델들이 자신의 실패를 자동으로 감지하고 추론할 수 있도록 어떻게 만들 수 있을까? 특히, 상호작용과 환경이 확률적이고 예측할 수 없는 로봇공학에서 말입니다.

이 필요성은 특히 로봇공학에서 중요합니다. VLMs와 LLMs와 같은 foundation 모델들이 점점 더 많은 개방형 세계 작업을 처리하는 데 사용되고 있기 때문입니다. 최근의 발전은 이 모델들이 공간적 추론, 객체 인식 및 다중 모드 문제 해결을 처리할 수 있게 하여 로봇 조작에 필수적인 기술을 확보하게 했습니다. VLMs와 LLMs는 이미 강화 학습을 위한 보상 생성을 자동화하거나, 동작 계획을 위한 작업 계획을 개발하거나, 심지어 Zero-shot robot trajectory generation 을 수행하는 데 통합되고 있습니다. 이러한 모델들은 작업 실행에서 뛰어나지만, 실패를 감지하고 이에 대해 추론하는 데에는 어려움을 겪고 있습니다. 이는 동적이고, 복잡한 환경에서 내비게이션을 수행하는 데 중요한 기술입니다. 예를 들어, 로봇이 작업 중에 물체를 떨어뜨리면, 인간 관찰자느 즉시 오류를 인식하고 숮어 조치를 취할 수 있습니다. 그렇다면, 우리는 로봇들이 이러한 유사한 능력을 갖추도록 하여, 작업을 수행하는 것 뿐아니라 자신의 실수를 감지하고 학습할 수 있도록 할 수 있을까?

로봇이 자신의 실수로부터 학습하려면, 먼저 실패를 감지하고 왜 실패했는지를 이해해야합니다. 본 연구에서는 AHA를 소개합니다. AHA는 로봇 조작에서 실패를 감지하고 이에 대해 추론하기 위해 자연어를 사용하는 오픈 소스 Vision-Lanugae -Model 입니다. 이전 연구들에서는 실패 추론을 이진 탐지 문제로 취급했지만, 본 연구에서는 이를 자유 형식의 추론 작업으로 설정하여 실패 모드 추론에 대해 더 깊은 통찰을 제공합니다. 위 모델은 실패를 식별할 뿐 아니라, 자세한 설명을 생성합니다. 이러한 접근 방식은 AHA가 다양한 로봇, 카메라 관점, 작업 및 환경에 적응할 수 있도록 합니다. 이는 시뮬레이션과 실제 환경 모두에서 가능하며, VLM과 LLM을 활용하는 하위 로봇 응용 프로그램에 통합할 수 있습니다. 본 연구에선느 다음과 같은 세 가지 주요 기여를 합니다:

본 연구에서는 FailGEN을 소개합니다. 이는 시뮬레이터에서 로봇 조작 작업을 위한 실패 시연 데이터를 절차적으로 생성하는 Data generation pipeline 입니다. AHA를 instruction-tune 하기 위해 연구진은 FailGen을 개발했으며, 이는 AHA 데이터셋을 절차적으로 생성하는 첫 번째 자동화된 data generation pipeline 입니다. 이 데이터셋은 79개의 다양한 시뮬레이션 작업에서 49K개 이상의 image-query pair를 포함하는 대규모 로봇 조작 실패 데이터 모음입니다. AHA는 AHA 데이터셋만으로 미세조정했음에도 불구하고, 세 가지 별도의 데이터셋에서 평가했을 때, 실제 세계의 실패 데이터셋, 다른 로봇 시스템 및 보지 못한 작업에 대한 강력한 일반화를 보였습니다. FailGen은 다양한 시뮬레이터와 원활하게 통합되어 실패 시연을 확장 가능하게 생성할 수 있는 유연한 데이터 생성 pipeline 입니다.
연구에서는 AHA가 실패 추론에서 뛰어난 성능을 보이며, 다양한 구현체, 보지 못한 환경 및 새로 작업에 대해 일반화할 수 있음을 입증합니다. AHA는 Open-source 및 독점적인 VLM들 보다 우수한 성능을 발휘합니다. AHA를 미세조정한 후, 6개의 최신 VLMs(open-source 및 독점 모델 포함)과 비교하여 성능을 평가했습니다. 성능은 네 가지 메트릭을 기준으로 세 가지 다양한 평가 데이터셋에서 측정되었으며, 각 데이터셋은 훈련 데이터에서 벗어난 다양한 구현체, 작업 및 환경을 특징으로 합니다. AHA는 데이터셋과 메트릭 전반에서 평균 20.0%이상 GPT-4o 모델을 초과했고, AHA가 파생된 기본 모델인 LLaVA-v1.5-13B와 비교하여 43% 이상의 성능을 초과했습니다. 이는 AHA가 로봇 조작에서 구현체와 도메인에 걸쳐 실패를 감지하고 추론하는 뛰어난 능력을 가지고 있음을 보여줍니다.
연구에서는 AHA가 실패 추론 피드백을 제공하여 하위 로봇 응용 프로그램을 향상시킬 수 있음을 보여줍니다. 연구진은 AHA가 VLM과 LLM을 활용하는 로봇 응용 프로그램에 원활하게 통합될 수 있음을 입증했습니다. 실패 피드백을 제공함으로 써, AHA는 Eureka 반성을 통해 보상 함수를 개선하고, 작업 및 동작 계획을 강화하며, Zero-shot 로봇 조작에서 하위 작업 성공을 검증합니다. 세 가지 하위 작업에서, 본 연구의 접근방식은 GPT-4 모델과 비교하여 평균 21.4%의 높은 성공률을 달성하여, 오류 수정을 통한 작업 성능 향상에서 AHA의 효과를 강조합니다.

2. Related Work

AHA는 로봇 조적에서 실패 탐지에 대한 언어 추론을 가능하게 하여, 하위 로봇 응용 프로그램을 향상시킵니다. 이를 위한 맥락을 제공하기 위해, 다음과 같은 분야의 진행 상황을 살펴봅니다: 1) 로봇 조작에서의 실패 탐지, 2) 로봇에서의 데이터 생성, 3) 로봇 조작을 위한 foundation 모델.

Failure Detection in Robotic Manipulation.

실패 탐지와 추론은 오랫동안 Human-Robot Interaction(HRI) 커뮤니티와 Task and Motion Planning(TAMP)를 활용한 연구에서 다뤄졌습니다. 최근, LLMs와 VLMs가 로봇 조작 시스템에서 보상 함수를 생성하거나 로봇 궤적을 Zero-shot 방식으로 합성되는 데 널리 사용되면서, 작업 실패를 탐지하는 중요성이 다시 강조 되었습니다. 대부분의 현대적인 접근법은 상용 VLMs 나 LLMs를 성공 탐지기로 사용하거나, VLMs의 instruction tuning을 통해 실패를 탐지하는 방법을 사용합니다. 그러나 이러한 방법들은 종종 이진 성곰 탐지에 한정되어 있으며, 실패가 발생한 이유에 대한 언어 기반 설명을 제공하지 않습니다. 본 연구의 프레임워크는 실패 추론을 새로운 형태로 도입하여, 실패에 대한 언어 기반 설명을 생성하고, 하위 작업에서 VLMs와 LLMs를 사용하는 로봇 시스템을 돕습니다.

Data Generation in Robotics

로봇 조작에서는 작업 시연 데이터를 자동으로 생성하는 다양한 방법들이 존재합니다. 이는 행동 복제 정책을 훈련하거나, VLMs를 instruction-tuning하거나, 시뮬레이션에서 로봇 정책을 평가하기 위한 벤치마크를 큐레이팅하는 데 사용됩니다. 잘 알려진 예로는 MimicGen이 있으며, 이는 알려진 객체 포즈를 활용해 궤적 적응을 통한 작업 시연을 자동화합니다. 또한, RoboPoint와 같은 시스템은 시뮬레이션을 사용하여 로봇 응용 프로그램을 위한 일반 목적의 표현을 생성하며, 특히, VLMs를 튜닝하는 데 사용됩니다. 이와 비슷하게 The Colosseum과 같은 시스템은 로봇조작의 벤치마크를 큐레이팅하기 위해 데이터 생성을 자동화합니다. 본 연구에서의 접근법은 RoboPoint와 유사하게 시뮬레이션을 사용하여 VLMs을 instruction-tuning을 위한 데이터를 생성합니다. 그러나 RoboPoint와 달리, Bounding box나 point와 같은 표현을 생성하는 대신, 시뮬레이션에서 로봇의 행동을 합성하는 데 집중합니다.

Foundation Models for Robotic Manipulation

최근 몇 년간, 로봇 조작을 위한 foundation 모델을 활용하는 것에 대한 관심이 크게 증가했습니다. 이는 LLM/VLMs가 개병형 세계의 의미를 해석하는 데 효과적이고, 작업 전반에 걸쳐 일반화할 수 있는 능력을 보이기 때문입니다. 두 가지 주요 접근법이 등장하였습니다: 첫 번째는 VLMs와 LLMs를 프롬프트 가능한 방식으로 사용하는 것으로, visual input을 바탕으로 visual prompt가 low-level action generation하는 것을 유도합니다. 두 번째는 domain 특성 작업을 위해 VLMs를 instruction tuning하는 것입니다. 예를 들어, RoboPoint는 공간적 적합성 예측을 위해 튜닝되었고, Ocxtopi는 촉각 이밎를 이용해 물리적 추론을 수행합니다. 이러한 모델들은 훈련 데이터를 넘어 일반화되며, 조작 파이프라인에 원활하게 통합됩니다. 우리의 접근법은 두 번째 경로를 따르며, 시뮬레이션에서 instruction tuning data를 생성하고, 로봇 조작 실패를 탐지하고 추론하는 데 특화된 VLMs를 미세 조정하는 확장 가능한 방법을 개발합니다. 이를 통해 조작 작업 뿐 아니라 다른 로봇 분야에도 적용할 수 있습니다.

3. The AHA Dataset

본 연구에서는 FailGen을 활용하여 RLBench 작업에서 AHA 데이터셋을 절차적으로 생성하고, 이를 AHA instruction-tuning에 사용했습니다. 이 섹션에서는 로봇 조작에서 일반적인 실패 모들를 분류하고, 실패에 대한 분류법을 정의하는 3.1절 부터 시작합니다. 이어서, FailGen을 사용하여 AHA 데이터셋을 시뮬레이션에서 자동으로 생성하는 방법을 설명하는 방법에 대해 3.2절에서 다룹니다.

3.1 Failure Modes in Robotic Manipulation

로봇 조작 작업에 대한 실패 궤적의 instruction-tuning dataset을 curating 하기 위해, 일반적인 실패 모드를 체계적으로 식별하는 작업을 시작했습니다. 본 연구에서의 접근법은 기존 데이터셋(DROID 및 Open-X-Embodiment)를 검토하고, 행동 복제 모델에서 Policy rollouts 을 분석하는 것을 포함했습니다. 연구진은 원격 조작 및 자율 정책에서 발생하는 실패를 모두 조사했습니다. 이전 작업인 REFLECT을 기반으로, 로봇 조작에서 일반적으로 관찰되는 7가지 distinct 실패 모드를 포함하는 분류법을 형성했습니다. 이는 다음과 같이 형성됩니다: 불완전한 잡기(incomplete grasp), 불충분한 그립 유지(inadequate grip retention), 잘못 정렬된 키프레임(misaligned keyframe), 잘못된 회전(incorrect rotation), 회전 누락(missing rotation), 잘못된 동작 순서(wrong action sequence), 잘못된 대상 객체(wrong target object).

Incomplete Grasp (No_Grasp) Failure: No-Grasp는 그리퍼가 원하는 잡기 자세에 도달했지만, 다음 키프레임으로 진행하기 전에 잡는 데 실패하는 객체 중심의 실패입니다.
Inadequate Grip Retention (Slip) Failure: Slip은 객체가 성공적으로 잡힌 후, 그리퍼가 객체를 다음 작업별 키프레임으로 이동시키는 동안 그립이 느슨해져 객체가 그리퍼에서 미끄러지는 객체 중심의 실패입니다.
Misaligned keyframe (Translation) Failure: 이 동작 중심의 실패는 그리퍼가 작업 키프레임으로 이동할 때, X,Y,Z 축을 따라 translation offset이 발생하여 작업이 실패하는 경우입니다.
Incorrect Rotation (Rotation) Failure: Rotation은 그리퍼가 하위 작업 키프레임을 위한 원하는 translation pose에 도달했지만, Roll, Pitch, Yaw에서 offset이 발생하여 작업 실패를 초래하는 동작 중심의 실패 입니다.
Wrong Action Sequence (Wrong_action) Failure: Wrong_action은 로봇이 동작을 잘못된 순서로 실행하여 올바른 action keframe 전에 잘못된 action keyframe을 수행하는 동작 중심의 실패입니다. 예를 들어, put_cube_in_drawer 작업에서 로봇이 서랍을 열기 전에 큐브를 서랍으로 이동시키는 경우 작업 실패가 발생합니다.
Wrong Target Object (Wrong_object) Failure: Wrong_object는 로봇이 잘못된 대상 객체를 작동시킬 때 발생하는 객체 중심의 실패로, 언어 지시와 일치하지 않습니다. 예를 들어, Pick_the_red_cup 작업에서 그리퍼가 녹색 컵을 집을 때 실패가 발생합니다.

3.2 Implementation of the AHA dataset

AHA Dataset은 RLBench를 활용하여 생성되며, 이 시스템은 Keyframe 기반 공식화를 통해 작업 실행 중 동적으로 실패 모드를 유도합니다. RLBench는 작업 시연을 위한 keyframe을 기본적으로 제공하며, 이는 객체 조작(다양한 객체가 포함된 작업 처리)과 동작 순서(키프레임 실행 순서 변경)에서 유연성을 제공합니다. 이 기반을 바탕으로 본 연구에서는 FailGen을 활용합니다. FailGen은 RLBench를 둘러싸는 사용자 정의 환경래퍼로, 키프레임 변형, 객체 교체, 키프레임 순서 재졍렬 등을 통해 작업별 궤적 수정을 가능하게 합니다. FailGen은 Section 3.1에서 정의된 분류법에 맞춘 실패 궤적을 체계적으로 생성하며, 49k 개의 Fail-Qunstion Fairfh curated된 dataset을 산출합니다.

AHA 데이터셋을 생성하기 위해 각 RLBench 작업에서 모든 keyframe을 체계적으로 스윕하고, 전체 작업 실패를 초래할 수 있는 일곱 가지 실패 모드의 가능한 모든 구성을 고려합니다. 시뮬레이션에서 성공 조건 검사를 활용하여 각 실패 모드를 모든 keyframe에 걸쳐 sweeping 하면서 절차적으로 YAML 기반의 구성 파일을 생성합니다. 이 파일들은 FailGen이 실패를 유도하도록 변형해야할 잠재적 실패 모드, 매개 변수(예: 거리, 작업 순서, 그리퍼 유지 강도 등) 및 해당 keyframe에 대한 세부 사항을 제공합니다. 또한, 연속된 keyframe 간에 로봇이 수행하는 작업을 설명하는 언어 템플릿을 통합합니다. 이러한 설명과 실패 모드를 함께 사용하여, 각 실패 모드에 해당하는 Question-Answering fair를 curation 할 수 있습니다.

특정 실패 모드의 경우, No_Grasp는 관련 keyframe에서 gripper 열기/닫기 명령을 생략하여 gripper control을 실질적으로 비활성화합니다. Slip는 그리퍼가 활성화된 직후에 타이밍에 맞춰 그리퍼를 풀어 놓습니다. Traslation 과 Rotation은 각 keyframe의 위치와 방향을 변형하며, No_Rotation은 keyframe의 회전 축을 제한합니다. Wrong_Action은 잘못된 순서로 keyframe을 다른 객체로 재배정하고 상대적인 자세를 유지하여 잘못된 객체 조작을 모방합니다. 이 파이프라인을 사용하여 ManiSkill에서 실패 데이터셋을 성공적으로 생성하고, AHA 평가를 위해 RoboFail을 조정했습니다. 이는 FailGen이 다양한 시뮬레이션 환경에서 실패사례를 생성하는 데 있어 높은 일반화성과 다용성을 가지고 있음을 더욱 입증하게 됩니다.

4. Method

이 Section에서는 AHA를 미세 조정하고 평가하는 데 사용된 실패 추론 문제 공식화를 설명합니다. 다음으로 AHA의 공동 미세 조정을 위해 사용된 data mix를 논의합니다. 마지막으로, AHA의 instruction fine tuning pipeline과 모델 Architecture selection을 상세히 설명합니다.

4.1 Failure Reasoning Formulation

이전 연구들은 주로 작업 성공을 이진 분류 문제로 탐지하는 데 집중했지만, 본 연구에서는 실패 추론을 언어 사양과 입력 이미지 프롬프트를 기반으로 주어진 하위 작업의 이진 성공 조건("Yes" or "No")를 먼저 예측하는 방식으로 접근합니다. 만약 답이 "No"라면, VLM은 작업이 실패로 인식되는 이유를 상세히 설명하는 간결하고 자유 형식의 자연어 설명을 생성해야 합니다. 실패 추론을 공식화하기 위해, VLM에게 현재 하위 작업에서 궤적 실패를 분석하고 실패를 초래한 이유나 원인에 대해 설명하도록 요청합니다. 본 연구에서 조작 작업 궤적을 일련의 하위 작업 ${S_0, S_1, S_,.., S_t}$ 로 정의하며, 각 하위 작업은 두 개의 연속된 keyframe으로 표현됩니다. 예를 들어, "큐브 쌓기"와 같은 작업에서 하위 작업은 "큐브를 집기" 와 같은 원시 동작을 나타낼 수 있습니다. VLM을 위한 instruction fine -tuning과 평가의 입력 공식화에서는 VLM을 유도하는 질의 프롬프트와 입력 이미지가 필요합니다. 이 query prompt는 로봇이 수행하는 현재 하위 작업에 해당하는 템플릿을 사용하여 생성됩니다. 동작 순서 내에서 시간적 관계를 캡처하기 위해, 입력 이미지는 로봇의 궤적을 나타내는 단일 프레임을 선택하고, 이를 rollout 순서에서 다른 시점의 프레임들과 연결하여 구성합니다. (표 1 참고)

이 입력 프레임은 현재 하위 작업까지의 모든 keyframe을 시간 순으로 왼쪽에서 오른쪽으로 연결하여 구성되며, 나머지 keyframe은 흰색 image patch로 교체됩니다. 차폐를 완화하기 위해 모든 사용 가능한 카메라 시점을 포함시켜 이를 시간 순서와 함께 연결하고, 프롬프트에 작업에 대한 상세한 설명을 제공합니다. (표 1, 왼쪽 이미지) 이미지 데이터는 행렬 I 로 구성되며, 각 행은 다른 카메라 시점 ${V_0, V_1, ... , V_n} $ 을 나타내고, 각 열은 keyframe의 시간 순서 $ {S_0. S_1 ,., S_n} $을 캡처합니다. 이 이미지 큐레이션을 위한 공식화는 미세 조정 및 평가에 사용되는 모든 데이터셋을 포ㅎ멧하는 일반적인 접근법으로 활용됩니다. 이 구조화된 입력은 서로 다른 작업과 시점에서 데이터를 일관되게 처리할 수 있게 합니다. 전반적으로 본 연구에서의 실패 추론 문제는 VLM의 하위 작업 설명과 키프레임 궤적 이미지를 제공하여 각 하위 작업에 대한 성공 조건과 실패 이유에 대한 언어 설명을 예측하는 것입니다.(표 1 참조)

4.2 Synthetic Data for Instruction-tuning

AHA의 instruction tuning을 용이하게 하기 위해, 연구에서는 체계적으로 실패 시연 데이터를 생성해야 했습니다. 이를 위해 FailGen을 개발하였으며, 이는 어떤 로봇 조작 시뮬레이터에도 쉽게 적용할 수 있는 환경래퍼입니다. FailGen은 로봇의 성공적인 궤적을 체게적으로 변형하여 다양한 실패 모드를 가진 실패궤적으로 변환합니다. 이를 통해 RLBench 시뮬레이터에서 79개의 다야한 작업을 가로질러 AHA 데이터셋을 curation했으며, 그 결과 49k 개의 fail image-text pair를 생성했습니다. 또한, VLM의 적절한 instruction fine-tuning 성공을 위해 co-finetuning이 중요합니다. 따라서 AHA 데이터셋 외에도 인터넷 데이터에서 수집한 일반적인 visual QA 데이터셋을 사용하여 AHA를 Co-Finetuning 했습니다.이는 모델이 사전 훈련되 지식을 유지하는 데 도움이 됩니다. 구체적으로 665k 개의 대화 쌍을 포함하는 VQA 데이터셋과 100k개의 예측된 bounding box 중심 및 크기를 포함하는 LVIS 데이터셋을 포함시켰습니다. 이 데이터셋들은 표 1에 요약되어 있습니다.

4.3 Instruction Fine-tuning

본 연구에서는 LLaVA에서 설명된 instruction following tuning pipeline을 따랐습니다. 위 그림 2에서 나타난 바와 같이, 모델 아키텍처는 Image Encoder, linear projection, lagnguae tokenizer, transformer 기반 language model을 포함됩니다. Image encoder는 이미지를 token으로 처리하고, 이 token은 2층 linear projection을 통해 Language token과 동일한 공간으로 투영됩니다. 그런 다음, 이 multimodal token은 결합되어 language transformer를 통과합니다. 모든 구성 요소는 사전 훈련된 가중치로 초기화됩니다. 미세 조정 동안, projector와 transformer 가중치만 update 되며, vision encoder와 tokenizer를 고정된 채로 유지됩니다. 모델은 autoregressively 으로 작동하며, resopnse token과 instruction 과 response 사이의 경계를 표시하는 special token을 예측합니다.

5. Experimental Results

이 섹션에서는 AHA의 실패 탐지 및 추론 성능을 여섯 개의 최신 VLM들과 비교하여 평가합니다. 이 모델들에는 오픈 소스 모델과 독점 모델이 포함되며, 일부는 in-context learning을 활용합니다. 평가는 세 가지 다양한 데이터셋을 기반으로 수행되며, 이는 도메인 외 작업, 다양한 시뮬레이션 환경 및 교차 구현체 시나리오를 포함합니다. 이어서, AHA가 도메인 특화ㅣ 데이터로 미세 조정 후 일반 세계 지식을 얼마나 잘 유지하는 지 평가합니다. 마지막으로, AHA가 하위 로봇 조작 작업을 개선할 수 있는 잠재력을 탐구합니다.

5.1 Experimental Setup

로봇 조작에서 실패에 대한 AHA의 탐지 및 추론 능력을 정량적으로 평가하기 위해, 두 개의 데이터셋을 curatin하여 다른 최신 VLM들과 밴치마킹을 진행했습니다. 자유 형식 언어 추론의 공정한 비교를 위해, 문장간 의미 유사도를 측정하기 위해 네 가지 다른 평가 메트릭을 사용했습니다.

Benchmarks.

AHA의 추론 및 실패 탐지 능력을 평가하기 위해 세 개의 데이터셋을 큐레이션하여 다른 최신 VLM들과 벤치마킹을 수행했습니다. 첫 번째 데이터셋인 AHA 데이터셋(Test)은 10개의 RLBench 작업에서 11k개의 이미지-질문 쌍을 포함합니다. 이 데이터는 FailGen을 통해 미세 조정 데이터와 유사하게 생성되었으나, 미세 조정 데이터셋의 작업과 겹치지 않습니다. 이는 AHA가 새로운 도메인 외 작업에 대해 일반화할 수 있는 능력을 평가합니다. 두 번째 데이터셋인 ManiSkill-Fail은 ManiSkill에 서 네 가지 작업에 걸쳐 130개의 image-question pair를 포함합니다. 이 데이터셋은 다른 시뮬레이터와 변화하는 시점에서의 AHA 성능을 평가합니다. 마지막으로, 실제 세계 로봇 실패를 특징으로 하는 RoboFail 데이터셋 에서 실패 벤치마크를 적응시켰습니다. 이 데이터셋은 7개의 UR5 로봇 작업을 포함하며, 이는 시뮬레이션 및 실제 세계 궤적 간의 평가와 다른 구현체 간의 평가를 가능하게합니다.

Evaluation Metrics.

모든 데이터셋과 기준선에서 성공 탐지 및 자유 형식 언어 추론을 공정하게 평가하기 위해 네 가지 메드릭을 사용합니다. 첫 번째로, ROUGE-L 점수는 후보 텍스트와 참조 텍스트 간의 가장 긴 공통 부분 수열에 중심을 두어 생성된 텍스트의 품질을 측정합니다. 두 번째로, CosineSimilarity를 사용하여 텍스트 또는 임베딩 간의 유사성을 평가합니다. 이는 "차원의 저주"를 피가히 위해 사용됩니다. 세 번째로, LLM Fuzzy Matching은 외부 언어 모델인 Anthropic의 보지 않은 모델인 claude-3-sonnet을 사용하여 teacher-student prompt 형식으로 의미 유사성을 평가합니다. 마지막으로 성공 탐지를 위해 모델의 예측을 실제 정답과 직접 비교하여 이진 성공률을 계산합니다.

5.2 Quantitative Experimental Results

본 연구에서는 세 가지 데이터셋, 일반 VQA 데이터셋 기반으로 AHA의 실패 추론 및 탐지 성느을 체계적으로 평가하여 AHA의 성능을 문맥화 하였습니다. 또한, 다양한 실험을 통해 AHA가 구현체 간 보지 못한 환경, 새로운 작업에 대해 일반화할 수 있는 능력을 입증했습니다. AHA의 탐지 및 추론 능력에서 공정성을 보장하고 편향을 제거하기 위해, AHA가 미세 조정 중에 보지 못한 세 가지 데이터셋에 평가를 진행했으며, 각 데이터셋은 특정 형태의 일반화를 테스트 하도록 설게되었습니다.

첫 번째로, AHA 데이터셋(test)에서 AHA는 동일한 도메인 내에서 작업과 새로운 행동에 대한 추론을 일반화할 수 있음을 보여주었으며, 두 번째로 좋은 성능을 보인 VLM인 GPT-4o ICL을 모든 평가 메트릭에서 평균 12.6% 차이로 초과했습니다. 두 번째로, AHA- 13B 를 FailGen 래퍼를 사용하여 다른 시뮬레이션 도메인인 ManiSkill에서 생성된 데이터셋에서 평가했으며, 모델은 모든 메트릭에서 GPT-4o-ICL을 평균 13.4% 초과했습니다. 마지막으로, 실제 로봇과 다른 구현체에 대한 일반화를 입증하기 위해, AHA-13B를 RoboFail에서 평가했으며, GPT-4o-ICL을 4.9%차이로 초과했습니다.

AHA retains common sense knowledge. AHA-13B의 성능을 다양한 VQA 벤치마크에서 평가했으며, 그 결과는 표 3에 제시되었습니다.AHA-13B는 LLaVA-v1.5-13B와 비슷한 성능을 보였으며, 차이는 1.5%에 불과헀습니다. (표 3 참고) 주목할 만한 점은 LLaVA-v1.5-13B가 AHA-13B와 동일한 사전 훈련 가중치로 훈련되었지만, VQA 데이터로 미세 조정되었다는 것입니다. 이는 AHA-13B가 실패 추론에서 뛰어난 성능을 보이는 것 외에도 일반 목적의 VLM으로 기능을 수행할 수 있음을 시사합니다.

AHA’s performance scales with data size. AHA의 성능을 instruction fine-tuning을 위한 다양한 AHA 데이터 크기 ([3k, 6k, 12k, 34k, 48k, 60k]) 로 평가하고, 해당 데이터 크기와 관련된 개발 체크포인트를 co-finetuning하였습니다.(그림 3 왼쪽 참고) 그런 다음, 모델은 ManiSkill-Fail 데이터셋에서 네 가지 평가 메트릭을 기준으로 평가되었습니다. 네 가지 메트릭에 대해 average quadratic fit gradient가 0.0022로 나타나, 절차적으로 생성한 데이터 파이프라인을 통해 미세 조정된 데이터의 확장 효과를 보여주었습니다. 이는 생성된 데이터를 더 확장하면 모델 성능이 향상될 수 있음을 시사합니다.

5.3 Downstream Robotics Tasks

AHA의 실패 탐지 및 추론 능력이 다양한 하위 로봇 응용 프로그램에서 유용하다는 것을 입증합니다. 여기에는 강화 학습 응용 프로그램을 위한 자동 보상 생성, 작업 및 동작 계획 응용 프로그램을 위한 자동 작업 계획 생성, 자동 데이터 생성 시스템을 ㅟ한 개선된 검증 단계가 포함됩니다. 각 응용 프로그램의 비디오, 향상된 보상 함수, 작업 계획, 예시 비디오 등은 프로젝트 페이지에서 확인할 수 있습니다.

AHA enables efficient reward synthesis for reinforcement learning.

하위 작업을 평가하기 위해, ManiSkill 시뮬레이터에서 상태 기반 조작 작업을 제공하는 Eureka의 구현을 적응시켰습니다. 연구에서는 Eureka 보상 함수 생성 및 반영 파이프라인을 엄격히 따랐으며, 이를 AHA 13B 또는 GPT-4o(기준선 역할)을 통해 인식 실패 피드백을 포함시켜 원래의 LLMㅂ 반영 매커니즘을 향상시켰습니다. 자동화된 보상 편집을 위한 정책 훈련 통계를 기반으로 한 텍스트 요약만 포함하는 대신, 평가 rollout을 기반으로 정책 실패에 대한 설명을 추가했습니다. 우리는 ManiSkil에서 5개의 강화 학습 작업에 대해 연구에서의 접근 방식을 평가했스빈다. 작업에서 테이블탑 조작부터 모바일 조작까지 다양한 범위를 포함했습니다. 예산 제약 하에서 다양한 VLM의 추론 능력을 체계적으로 평가하기 위해, 처음에 하나의 보상 함수를 샘플링하고 두 번의 GPT API 호출 세션 동안 반복할 수 있도록 했습니다. 각 정책은 PPO를 사용하여 작업 별 훈련 단계를 통해 훈련되었고 1,000번의 테스트 단계에서 평가되었습니다. Policy rollout 동안 AHA-13B또난 GPT-4o를 사용하여 보상 반영을 통해 보상 함수를 개선했습니다. 다양한 fail feedback VLM을 사용한 평가된 정책 성공률을 비교한 결과, AHA-13B은 직관적이고 인간 수준의 실패 추론을 제공하여 생성된 밀집 보상 함수를 수정하여 개선하는 데 도움이 되었습니다. 이로 인해 예산 제약 내에서 모든 5개 작업에서 성공률을 달성했으며, 본 연구에서의 접근 방식은 작업 성공률에서 GPT-4o를 22.34% 초과헀습니다.(그림 3 오른쪽)

AHA refines task-plan generation for TAMP.

AHA가 계획 시스템 내에서 유용하게 활용되는 사례를 보여주기 위해, PRoC3S에 연구에서의 접근 방식을 통합했습니다. PRoC3S 시스템은 자연어로 지정된 작업을 해결하기 위해, LLM에 언어 모델 프로그램(LMP)을 요청하고, 그런 다음 시뮬레이터 내에서 이 계획들을 테스트 한 후 유효한 계획을 로봇에서 실행합니다. 유효한 계획을 찾을 수 없는 경우(우리 실험에서는 100번의 샘플링 후), LLM은 환경에서 제공된 실패 정보를 바탕으로 새로운 LMP를 다시 요청한다. 중요하게도, TAMP 방법의 전형적인 방식처럼, 원래의 접근법은 환경에서 실패의 유한한 집합(역 기구학, 충돌 등)을 검사하고, 이러한 방식으로 실패하지 않은 샘플 계획을 반환한다. 우리는 이 파이프라인에 VLM을 두 가지 방식으로 통합했다: (1) 시뮬레이터 내에서 실패한 계획 실행을 시각화한 후, 이를 VLM에 프롬프트하여 실패에 대한 설명을 반환하고 이를 PRoC3S의 LMP 피드백 단계에서 사용, (2) PRoC3S가 유효한 계획을 반환한 후, 이를 VLM에 시각화하여 이 계획이 자연어 목표를 실제로 달성하는지 물어보고, 그렇지 않으면 재계획을 트리거한다. 우리는 PRoC3S 구현에서 GPT-4o와 AHA-13B를 실패 추론 모듈로 비교했으며, 세 가지 작업에 대해 평가를 진행했다(그림 4 참조). 각 작업은 10번의 실험으로 평가되었으며, 최대 100번의 샘플링 단계와 세 번의 피드백 사이클이 제공되었다. 작업 성공률이 기록되었고, 그림 3(오른쪽)에서 볼 수 있듯이, AHA-13B를 사용한 실패 추론은 작업 성공률을 크게 향상시켜 GPT-4o를 36.7% 초과했다.

AHA improves task verification for zero-shot robot data generation.

AHA가 제로 샷 로봇 시연 생성에서 유용하게 활용되는 사례를 보여주기 위해, 우리는 Manipulate-Anything 프레임워크에 우리의 접근 방식을 통합했다. 이 개방형 시스템은 다양한 Vision-Language Models (VLMs)을 사용하여 다양한 로봇 궤적을 생성하고, 정의된 동작이나 시나리오에 구애받지 않고 광범위한 조작 작업을 수행한다. Manipulate-Anything의 중요한 구성 요소는 하위 작업 검증 모듈로, 이전 및 현재 프레임을 분석하여 하위 작업이 달성되었는지 여부를 결정하고, 그렇지 않으면 이전 하위 작업을 반복한다. 우리는 이 하위 작업 검증 모듈에서 원래의 VLM(GPT-4V)을 AHA-13B로 교체하고, 4개의 RLBench 작업에서 성능을 평가했다(그림 4). 각 작업에 대해 25번의 에피소드를 수행했다. 우리의 결과는 하위 작업 검증 모듈의 VLM을 AHA로 교체한 것이 추론 정확도와 전체 작업 성공률을 평균 5% 향상시켰음을 보여준다.

'Vision Language Action model' 카테고리의 다른 글

VLATest: Testing and Evaluating Vision-Language-ActionModels for Robotic Manipulation (0)	2025.05.26
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models (0)	2025.05.11
Gemini Robotics: Bringing AI into the Physical World (0)	2025.03.25
TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Modelsfor Robotic Manipulation (0)	2025.03.12
π0: A Vision-Language-Action Flow Model for General Robot Control (0)	2025.03.02

Embodied AI in Robotics

[Paper Review] AHA: A Vision-Language-Model for Detecting andReasoning Over Failures in Robotic Manipulation

Abstract

1 Introduction