[Paper Review] 3D-VLA: A 3D Vision-Language-Action Generative World Model

이번에 리뷰해볼 논문은 3D-VLA: A 3D Vision-Language-Action Generative World Model 라는 논문입니다. 이는 기존 VLA 모델이 2D 입력에 의존하는 한계를 극복하고자, 3D 인지, 추론, 행동을 통합한 Generative world model을 제안합니다. 이를 통해 로봇이 3D 환경에서의 상호작용을 보다 효율적으로 학습할 수 있다고 합니다.

논문 주소: https://arxiv.org/pdf/2403.09631

Github: https://github.com/UMass-Foundation-Model/3D-VLA

Abstract

최근 Vision-Language-Action(VLA)모델은 2D 입력을 기반으로 작동하며, 3D Physical world와의 통합이 부족합니다. 또한, 대부분의 VLA 모델은 단순히 인식(perception)에서 행동(action)으로 직업 mapping하는 방식으로 동작 예측을 수행하며, 세계의 복잡한 동역학(dynamics)과 행동 간의 관계를 고려하지 않습니다. 반면, 인간은 feature scenario를 상상하여 계획하는 world model을 활용합니다.

이 문제를 해결하기 위해, 3D-VLA를 제안합니다. 이는 3D perception, reasoning, action을 generative world models을 통해 유기적으로 연결하는 새로운 유형의 VLA 모델입니다. 구체적으로, 3D-VLA는 3D 기반 LLM 위에 구축되며, 환경과 상호작용할 수 있도록 interaction tokens을 도입합니다. 또한, 모델에 생성 능력을 추가하기 위해, goal images 및 point clouds 예측하도록 설계된 일련의 Embodied Diffusion models을 학습한 후, 이를 LLM과 alignment 시킵니다. 이를 통해, 모델이 단순한 행동 예측을 넘어 Multimodal generation 및 planning 능력을 향상할 수 있도록 합니다.

훈련을 위해 기존 로봇 데이터셋에 방대한 3D 관련 정보를 추출하여 대규모 3D Embodiment Instruction 데이터셋을 구축하였습니다. 실험 결과, 3D-VLA는 기존 데이터셋에서도 reasoning, multimodal generation , planning capabilities in embodied enviroments을 크게 향상시키며, 실제 환경에서 응용 가능성을 보여줍니다.

1. Introduction

최근 Vision-Language 모델의 발전으로 인해, 이미지 입력을 기반으로 2D 공간에서 다양한 추론 작업을 수행할 수 있는 모델들이 등장하고 있습니다. 이러한 2D 기반 모델들은 인간의 뇌처럼 다재다능한 역할을 수행할 수 있으며, RT-2 및 PaLM-E와 같은 최신 Embodied foundation Models의 기초가 되었습니다. 이 모델들은 이미지를 기반으로 고차원적 계획을 생성하거나 저 수준 행동을 예측하는 능력을 갖추었지만, 인간이 2D 이미지 이상의 풍부한 3D 물리적 세계에서 사고하고 행동하는 사실을 간과합니다. 따라서, 인간과 유사한 지능을 갖춘 Embodied Ai는 3D 환경을 이해하는 능력을 갖추어야만 합니다.

이러한 한계를 극복하기 위해 최근 연구에서는 3D 환경에서 계획을 세우고 행동할 수 있는 Embodied Foundation Models을 개발하고 있습니다. 그러나 이러한 모델들은 대부분 단순히 perception에서 action으로 직접 mapping하는 방식으로 학습되며, 세계의 dynamics와 action 간의 관계를 충분히 고려하지 않습니다. 반면 인간은 3D internal erepresentation을 기반으로 미래 사건을 simulation하는 world model을 활용합니다. 즉, 인간은 미래 상태에 대한 예측을 통해 더 나은 action plan을 수립할 수 있습니다.

인간과 같은 3D world model을 구축하는 데에는 몇 가지 도전 과제가 존재합니다.

기존 Foundation Models의 한계: 현재의 VLA 모델들은 대부분 언어 생성에 집중하고 있으며, 언어를 넘어서 다양한 모달리티를 생성하거나, 미래 상태를 예측하여 action generation을 돕는 기능이 부족합니다. 그러나 world model을 구축하기 위해선, 이러한 기능이 필수적입니다.
데이터 부족 문제: 기존 Embodied 데이터셋은 대부분 2D 이미지나 비디오로 구성되어 있으며, 3D 공간에서의 추론과 계획을 위한 3D 관련 주석이 부족합니다.

위의 한계를 해결하기 위해, 연구진은 3D-VLA를 제안합니다. 이는 3D perception, reasoning, action을 generative world model을 통해 통합하는 새로운 유형의 Embodied Foundation Model 입니다. 3D-VLA의 핵심 구조는 다음과 같습니다.

3D-VLA는 3D 기반 대형 언어 모델(3D-LLM)을 기반으로 구축되며, 이를 통해 모델이 3D 환경을 이해하는 능력을 갖추도록 합니다.
단순한 언어 생성만으로는 Embodied 작업을 해결할 수 없으므로, 환경과 상호작용할 수 있는 특수한 interaction tokens(Ex: 장면, 객체, 행동 token)을 추가했습니다.
이러한 추가된 Token을 통해 3D-VLA는 더 넓은 범위의 Embodied 작업을 수행하고, 3D-Text data의 결합을 지원할 수 있습니다.

또한 목표 생성 능력(goal generation ability)를 추가했습니다. 내용은 다음과 같습니다.

기존 Embodied Foundation models는 multimodal generative ability가 부족합니다. 이를 해결하기 위해, 3D-VLA에 goal generation 기능을 추가헀습니다.
RGBD(RGB-Depth) 데이터를 기반으로 Embodied Diffusion Models을 학습하여 goal image 및 point cloud를 생성할 수 있도록 설계하였습니다.
이를 위해, 다양한 모달리티에 diffusion decoders를 LLM embedding space와 효과적으로 연결하는 Projector를 사용하였습니다.

이후 3D 대규모 Embodiend Instruction Datasets를 구축하였습니다. 기존의 Embodied 데이터셋들은 대부분 2D 이미지로 구성되어 있으며, 3D 관련 정보가 부족합니다. 이를 해결하기 위해, 대규모 3D Embodied Instruction Datasets을 구축하였습니다. 또한 로봇 조작 데이터 및 인간-객체 상호작용 데이터를 수집하였으며, depth 데이터가 부족한 경우, 깊이 추정 모델(depth estimator)를 활용하여 3D 정보를 보완하였습니다. 또한 Open-source 모델을 활용하여 3D 관련 주석을 자동으로 생성하고, Language descriptions를 강화하였습니다. 이 과정을 통해 200만 개(2M)의 3D-Language-Action data pair를 구축하였으며, 여기에는 task cationing, action prediction, localization, multimodal goal generation 등 다양한 작업을 포함되어 있습니다. 작업에 대한 예시는 그림 1과 같습니다.

본 연구에서는 다음과 같은 기여를 합니다:

3D-VLA 제안:
- 3D 인지, 추론,행동을 통합하는 새로운 유형의 3D-Vision-Language-Action(3D-VLA) Embodied Foundation Model을 제안합니다.
대규모 3D Embodied 데이터 셋 구축:
- 기존 Embodied 데이터셋의 3D 정보 부족 문제를 해결하기 위해 대규모 3D Embodied Instruction Tuning 데이터셋을 구축하였습니다.
Interaction Token 추가:
- 환경과 상호작용할 수 있도록 interaction tokens을 추가하였습니다.
- 목표 이미지 및 point cloud generation을 위한 diffusion model을 학습하고, Projector를 활용하여 LLM출력 특징과 diffusion model을 효율적으로 alignment 하였습니다.
Goal generation (Image,depth, point cloud 기준) 생성, Embodiment action prediction을 포함한 다양한 작업 수행
- 새로운 Embodied 작업에서 기존 베이스라인 모델을 큰 차이로 능가하며, 전통적인 언어 기반 작업에서도 우수한 성능을 보입니다.

2. Related Works

Multimodal Language Models

최근 멀티모달언어 모델(MLMs)는 다양한 도메인에서 눈에 띄는 발전을 이루었습니다. 이는 Vision- Language understanding, Interleaved image and text understanding, interleaved image and text generation 등의 분야에서 두드러진 성과를 보입니다. 또한 일부 더 통합된 모델(unified models)은 text, video, audio 등의 입력을 인식하고 임의의 조합으로 출력을 생성할 수 있습니다. 그러나 이러한 모델들은 3D 입력을 인식하거나 3D 입력을 기반으로 행동을 생성하는 능력은 갖추고 있지 않습니다.

Vision-Language-Action Models

기존 Vision-Language Models 중 행동 출력을 포함하는 모델들은 주로 2D feature을 활용합니다. 따라서 3D 공간적 이해 능력이 부족합니다. 반면 3D-VLA 모델은 3D feature을 활용하며, goal-oriented world model 내에서 목표와 정렬된 방식으로 예측됩니다. 우리는 Point clouds와 같은 3D 특징을 활용하여 action token을 생성한 최초의 연구이며, 이를 통해 action planning 정확도를 크게 향상시켰습니다. 또한 이 pipeline을 real-world seneraios에서 도 적용될 가능성이 높은 확장성을 갖추고 있습니다.

3D Foundation Models

본 연구는 멀티모달 대형 언어 모델(MLLMs)에 3D Feature를 통합하는 3D Foundation models의 연구와 밀접한 관련이 있습니다. 이전 연구들은 3D 특징을 활용하여 장면을 이해하는 Foundation Models의 발전을 이끌었으며, 이는 3D 환경에서의 분석 및 추론을 가능하게 만들었습니다. 그러나 기존 연구들은 현재 관찰 가능한 3D 장면의 분석과 추론에 초점을 맞추고 있으며, 미래의 특징을 예측하는 능력엔 한계가 존재합니다. 이에 반해 우리는 현재 인식 가능한 장면을 이해하는 것 뿐만 아니라, 특정 목표에 따라 인식할 수 없는 멀티모달 특징을 예측하고자 합니다. 이러한 능력을 통해 위 모델은 3D 세계와 상호작용할 수 있는 action tokens까지 생성할 수 있습니다.

3. 3D Embodied Instruction Tuning Dataset

최근, 인터넷에 존재하는 수십억 개 규모의 데이터셋을 활용하면서, Vision-Language Models(VLMS)은 다양한 작업에서 뛰어난 성능을 보여주고 있습니다. 유사하게 Video action pair dataset은 로봇 제어를 위한 Embodied VLMs의 기초가 되고 있습니다. 그러나 기존 데이터셋들은 depth 정보나 3D annotations이 부족하며, 로봇 작업에서 정밀한 제어를 수행하는 데 필요한 3D spatial reasoning 및 interaction 기능이 미비합니다. 예를 들어, "가장 먼 컵을 가운데 서랍에 넣어라" 와 같은 3D spatial reasoning 이 필요한 명령을 로봇이 정확하게 수행하기 위해서는 3D 정보가 필수적입니다.

이러한 격차를 해결하기 위해, 우리는 충분한 3D 관련 정보와 text 지침(text instructions)이 함께 제공되는 대규모 3D Embodied Instruction Tuning datasets을 구축하였습니다. 기존 Embodied datasets에서 3D-Language-Action Pair를 추출하는 pipeline을 설계하였으며, 이를 통해 다음과 같은 annotation을 확보 했습니다. (Point clouds, 3D bounding boxs, depth maps, 7D actions, textual descriptions)

3.1. Dataset Collection

Robot Datasets:

Open-X Embodiments Datasets 에서 총 12개의 로봇 데이터셋을 선택하였습니다. 이들 데이터셋은 고품질 이미지와 언어 지침(linguistic instuctions)을 포함하고 있으나, 더 정교한 3D 정보 및 주석이 부족합니다. 선택한 주요 데이터셋은 다음과 같습니다. (Brohan et al., 2022; Jang et al., 2022; Walke et al., 2023; Lynch et al., 2023; Feng et al., 2023; Chen et al., 2023a; Dass et al., 2023; Mandlekar et al., 2019; Mees et al., 2023; Shah et al., 2023; Sawhney et al., 2021; Sermanet et al., 2023) 또한, 보다 우수한 depth information을 포함하는 데이터셋도 선정하였습니다.(Dobb-E, RT20T) 추가적으로 RLBench 및 CALVIN 시뮬레이터 환경에서 수집된 데이터셋도 포함하였습니다.

Human Object Interaction Datasets:

Human/hand-object interactions은 로봇의 decision-Making & Imitation Learning에 도움이 될 수 있습니다. 따라서 우리는 여러 개의 Human-Object interaction datasets을 활용하였습니다. 특히, 깊이 정보가 없는 데이터셋과 보다 정교한 3D 주석이 포함된 데이터셋을 병합하였습니다.(깊이 정보가 부족한 데이터셋: Epic-Kitchens) ( 더 우수한 3D 주석을 포함한 데이터셋: HOI4D)

3.2. Visual Annotations

Estimating depths and optical flows.

Embodied 작업을 위한 비디오 데이터셋의 95% 이상이 3D 정보를 제공하지 않기 때문에, ZoeDepth를 활용하여 이러한 데이터셋의 각 프레임에서 depth를 추정합니다. 또한 비디오 데이터를 보다 효과적으로 활용하기 위해 RAFT를 사용하여 optical flow를 추정합니다. Optical flow는 생성한 데이터를 정제하는데 도와줍니다. 따라서 카메라의 위치가 변하지 않는 비디오 구간에서는 optical flow를 활용하여 움직이지 않은 background pixel을 추정합니다. 이후, 동일한 비디오 내의 서로 다른 프레임에서 배경의 depth maps을 정렬하고, 각 프레임의 깊이 맵을 보정 계수로 곱하여 깊이 일관성을 유지합니다. 깊이 맵을 얻은 후, 카메라 내부 파라미터(camera intrinsics)와 카메라 포즈(camera poses)를 사용하여 RGB-D 이미지를 직업 3D point cloud로 변환할 수 있습니다.

Generating 3D annotations.

다음과 같은 3D 관련 annoatations을 생성하는 것을 목표로 합니다:

객체의 3D bounding box
Goal image
Depths 및 point cloud 생성 결과
3D 공간에서의 Robot actions

우선 장면 내 객체의 3D bounding box를 추출합니다 .이러한 정보는 3D 모델이 3D 정보를 효과적으로 학습하고, 조작할 객체를 명확하게 인식하여 더 나은 의사결정을 수행하는 데 도움을 줍니다.

Embodied 데이터셋들은 로봇이 수행한 명령을 설명하는 text instruction을 포함하고 있습니다. 이를 활용하여, spaCY를 사용하여 지침을 파싱하고, 조작된 객체(Manipulated object)를 포함한 모든 명사구(noun chunks)를 추출합니다.

이후, 사전 학습된 그라운딩 모델(Grounding -SAM)을 활용하여 각 객체의 2D mask를 얻습니다. 이러한 2D 마스크를 3D로 변환하면 Point cloud내의 특정 부분과 대응되며, 이를 통해 공간 내 모든 객체의 3D bounding box를 추출할 수 있습니다. 마스크를 선택할 때, 가장 높은 신뢰도(confidence)를 가진 영역에서 중요한 optical flow이 발생한 객체를 Manipulated object로 선택합니다. 연구진은 depth 및 point clouds를 재구성했기 때문에, future frame의 image, depth, point cloud를 ground-truth goals로 활용할 수 있습니다. action data의 경우, 제공된 dataset에서 7-DOF robot actions를 사용합니다.

3.3. Language Annotations

그림 2. Overview of 3D-VLA pipeline. The left part shows our goal-generation capability. Our model can imagine the final state image and point cloud based on the user’s input. This generated goal state can then be fed back to our model to guide the robot control.

CoVLM, Kosmos-2 연구에서 영감을 받아, 밀도 높은(dense) 언어 주석을 생성하는 방법을 제안합니다. 이 언어 주석에는 이전에 생성한 3D 주석(bounding box, goal image/depth/point cloud, action data)등을 포함하는 token (e.g., <image></image>, <pcd></pcd>)이 포함됩니다. 이러한 주석은 그림 2의 prompt 예시에서 확인 가능합니다. 연구진인 미리 정의된 language templates와 token을 활용하여 3D annotation을 prompt와 answer 형식으로 변환합니다. 3D-LLM의 논문을 따라 ChatGPT 기반 prompting을 활용하여 prompt의 다양성을 증가시킵니다. 구체적으로, 1)ChatGPT에 instructions과 우리가 주석한 객체 및 바운딩 박스 정보를 제공합니다. 2) 2~3개의 few-shot-human-written(사람이 작성한) 예제를 함께 제공하여, ChatGPT가 생성해야하는 데이터 유형을 학습하도록 유도합니다. 3) ChatGPT는 제공된 정보를 summarization하고, 기존 템플릿에서 생성된 prompt를 더 다양하게 변환합니다. 만일 미리 정의된 templeate가 없는 경우, ChatGPT가 직접 prompt와 answer를 생성하도록 하여, 해당 작업의 언어 입릭 및 출력을 자동으로 구성합니다.

4. Methods

4.1. Overview

이 절에서는 3D-VLA, 즉 3D reasoning, goal generation 및 decision-making을 수행하는 world model을 소개합니다. 위 그림2에서 볼수 있듯이 먼저 3D-LLM을 backbone으로 구축한 후, 3D World와의 상호작용을 강화하기 위해 일련의 interaction token을 추가합니다. 그 다음, 3D-VLA의 goal generation 기능을 추가하기 위해: 1) Embodied Diffusion Model을 pretrained 하고, 2) LLM과 Diffusion models을 alignment하기 위한 Projector를 적용합니다.

4.2. 3D-VLA

4.2.1 BACKBONE.

첫 번째 단계에서는 3D-LLM의 방법론을 기반으로 3D-VLA모델을 개발합니다. 저자가 수집한 데이터셋은 멀티모달 LLM을 처음부터 학습할 만큼 대규모(수십억 개 수준)가 아니므로, 3D-LLM의 접근 방식을 따라 Multi-view 특징을 활용하여 3D 장면 특징(scene feature)을 생성합니다. 이 방법을 사용하면 사전 훈련된 VLM과 시각적 특징을 원활하게 통합할 수 있으며, 별도의 적응 과정(adaptation)없이 바로 적용 가능합니다. 그러나 3D-LLM이 주로 물체 데이터셋과 실내 장면 데이터셋에 의해 학습되었기 때문에, 우리의 Embodied 환경과 직접적으로 정렬되지 않습니다. 따라서 3D-LLM을 사전 학습 모델로 그대로 로드하지 않으며, 대신 BLIP2-FalnT5XL을 사전 학습 모델로 사용합니다. 훈련 과정에선 Input/output embeddings)을 unfreeze하고, Q-Former의 weight도 함께 업데이트 합니다.

4.2.2. INTERACTION TOKENS

모델이 3D 장면을 더 잘 이해하고(3D scene comprehensions), 환경과 효과적으로 상호작용할 수 있도록 하기 위해, 새로운 interaction token을 도입하였습니다.

먼저, object Tokens은 문장에서 객체 명사(object nouns)를 감싸는 <obj></obj> Token을 추가했습니다. (Ex: <obj> a chocolate bar </obj> [loc tokens] on the table) 이를 통해, 모델이 조작 대상(manipulated object)와 참조된 객체(referred object)를 더 정확하게 이해할 수 있도록 하였습니다.

두 번째로 Location Tokens은 객체의 공간적 정보(spatial information)을 표현하기 위해 <loc0-255> 로 token을 설계합니다. 이는 AABB(Axis-Aligned Bounding Box) 형식으로 6개의 token을 사용하여 3D bounding box를 나타냅니다.

세 번째로, Scene Tokens은 정적 장면의 embedding을 감싸는 <scene></scene> Token을 추가했습니다. 이를 통해, 3D-VLA가 동적 장면(dynamic scenes)를 더 잘 이해하고, 3D 장면과 텍스트를 혼합하여 입력 받을 수 있도록 하였습니다.

마지막으로, Robot Action Tokens은 로봇의 7-dof 행동을 표현하기 위해 특수 토큰을 추가하였습니다. 예를 들어 팔의 절대 위치(absolute location)은 <aloc0-255> 로, 팔의 회전(rotation)은 <arot0-255>, gripper의 개폐 상태는 <gripper0/1> 로 표현하였고, Action token은 <ACT SEP> Token을 사용하여 구분하였습니다.

이러한 Interact token을 추가함으로 써, 3D -VLA는 3D 장면을 더 잘 이해하고, 로봇 행동을 효과적으로 모델링 할 수 있는 강력한 Embodied AI 모델로 발전할 수 있었습니다.

4.3. Injecting Goal Generation Ability into 3D-VLA

이 절에서는 3D-VLA가 image, depths, point cloud 단위에서 goal generation을 하는 방법에 대해서 소개합니다. 인간의 행동 예측(action prediction)이나 의사 결정(decision-making)을 쉽게 하기 위해 미리(scene pre-visualization) 최종 상태를 상상합니다. 이는 world model을 구축하는 핵심 요소 중 하나입니다. 또한 사전 실험(preliminary experiments)중 정답에 해당하는 최종 상태 (ground-truth final states)를 제공하면 모델의 reasoning, planning 능력이 향상됨을 발견했습니다. 그러나 멀티모달 대형 언어 모델(MLLM)이 image,depth 및 point cloud를 생성하도록 학습하는 건 간단하지 않습니다. 기존 video Diffusion model의 한계를 보면 state-of-the-art video diffusion models은 Embodied 환경에 맞춰 설계되지 않았습니다. 예를 들어, Runway를 사용하여 "서랍을 열어라(open the drawer)" 라는 명령을 주었을 때, 카메라 시점(view change)이 크게 변하고, 예상치 못한 객체 변형(object deformation) 및 이상한 텍스처 변환(weird texture replacement), 레이아웃 왜곡(layout distortion) 등이 발생하여 전체 장면이 과도하게 변형됩니다. DreamLLM의 방식처럼 인터넷 데이터를 활용해 stable diffusion을 직접 Freeze한 채 적용할 경우, 모델 출력이 collapse하는 문제가 발생합니다. 다양한 modalities의 diffusion model에 통합하는 것은 여전히 해결되지 않은 문제입니다.

이러한 문제를 해결하기 위해, 3D- VLA가 image, depth, point cloud를 생성할 수 있도록 목표 생성능력을(Goal Generation Ability)를 추가했습니다. 먼저, Embodied Diffusion Models을 다양한 모달리티(이미지, 깊이, 포인트 클라우드)별로 사전 학습 과정을 거친 후, Diffusion model decoders를 3D-VLA의 embedding space와 alignment하여 통합합니다.

4.3.1. PRETRAINING EMBODIED DIFFUSION MODELS FOR GOAL GENERATION

기존 Diffusion Models의 Embodied 환경에서의 goal generation 한계를 해결하기 위해, RGB-D → RGB-D 및 Point cloud → Point cloud 변환을 수행하는 Diffusion model을 학습하였습니다. 이를 위해 3D-language video data를 활용하여 초기 상태(initial state) 모달리티를 편집하여 최종 상태(final state) 모달리티를 생성하는 conditional diffusion model을 학습하였습니다.

구체적인 학습 방법으론 RGB-D → RGB-D Generation 을위해 stable diffusion V1.4를 사전학습 모델로 사용하였습니다. 그 이유는 사전학습된 VAE의 latent space에서 이미지 생성을 수행하는 "Latent Diffusion" 방식이 효율성과 품질 측면에서 뛰어나기 때문입니다. 이에 RGB latent와 depth latent를 연결하여 image condition으로 활용하였습니다. 두 번째로, point cloud → point cloud Generation을 위해 point-E를 사전학습 모델로 사용하였고 위와 동일하게 point cloud를 condition으로 추가하여 학습했습니다.

이러한 과정을 통해 3D-VLA는 주어진 초기 상태와 명령을 기반으로 최종 상태를 생성할 수 있는 강력한 goal generation ability를 갖추게 되었습니다.

4.3.2. BRIDGING LLM AND GOAL GENERATION

Diffusion model을 사전 학습 한 후, 다양한 모달리티의 latent space을 조절하여 목표를 생성할 수 있는 여러 decoder를 갖추게 되었습니다. 그러나, 사전학습된 Decoder는 LLM에 원활하게 통합하여 3D-VLA가 입력 명령에 따라 사전 학습된 모든 모달리티에서 목표를 생성할 수 있도록 하는 것은 여전히 해결해야하는 과제입니다. 이러한 LLM과 다양한 모달리티의 diffusion model 간의 격차를 해소하기 위해, 우리는 3D-VLA에 alignment stage를 개발하였습니다. 먼저 <image></image> 및 <pcd></pcd>와 같은 추가적인 특수 토큰(special tokens)을 도입하였습니다. 이러한 토큰 사이에는, LLM이 로봇이 수행해야하는 명령을 생성하도록 지도(supervised) 하며, 여기에는 Object token과 location tokens이 포함될 수 있습니다. 예를 들어, <image> pick up the <obj> apple </obj> [loc tokens] </image> 위와 같은 형태 입니다. 이를 기반으로 Transformer 기반 projector를 적용할 수 있으며, 이는 LLM에서 생성된 decoder의 feature와 embedding을 diffusion model framework의 공간으로 mapping 할 수 있도록 합니다. 이 projector는 high-level language understanding과 muiti modal goal generation을 연결하는 핵심 역할을 수행합니다. 3D-VLA의 학습을 보다 효율적으로 만들고 망각(catastrophic forgetting)문제를 방지하기 위해, LoRA를 활용하여 다양한 Diffusion model을 fine-tuning 합니다. 이 과정에서 다음 요소만 학습됩니다.

새롭게 도입된 특수 토큰 임베딩(special token embeddings)
해당 임베딩을 출력하는 선형 레이어(embedding output linear layer)
전체 프로젝터(projector)

또한 LLM과 Diffusion 모델의 denoising loss를 동시에 최소화 합니다.

5. Experiments

3D-VLA는 3D based generative world model 환경에서 reasoning과 grounding 을 3D world에서 수행하고, Multi-modal goal content을 상상하며, 로봇 조작을 위한 action을 생성할 수 있는 범용적인 모델입니다. 본 섹션에서는 3D-VLA를 세 가지 측면에서 평가합니다: 1) 3D reasoning 및 localization. 2) multi-modal goal generation. 3) embodied action planning.

5.1. 3D Reasoning and Localization

Tasks.

주로 로봇이 등장하는 장면에 집중하며, 이러한 장면은 더 높은 수준의 역동성과 상호작용을 포함하고 있어 더욱 정교한 추론 및 localization 능력이 요구됩니다. 이러한 능력을 로봇 domain에서 학습하기 위해, 3D based embodied instruction tuning dataset을 활용하여 여러 가지 작업을 구축하였습니다.

이 작업에는 다음이 포함됩니다:

Embodied QA - RoboVQA dataset을 활용하여 수행.
Task captioning on 11 Open-X datasets - 최종 장면을 입력으로 주고, agent가 어떤 일이 발생했는지 추론 하도록 함.
What if QA - RT-1 datasets 에서 specified actions(action token으로 표현됨)이 실행될 경우, 어떤 일이 발생할지를 agent에게 질문.
Dense Captioning - 11개의 Open-X 데이터셋에서 3D bounding box로 지정된 contents를 agent가 captioning 하도록 함.
Localization - 11개의 Open-X 데이터셋에서 robot manipulation instruction에서 언급된 object를 agent가 찾아 내도록 함.

Baseline

우리는 3D-VLA를 3D-LLM과 여러 2D Vision-Language 모델(BLIP2, OpenFlamingo, LLaVA)와 비교하였습니다. 이러한 Baseline은 두 가지 방식으로 구현하였습니다:

Zero-shot Transfer- 사전학습된 모델을 새로운 작업에 직접 적용하여 성능을 평가.
Held-in Evaluation - 사전 학습된 모델을 2D Image-action -language pair(즉 Open-X. 및 RoboVQA 데이터셋에서 선정된 11개의 데이터셋)으로 훈련한 후 평가.

Localization 작업에서는 2D grounding multi-modal Large language model(MLLM)인 Kosmos-2 및 CoVLM과 비교하였습니다. 구체적으로, 해당 모델들을 사용하여 2D bounding box 및 zero-shot 방식으로 검출한 후, 이를 depth projection을 이용하여 3D bounding box로 변환 하였습니다.

Result analysis.

Table 1에서 3D-VLA는 언어 추론 작업에서 모든 2D Vision-Language 모델을 능가하였습니다. 이는 3D 정보의 활용이 보다 정확한 공간 정보를 제공하여 추론 성능을 향상시켰기 때문이라고 분석됩니다. 또한, 3D-VLA는 다수의 3D Localization 주석을 포함한 데이터셋으로 학습되었기 때문에, 관련 객체를 보다 정확하게 localized 할 수 있으며, 이는 모델이 핵심 객체에 집중하여 추론하는 데 도움이 됩니다. 더불어, 3D-LLM이 로봇 추론 작업에서 낮은 성능을 보였다는 점은, 로봇 관련 3D 데이터셋을 수집하고 학습하는 과정이 필수적임을 시사합니다. Table 2 에서는 3D-VLA가 Localization 성능 측면에서 2D 기반 baseline 모델을 압도적으로 능가하는 것으로 나타났습니다. 이는 3D-VLA의 주석 과정이 효과적이라는 강력한 증거로 작용되며, 다량의 3D 주석 데이터를 활용함으로 써, 강력한 3D Localization 능력을 모델이 학습할 수 있었음을 보여줍니다.

5.2. Multi-modal Goal Generation

Tasks.

Open-X text set에서 3D-VLA의 RGBB 목표 및 point cloud goal generation 능력을 정량적으로 평가합니다. 3D-VLA가 훈련 과정에서 보지 못한 Open-X Text set에서 4000개의 에피소드를 무작위로 샘플링합니다.

Baselines.

이미지 생성에 대해 3D-VLA와 세 가지 유형의 이미지 생성 방법을 비교합니다: 1) 이미지 편집 방법인 Instruct-P2P, 2) 목표 이미지/ 비디오 생성 방법인 SuSIE, 3) 이미지 생성 능력이 있는 LLM인 NeXT-GPT. 포인트 클라우드 생성에 대해 우리는 Text-to-3D Diffusion 모델인 Point-E와 비교합니다.

Qualitative results.

이미지 목표 생성 결과는 위 표 3을 참고하시면 됩니다. Robotics 도메인으로 직접 zero-shot으로 전송되는 기존 생성들과 비교했을때, 3D-VLA는 대부분의 matric에서 유망한 성능을 달성했습니다. 이는 robotics 응용을 위해 special하게 설계된 dataset을 사용하여 world model을 훈련하는 것의 중요성을 강조합니다. 연구진이 사용한 동일한 robotics datasets에서 훈련된 Instruct-P2P와 직접 비교헀을 때, 3D -VLA는 일관되게 우수한 성능을 보립니다. 이는 3D-VLA에 LLM을 통합하면 robotics manipulation policy에 대해 더 포괄적이고 통찰력있는 이해를 가져와 목표 이미지 생성 성능이 향상됨을 강조합니다. 또한, 입력 프롬프트에서 예측된 bounding box를 제외했을때, 성능이 약간 감소하는 것을 확인할 수 있었습니다. 이 관찰은 언급된 특징 객체에 더 많은 attention을 기울 일 수 있도록 하며, 궁극적으로 쵲오 목표 이미지를 상상하는 능력을 향상시킨다는 효과를 확인할 수 있습니다.

Point cloud 생성 능력 결과는 표 4와 같습니다. 예측된 B Box를 포함한 3D-VLA가 가장 좋은 성능을 보입니다. 이 결과는 LLM과 정확한 object localization을 결합하는 것이 지침과 장면을 이해하는 데 중요한 역할을 한다는 것을 강화합니다.

Quantitative results.,

위 그림 3에서 첫번째 행에서는 RT-1및 Jaaco Play dataset의 test set에서 생성된 RGB-D 목표 이미지를 시각화합니다. 이 샘플들은 훈련 과정에서 보지 못한 데이터셋 입니다. 초기 장면과 지침을 제공받은 3D-VLA 모델은 배경 요소를 반경하지 않고 상호작용할 목표 객체를 정확하게 식별하고, 이들 객체의 상태를 제공된 지침에 맞게 올바르게 수정하는 능력을 일관되게 보여줍니다. 생성된 RGB-D 목표 이미지는 시각적 외관과 의미적 내용 모두에서 실제 목표와 밀접하게 일치합니다. 또한 통제된 실험 설정 외에도 인터넷이나 일상 생활에서 캡처한 장면들을 포함한 test를 확장했습니다. 이 다양한 제어도지 않는 환경에서도 3D-VLA 모델은 일관되게 강력한 효능을 입증했습니다.

5.3. Embodied Action Planning

연구진은 두 가지 벤치마크(RLBench, CALVIN)에서 3D-VLA의 로봇 팔 행동 예측 능력을 평가합니다. 평가를 위해 RLBench에서 세 가지 작업을 선택합니다. 또한, 일반화 능력을 평가하기 위해 Pick-up-cup 작업에서의 var1을 선택합니다. CALVIN에서는 agent가 5개의 작업을 순차적으로 실행해야 하는 긴 시간 범위의 다중 작업 언어 제어 설정에서 모델을 평가합니다. 연구진은 agent를 A,B,C,D 장면에서 훈련하고 D 장면에서 test 합니다.

Baselines.

RLBench 에서는 모델 3D-VLA와 LanCon-Learn을 비교합니다. LanCon-Learn은 지침 조건 입력을 기반으로 행동을 예측할 수 있는 다중 작업 접근법입니다. CALVIN에서는 MCIL과 비교합니다. MCIL은 conditional sequence-to-sequence- variational autoencoder 입니다.

Resultanalysis.

위 표 5에서 보듯이, 3D-VLA는 RLBench 행동 예측에서 기준선 성능과 대부분의 작업에서 일치하며 계획 생성 능력을 보여줍니다. 주목할 만한 기준선이 역사적인 관찰, 객체 상태 및 현재 상태 정보를 사용하는 반면, 3D-VLA open-loop control을 통해 실행된다는 것입니다. 또한, 3D-VLA의 일반화 능력은 pick-up-cup 작업에서 입증됩니다. 표 6에서는 3D-VLA가 CALVIN에서도 유망한 결과를 달성하는 것을 확인할 수 있습니다. 이에 저자는 이 우수성을 객체를 localize하고, 목표 상태를 상상하는 능력 덕분이라고 평가합니다.

6. Conclusion

본 논문에서는 3D-VLA를 소개합니다. 3D-VLA는 구현된 환경에서 추론하고, 이해하고, 생성하며, 계획할 수 있는 생성적world model입니다. 우리는 모델을 훈련하기 위해 200만 개의 3D-Language action 데이터 쌍을 포함하는 데이터셋을 구축하기 위한 새로운 데이터 생성 pipeline을 고안했습니다. 이 데이터는 모델이 task caption, localization, goal image/point cloud generation, action prediction 등 다양한 작업을 수행할 수 있도록 합니다. 우리의 모델은 3D-LLM을 backbone으로 사용하고, 환경과 상호작용하기 위한 상호작용 토큰을 도입합니다. 우리는 구현된 AI를 위한 Image-to-Image 및 Point-to-Point diffusuon을 훈련시킵니다. 이들은 LLM과 함께 프로젝터에 의해 추가적으로 정렬되어 LLM의 다중 모달 생성 능력을 향상시킵니다. 실험은 또한 3D-VLA가 2D 기준선보다 구현된 작업에서 더 강력한 능력을 가지고 있음을 보여줍니다.

'Vision Language Action model' 카테고리의 다른 글

π0: A Vision-Language-Action Flow Model for General Robot Control (0)	2025.03.02
[Paper Review] Robotic Control via Embodied Chain-of-Thought Reasoning (1)	2025.02.28
OpenVLA: An Open-Source Vision-Language-Action Model (1)	2025.02.09
[Paper Review] RT-2: Vision-Language-Action Models TransferWeb Knowledge to Robotic Control (1)	2025.02.02
(Paper Review) A Survey on Vision-Language-Action Models for Embodied AI - (5) (1)	2025.01.22

Embodied AI in Robotics

[Paper Review] 3D-VLA: A 3D Vision-Language-Action Generative World Model

Abstract

1. Introduction