3D-CAVLA: Leveraging Depth and 3D Context to Generalize Vision–Language Action Models for Unseen Tasks

논문 주소: https://arxiv.org/pdf/2505.05800

깃허브: https://3d-cavla.github.io/

Abstract

3차원에서의 Robotic manipulation은 로봇 매니퓰레이터의 N degree-of-freedom (DoF) joint space trajectory를 학습하는 것을 필요로 합니다. 로봇은 작업 공간의 real world mapping을 객체 조작에 필요한 low-level control로 변환하기 위해 semantic and visual perception 능력을 갖추어야 합니다. 최근의 연구들은 대규모 Vision-Language Models을 fine-tuning하여 RGB images, language instructions, 그리고 joint space control 사이의 매핑을 학습하는 능력을 입증했습니다. 이러한 모델들은 일반적으로 작업 공간의 RGB images와 language instructions를 입력으로 받으며, 원격 조종된 로봇 데모의 대규모 데이터셋을 통해 훈련됩니다.

본 연구에서는 chain-of-thought (CoT) reasoning, depth perception, 그리고 task-oriented region of interest (ROI) detection을 통합함으로써, 최근 인기 있는 Vision-Language-Action (VLA) 모델의 scene context awareness를 개선하는 방법들을 탐구합니다. . LIBERO simulation 환경에서의 실험 결과, 우리가 제안한 모델인 3D-CAVLA는 다양한 LIBERO task suites 전반에서 성공률을 향상시켜 평균 98.1%의 성공률을 달성했습니다. 또한 우리는 우리 방식의 zero-shot 능력을 평가하여, 3D scene awareness가 완전히 처음 보는 태스크에 대해 강력한 학습과 적응으로 이어진다는 것을 증명했습니다. 3D-CAVLA는 unseen tasks에서 8.8%의 절대적인 성능 향상을 달성했습니다.

1. Introduction

환경을 인지하고, 동적으로 반응하며, 물체를 효과적으로 조작하는 능력은 로봇 공학에서 여전히 도전적인 과제입니다. 인간은 청소년기 동안의 광범위한 경험적 학습을 통해 이러한 능력을 자연스럽게 보여주며, 익숙한 상황과 새로운 시나리오 모두에서 상호작용에 필요한 시각, 추론 및 조작 기술을 발달시킵니다. 로봇에게 이러한 강력한 적응력을 복제하는 것은 본질적으로 어렵지만, 최근 인공지능, 특히 시각 및 언어 이해 분야의 발전은 유망한 진전을 보여주었습니다. ChatGPT와 같은 Vision-Language Models은 인터넷 규모의 데이터에 대한 광범위한 사전 학습을 활용하여 실세계 이미지를 해석하고, 대화를 이해하며, 맥락에 맞는 응답을 생성할 수 있게 합니다. 이러한 모델들은 이후 visual question answering, visual grounding, 그리고 task planning과 같은 작업에 사용되어 왔으며, 이는 로봇 공학 분야와 직접적으로 관련된 응용 분야들입니다.

최근 연구들은 text tokens 대신 로봇의 joint space parameters를 출력하도록 VLMs를 수정한 Vision-Language-Action (VLA) 모델들을 탐구해 왔습니다. 다양한 실세계 데이터셋에서 사전 학습되고 고품질의 원격 조종 데모 데이터로 fine-tuning되었을 때, VLAs는 "프레첼을 그릇에 담기"와 같은 in-distribution 태스크에서 높은 성공률(약 95%)을 보여줍니다. VLAs는 일반적으로 RGB images와 text instructions를 입력으로 사용하며, 태스크 실행에 필요한 각 단계의 N DOF joint angles를 예측하기 위한 policy을 학습합니다. 최근 주목할 만한 발전인 OpenVLA-OFT는 로봇의 proprioceptive joint-state 파라미터를 추가로 통합하여, 이를 현재 타임스텝의 시각 및 텍스트 특징과 결합합니다. in-distribution 태스크에서의 성능은 인상적이지만 unseen tasks 에서의 이러한 모델들의 동작에 대한 세부적인 분석은 부족한 실정입니다. 추가적인 센서 모달리티는 unseen tasks로 일반화하는 데 필요한 VLAs의 공간적 및 논리적 추론을 더욱 개선할 잠재력을 가지고 있습니다.

본 연구에서는 공간적 및 맥락적 이해를 높이기 위해 기존 모달리티에 효과적인 수정을 가함으로써 OpenVLA-OFT가 도입한 아키텍처를 강화합니다. 구체적으로, Task 문맥을 풍부하게 하기 위한 chain-of-thought 스타일의 서사적 프롬프트, 공간 인지 능력을 높이기 위해 작업 공간의 point clouds에서 유도된 3D features, 그리고 각 태스크에 시각적으로 적절한 패치에 효과적으로 집중하기 위한 task-oriented region of interest (ROI) pooling을 도입합니다. 본 연구에서 제안한 네트워크인 3D-CAVLA는 LIBERO benchmark 태스크에서 대중적인 VLAs와 비교 성능 측정이 이루어졌으며, 향상된 일반화 능력을 입증하기 위해 unseen tasks에서도 평가되었습니다. 기여도는 다음과 같습니다:

태스크 실행을 위한 효과적인 vision-language embeddings를 학습하기 위해 chain-of-thought prompts와 region-of-interest pooling을 통합했습니다. 정책 학습에 3D point cloud 유래 depth features를 도입하여 LIBERO in-distribution 성공률을 98.1%로 끌어올렸습니다.
zero-shot language guided 물체 조작에 대한 기존의 최첨단(SOTA) 방식들과 벤치마킹을 수행했습니다. 제안한 모델인 3D-CAVLA는 LIBERO 시뮬레이션 환경 내에서 설계된 10개의 새로운 태스크에 대해 8.8%의 절대적인 성능 향상을 보여주었습니다.

2. Related Works

Foundational Models in Robotics.

LLM은 태스크 입력과 환경 문맥을 기반으로 고수준의 로봇 실행 계획을 생성할 수 있습니다. 하지만 LLM에서 반복되는 과제는 물리적으로 불가능한 계획을 생성하는 hallucination 경향입니다. 견고성을 높이기 위해 LLM은 실세계 grounding이 필요하며, 이는 환경으로부터의 피드백, 시각적 인지 시스템과의 통합, 또는 질의응답과 같은 human-in-the-loop 개입을 통해 달성될 수 있습니다. 방대한 이미지-텍스트 데이터셋으로 훈련된 VLMs는 시각적 추론 작업에 뛰어나며, 3D semantic memory 인코딩, 시각 기반 로봇 포즈 추정, 언어 지침에 따른 객체 조작 가이드, 로봇 내비게이션 등 다양한 로봇 grounding 문제에 적용되어 왔습니다.

Vision-Language Action Models (VLAs)

인터넷 규모의 실세계 데이터로 사전 학습된 VLMs는 방대한 지식 베이스를 보유하고 있습니다. 이들은 이미지와 언어 지침을 포함하는 로봇 데모 데이터셋을 사용하여 fine-tuning될 수 있으며, 이를 통해 액션 공간에서 로봇의 joint parameters를 직접 예측합니다. N 자유도 로봇은 특정 타임스텝에서 위치를 정의하기 위해 N개의 변수가 필요합니다. VLAs는 로봇 조작 중 각 타임스텝에서 이러한 N개의 변수를 예측하기 위해 로봇 데모 비디오와 언어 지침의 대규모 데이터셋으로 훈련됩니다. 초기 VLAs는 시뮬레이션과 단일 로봇 조작에서 강력한 성능을 보여주었으나, 많은 모델이 폐쇄형 소스이거나 극도로 큰 파라미터 사이즈로 인해 제한적입니다. 최근에는 계획, grounding, 제어 및 피드백 메커니즘을 통합하는 모듈형 시스템이 더 견고하고 적응력 있는 로봇 자동화를 위한 유망한 전략으로 떠오르고 있습니다. 대표적인 open source autoregressive VLA인 OpenVLA는 Open-X Embodiment 코퍼스의 로봇 데모 데이터로 fine-tuning된, 연산 효율적이고 확장 가능한 최초의 VLA 중 하나로 주목받고 있습니다. OpenVLA를 기반으로 한 OpenVLA-OFT는 병렬 디코딩, action chunking, 연속 액션 표현 등을 통합하여 추론 효율과 태스크 성능을 더욱 향상시켰습니다.

Improving Generalization of VLAs

최근 연구들은 특히 태스크 데모의 양이 증가함에 따라 visual frames와 language instructions를 로봇 joint states로 직접 변환하는 방식의 scaling 한계를 강조합니다. 이러한 제한을 해결하기 위해 out-of-domain task에 대한 VLAs의 generalization 능력을 강화하기 위한 다양한 접근 방식이 제안되었습니다. 한 가지 주요 방향은 two-stage pipeline을 포함합니다. 즉, 레이블이 없는 인간의 태스크 데모와 다양한 video planning datasets를 사용하여 self-supervision으로 multimodal encoders를 훈련하는 초기 pre-training 단계입니다. 이 단계는 명시적인 action labels에 의존하지 않고 강력한 representations를 학습하는 것을 목표로 합니다. 이를 보완하기 위해 일부 연구는 teacher-student framework를 사용하여 action policies를 정교화합니다. 또 다른 접근 방식은 CLIP과 같은 pre-trained models를 통합하거나, DynaMo와 같이 forward and inverse dynamics models를 모두 사용하는 self-supervised strategy를 채택하여 견고한 action prediction을 가능하게 합니다.

태스크 실행 성공률을 높이기 위해 연구자들은 proprioception과 feedback mechanisms를 통합하여 오류가 있는 actions를 동적으로 수정하는 방법을 탐구해 왔습니다. Depth 정보 또한 모델의 geometric understanding과 spatial reasoning을 강화하므로 robotic manipulation에 유용한 것으로 입증되었습니다. 그러나 VLAs generalization의 핵심적인 제한 사항은 중간 추론 과정 없이 직접적인 input-output mappings에 의존한다는 점입니다. Reasoning 능력을 강화하기 위해 최근 연구들은 언어, 시각적 관찰, 물리적 액션에 기반한 단계별 사고를 장려하는 chain-of-thought prompting을 채택하고 있습니다. 텍스트 설명, keypoints, 또는 subgoal images와 같은 중간 추론 단계를 통합함으로써 planning 및 action prediction을 위한 구조화된 가이드를 제공하는 진전이 이루어지고 있습니다.

3. Methodology

최근의 VLAs는 로봇에게 자유 형식의 language-following 능력을 부여합니다. 본 연구에서는 LIBERO simulation 환경에서 인상적인 성능을 기록한 OpenVLA-OFT를 기반으로 모델을 구축했습니다. 먼저 이 baseline architecture를 요약한 후, 3D Context Aware Vision-Language Action model (3D-CAVLA)를 완성하는 추가 요소들을 상세히 설명하겠습니다.

3.1. OpenVLA-OFT

OpenVLA-OFT는 OpenVLA를 기반으로 하며, vision, language, 그리고 robot joint state encoders로 구성됩니다. 시각-언어 특징 추출을 개선하기 위해 선택적으로 feature-wise linear modulation (FiLM) 레이어를 포함할 수 있습니다. 이 모델은 텍스트 지시문으로 설명된 작업을 수행하는 원격 조종 로봇의 비디오 데모로 학습됩니다. 저자들은 SigLIP과 DinoV2 vision encoders를 조합하여 로봇의 end effector camera와 고정된 3rd person camera에서 캡처한 이미지의 patch level image embeddings를 얻습니다. 작업 지시문은 tokenized되어 LLM의 tokenizer를 통해 text embeddings로 변환됩니다. 8차원의 조인트 및 그리퍼 상태로 구성된 로봇 proprioception은 MLP 레이어를 통과합니다. vision, language, joint embeddings는 fine-tuning될 LLM의 입력 차원에 맞춰 projected됩니다. 효율적인 학습을 위해 저자들은 LLM 내부 레이어의 학습 가능한 projection matrices만을 수정하는 LoRA 기반 finetuning을 구현했습니다. OpenVLA-OFT는 세 가지 핵심 기능 덕분에 학습된 태스크에서 높은 성공률을 보입니다: (i) 빠른 추론을 위한 parallel decoding, (ii) 다음 K개의 액션을 공동으로 예측하는 action chunking, (iii) $\ell_1$ loss로 최적화된 연속적인(continuous) 출력값입니다. LLaMA 2 7B가 fine-tuning을 위한 백엔드 LLM 역할을 합니다.

3.2. Our Approach: 3D-CAVLA

학습된 태스크를 넘어 일반화 능력을 향상시키기 위해, 제안된 모델은 OpenVLA-OFT의 기본 아키텍처를 채택하고 태스크 관련 context capture 및 공간 정보를 개선하기 위한 수정을 통합합니다. 본 아키텍처는 그림 1에 나와 있습니다.

Chain-of-Thought Narrative Instructions.

인간은 전문가의 데모를 통해 물체 조작을 배웁니다. 핮미나 새로운 물체를 다룰 때마다 매번 별도의 데모는 필요하지 않습니다. 예를 들어, 공을 잡고 조작하는 법을 배운 아이는 오렌지를 잡기 위해 또 다른 수업이 필요하지 않을 수 있습니다. 마찬가지로, 로봇도 단순한 지시문 대신 chain-of-thought 단계의 혜택을 받을 수 있습니다. 예를 들어, "공을 집어서 바구니에 넣어라"라는 태스크를 "공을 찾고, 중심을 잡고, 바구니 위로 이동하여, 바구니 안에 떨어뜨려라"로 분해할 수 있습니다. 두 태스크를 비교할 때 유일한 차이점은 타겟 물체를 찾는 것이며, 이는 강력한 object detector나 vision encoder가 처리할 수 있습니다. 본 연구에서는 GPT 4의 추론 능력을 사용하여 일반 지시문을 태스크 관련 chain-of-thought 단계로 변환함으로써 이 가설을 테스트합니다.

Integrating Depth Features.

대부분의 VLAs는 이미지로부터 캡처된 언어 및 2D 시각 데이터를 실세계 액션으로 매핑하는 정책을 학습합니다. 하지만 서로 다른 모양과 크기의 물체를 견고하게 조작하려면 depth perception은 필수적인 기술입니다. 현대의 카메라들은 RGB-D 이미지를 캡처하므로, 효과적인 depth encoder는 VLAs의 공간적 및 기하학적 인지 능력을 개선할 수 있습니다. 본 연구에서는 depth maps를 vision, language, 그리고 proprioception 정보와 결합되는 embeddings로 변환하기 위해 작지만 효율적인 학습 가능한 depth encoder를 도입했습니다.

주어진 배치 depth map $D \in \mathbb{R}^{B \times H \times W}$와 카메라 intrinsics $(f_x, f_y, c_x, c_y)$, 그리고 정수 픽셀 그리드 $U \in \mathbb{R}^{H \times W}$, $V \in \mathbb{R}^{H \times W}$를 사용하여, 모든 이미지 $b$의 모든 픽셀 $(h, w)$에 대한 메트릭 3-D coordinates를 다음과 같이 복구합니다:

마지막 축을 따라 $(X, Y, Z)$를 쌓으면 point cloud $P \in \mathbb{R}^{B \times H \times W \times 3}$가 생성되며, 이는 이후의 학습 가능한 레이어에 입력됩니다. 그림 1의 오른쪽에 표시된 것처럼, point clouds는 MLP 레이어로 구성된 spatial transformer network를 통과하여 embeddings를 spatially invariant representation으로 변환합니다. residual batch matrix product에 이어, embeddings는 Conv2D, BatchNorm, ReLU로 구성된 3개의 블록을 통과하고, 마지막으로 다른 모달리티의 차원과 일치하도록 embeddings를 투영하는 linear layer를 거칩니다. 본 연구에서의 depth encoder는 depth perception 관련 작업에서 뛰어난 성능을 보인 PointNet에서 영감을 얻었습니다. 본 연구에서의 depth encoder는 매우 가볍기 때문에(약 1M), 각 카메라 뷰에 대해 별도의 인코더를 사용합니다.

Task Aware Region of Interest Detection

VLAs는 훈련 중에 end effector의 이동 궤적을 학습합니다. LLM을 통과하는 visual embeddings는 이미지의 모든 패치에 대한 표현을 포함하지만, 모든 패치가 주어진 태스크에 중요한 것은 아닙니다. 적절한 패치, 즉 로봇의 region of manipulation을 선택함으로써 우리는 움직임을 해당 영역 내로 제한할 수 있습니다. 이러한 능력은 로봇이 많은 out-of-distribution 객체들을 마주하게 되는 unseen tasks에서 특히 유용하며, 집중해야 할 region of importance를 통해 이점을 얻을 수 있습니다.

훈련 중에 시각적 특징을 pooling하기 위한 영역을 추정하기 위해 ground truth demonstrations를 사용합니다. Task 지시문이 주어지면, named entity recognition을 적용하여 Task에 중요한 타겟 객체와 위치를 식별합니다. 이는 강력한 객체 탐지기인 Molmo를 통과하여 추출된 엔티티들에 대한 bounding boxes를 생성합니다. 그런 다음 SAMURAI의 객체 추적 기능을 활용하여 엔티티 bounding boxes가 이동하는 이미지 영역을 추정합니다. 이것이 Task를 위한 region of motion을 결정하며, 결과로 나온 binary mask는 visual features를 pooling하는 데 사용됩니다. 전체 region of interest detection pipeline은 그림 3에 나와 있습니다. 이러한 방식의 단점은 태스크에 필요한 배경 맥락이나 distractors가 제거될 수 있다는 점입니다. 이러한 마스크에 대한 과도한 의존을 방지하기 위해, 훈련 중에 25%만 pooling을 사용하도록 이 파이프라인을 무작위로 perturb 시킵니다. 본 연구에서는 실험을 통해 ROI detection이 in-distribution 태스크에서는 성능을 약간 저하시키지만, out-of-distribution Task에서는 더 나은 결과에 강력하게 기여함을 확인했습니다.

4. Results

본 연구의 실험은 두 단계로 나뉩니다. 첫째, LIBERO benchmark에서 in-distribution 설정 하에 성능을 평가합니다. 둘째, 10개의 unseen tasks를 포함하는 LIBERO-Unseen 벤치마크를 직접 구축하여 zero-shot 일반화 능력을 평가합니다.

4.1. Comparisons on LIBERO Benchmarks

LIBERO는 네 가지 Task suit로 구성됩니다:

LIBERO-Spatial: 동일 물체를 다른 위치에 배치 (공간 지능)
LIBERO-Object: 타겟 위치는 고정, 매번 다른 물체 조작 (의미론적 인지)
LIBERO-Goal: 고수준의 목표 달성 (예: 서랍 열고 물체 넣기)
LIBERO-Long: 여러 물체를 순차적으로 조작 (장기 추론)

실험 결과(Table 1), 3D-CAVLA는 특히 Spatial과 Long 태스크 수트에서 성공률을 크게 개선했습니다. 정성적 분석에 따르면 chain-of-thought (CoT) 지시문이 관련 태스크 간에 논리적 인지를 공유하게 하여 정밀도를 높이는 데 기여했습니다. 특히 depth maps를 추가하여 입력을 2D에서 3차원으로 전환했을 때, 물체가 밀집된 환경에서도 정밀한 조작이 가능해졌으며 모든 경쟁 baselines를 일관되게 능가했습니다.

Ablation Studies: 세 가지 모듈 중 depth maps를 제거했을 때 성능 하락이 가장 컸으며, 이는 정책 학습에서 3-D features의 중요성을 입증합니다. CoT 지시문은 LIBERO-Long에서 성공률을 1.3% 높였습니다. 다만 ROI (TA-ROI) 모듈의 경우, 고정된 장애물이나 맥락 정보를 마스킹하여 제거할 수 있어 seen tasks에서는 성능이 소폭 하락하는 현상이 관찰되었습니다.

4.2. Zero-Shot Evaluation

기존 VLAs가 소규모 데이터셋에 overfitting되는 문제를 확인한 후, unseen tasks에 대한 일반화 능력을 테스트했습니다. 훈련 데이터에 나타났던 객체와 기술을 새롭게 조합한 10개의 태스크를 설계했습니다.

실험 결과(Table 3), 3D-CAVLA는 OpenVLA-OFT 대비 8.8%의 절대적인 성능 향상을 달성했습니다. chain-of-thought reasoning을 통해 모델이 처음 보는 작업을 훈련 중에 익힌 하위 단계로 분해할 수 있었고, task aware region pooling 모듈이 생성된 동작을 관련 영역 내로 제한했기 때문입니다. 이러한 결과는 depth 정보와 결합되어 학습된 지식을 새로운 상황으로 전이하는 데 효과적임을 보여줍니다.

5. Conclusion and Future Work

본 논문에서는 대중적인 오픈 소스 방식인 OpenVLA-OFT를 기반으로 문제를 2D에서 3D로 전환하는 vision-language action modeling을 위한 새로운 방법을 제안합니다. 본 연구에서의 핵심적인 변화는 in-domain LIBERO simulation 소프트웨어에서 강력한 성능을 유지하는 동시에, 경쟁력 있는 baselines 대비 reasoning, 기하학적 및 zero-shot 능력을 향상시킵니다. 본 연구의 실험은 unseen tasks에서 VLAs의 상당한 성능 격차를 드러냈으며, 이는 효율적인 input feature extraction, 실시간 error correction, 그리고 훈련 태스크에 대한 overfitting을 피하는 일반화 가능한 학습 전략 개발에 대한 추가 연구의 동기를 부여합니다.

향후 연구는 두 가지 방향으로 진행될 것입니다. 첫째, 정책에 실시간 환경 단서를 제공하여 잘못된 동작을 줄이고 unseen tasks에서의 성능을 높이는 VLM-guided, closed-loop feedback module을 추가할 것입니다. 또한 효율적인 retrieval mechanism을 통해 fine-tuning 중에 습득한 사전 지식을 더욱 활용할 것입니다. 둘째, LIBERO의 태스크들이 비교적 단순하고 model saturation가 일어나기 쉽기 때문에, 우리는 광범위한 실세계 실험을 수행하고 그 결과를 다른 오픈 소스 VLAs와 벤치마킹하여, 진정으로 새로운 태스크에 zero-shot으로 배포될 수 있는 방법론을 목표로 할 계획입니다.

'Test-time Adaptation' 카테고리의 다른 글

Beyond Text-Visual Attention: Exploiting Visual Cues forEffective Token Pruning in VLMs (0)	2026.02.13
AVA-VLA: IMPROVING VISION-LANGUAGE-ACTION MODELSWITH ACTIVE VISUAL ATTENTION (0)	2026.02.11
ADAPTINFER: ADAPTIVE TOKEN PRUNING FOR VISION–LANGUAGE MODEL INFERENCE WITH DYNAMICAL TEXT GUIDANCE (1)	2026.02.10
EfficientVLA: Training-Free Acceleration andCompression for Vision-Language-Action Models (0)	2026.02.03
VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching (0)	2026.01.28

Embodied AI in Robotics

3D-CAVLA: Leveraging Depth and 3D Context to Generalize Vision–Language Action Models for Unseen Tasks

Abstract

1. Introduction