본문 바로가기

Vision Language Action model

(38)
RoboMonkey: Scaling Test-Time Sampling andVerification for Vision-Language-Action Models 논문 주소: https://arxiv.org/pdf/2506.17811깃허브: https://robomonkey-vla.github.io/ AbstractVision Language Action 모델은 Visumotor control에서 놀라운 성능을 보여왔지만, 비정형(Real-world)환경에서의 강건성을 보장하는 것은 여전히 지속적인 도전과제입니다. 본 논문에서는 VLA의 robustness와 generalization을 향상시키기 위한 방법으로, sampling과 verification 관점에서 test-time scaling을 탐구합니다. 먼저, 다양한 VLA에서 action error와 생성된 sample 수 사의의 관계가 exponentiated power law를 따른다는 것을 보여주며, ..
ExpReS-VLA: Specializing Vision-Language-Action Models Through Experience Replay and Retrieval 논문 주소: https://arxiv.org/pdf/2511.06202AbstractVision Language Action 모델인 OpenVLA는 로봇 manipulation 작업 전반에 걸쳐 인상적인 zero-shot generalization 성능을 보여주지만, 실제 배치 환경에서는 특정 작업 집합에 대해 일관된 높은 성능을 유지해야 하므로 이러한 일반화 능력이 오히려 한계로 작용합니다. 본 연구에서는 이러한 문제를 해결하기 위해, EXPierence replayed, REtrieval augmented, Specialized VLA (ExpReS-VLA)를 제안합니다. ExpReS-VLA는 사전 학습된 VLA를 target domain에 빠르게 적응시키면서도, compressed experienc..
Shortcut Learning in Generalist Robot Policies: TheRole of Dataset Diversity and Fragmentation 논문 주소: https://arxiv.org/pdf/2508.06426Github: https://lucky-light-sun.github.io/proj/shortcut-learning-in-grps/ Abstract Open-X-Embodiment(OXE) 와 같은 대규모 데이터셋으로 학습된 generalist 로봇 정책은 다양한 작업에서 강력한 성능을 보여줍니다. 그러나 이러한 모델들은 종종 훈련 데이터의 분포를 넘어서는 일반화에 어려움을 겪습니다. 본 논문에서는 이러한 일반화 한계의 근본 원인을 규명하고자 합니다. 본 연구에서는 shortcut learning ㅡ 즉, 작업과 무관한 특징에 의존하는 학습ㅡ 이 일반화를 방해하는 핵심 요인임을 확인했습니다. 이론적·실증적 분석을 통해 shortcut ..
Confidence Calibration in Vision-Language-Action Models 논문 주소: https://arxiv.org/pdf/2507.17383v1 신뢰할 수 있는 로봇 행동은 높은 수준의 작업 성공률 뿐 아니라, 로봇이 자신의 성공 가능성을 얼마나 신뢰성 있게 정량화할 수 있는가 또한 필요합니다. 이를 위해 본 논문에서는 Vision-Language-Action 모델에서의 calibration을 체계적으로 분석한 최초의 연구를 제시합니다. VLA는 시각 관찰과 자연어 지시를 저수준의 로봇 모터 명령으로 매핑하는 foundation model 입니다. 먼저 다양한 데이터셋과 VLA 변형 모델을 대상으로 광범위한 벤치마킹을 수행하여, 작업 성공률과 calibration error 간의 중요한 관계를 분석하였으며, 두 요소가 상충하지 않음을 확인하였습니다. 다음으로, pro..
From Intention to Execution:Probing the Generalization Boundaries of Vision-Language-Action Models 논문 주소: https://arxiv.org/pdf/2506.09930v1깃허브: https://github.com/ai4ce/INT-ACT/tree/main AbstractVision-Langauge -Action model이 전통적인 로봇 모방학습보다 가지느 하나의 장점은, 대규모 VLM의 폭 넓은 일반화 능력을 활용하여 다재다능하고 범용적인 로봇 policy를 생성할 수 있다는 점입니다. 그러나 현재의 VLA 평가 방식은 여전히 불충분합니다.전통적인 모방 학습 벤치마크는 language instruction이 부족하여 적합하지 않으며, 언어를 포함한 새로운 VLA 벤치마크들은 평과 과제가 제한적이고, VLM의 사전학습이 실제로 로봇 policy의 일반화 능력을 얼마나 기여하는지를 충분히 탐구되지 않..
Enhancing Generalization in Vision–Language–Action Models byPreserving Pretrained Representations 논문 주소: https://arxiv.org/pdf/2509.11417v1 Abstract Vision Language Action 모델은 Vision- Language Model로부터 fine-tuning 되어, 다양한 과제와 환경 전반에 걸쳐 풍부한 pretrained representatioins을 활용함으로 써 generalist robots을 구축할 수 있는 가능성을 지니고 있습니다. 그러나 로봇 데이터에 대한 직접적인 fine-tuning은 이러한 표현을 손상시키고 일반화를 제한합니다. 본 연구에서는 사전 학습된 feature를 더 잘 보존하면서 robot manipulation에 맞게 이를 적응시키는 framework를 제안합니다. 본 연구의 접근 방식은 세 가지 구성 요소를 도입합니다.(i..
MolmoAct: Action Reasoning Models that can Reason in Space 논문 주소: https://arxiv.org/pdf/2508.07917 Abstract추론은 의도적인 행동의 핵심이지만, 대부분의 로봇 파운데이션 모델들은 지각과 지시를 제어에 직접 매핑하여 적응성, 읠반화 및 의미론적 근거를 제한합니다. 본 연구에서는 Action Reasoning Models(ARMs), 즉 구조화된 3단게 파이프라인을 통해 지각, 계획 및 제어를 통합하는 로봇 파운데이션 모델 클래스를 소개합니다. 본 연구의 모델 MolmoAct는 관찰과 지시를 depth-aware perception tokens로 인코딩하고, 편집 가능한 trajectory traces로 중간 수준의 공간 계획을 생성하며, 정확한 저수준 액션을 예측하여 설명 가능하고 조종 가능한 행동을 가능하게 합니다. Mol..
SpatialVLA: Exploring Spatial Representationsfor Visual-Language-Action Model 논문 주소: https://arxiv.org/pdf/2501.15830깃허브: https://spatialvla.github.io/ Abstract 본 논문에서는 spatial understanding이 로봇 조작의 핵심이며, 이를 위한 효과적인 공간 표현을 탐구하고자 SpatialVLA를 제안합니다. 구체적으로, Ego3D Position Encoding을 도입하여 Visual Language Action 모델의 입력 관찰에 3D 정보를 주입하고, Adaptative Action Grids를 제안하여 적응적으로 이산화된 action grid로 공간 로봇 움직임 액션을 표현합니다. 이는 cross-robot 제어를 위한 일반화 가능하고 전이 가능한 공간 액션 지식의 학습을 용이하게 합니다. Spatia..