본문 바로가기

분류 전체보기

(62)
RoboMonkey: Scaling Test-Time Sampling andVerification for Vision-Language-Action Models 논문 주소: https://arxiv.org/pdf/2506.17811깃허브: https://robomonkey-vla.github.io/ AbstractVision Language Action 모델은 Visumotor control에서 놀라운 성능을 보여왔지만, 비정형(Real-world)환경에서의 강건성을 보장하는 것은 여전히 지속적인 도전과제입니다. 본 논문에서는 VLA의 robustness와 generalization을 향상시키기 위한 방법으로, sampling과 verification 관점에서 test-time scaling을 탐구합니다. 먼저, 다양한 VLA에서 action error와 생성된 sample 수 사의의 관계가 exponentiated power law를 따른다는 것을 보여주며, ..
Sigmoid Loss for Language Image Pre-Training 논문 주소: https://arxiv.org/pdf/2303.15343 Abstract 본 연구에서는 Language- Image Pre-training (SigLIP)을 위한 간단한 pairwise Sigmoid loss를 제안합니다. 기존의 softmax정규화를 사용하는 contrastive learning 과는 달리, Sigmoid loss는 image-text pair 단위로만 작동하며, 정규화를 위해 전역적인 pairwise similarity의 global view를 필요로 하지 않습니다. 이러한 Sigmoid loss는 batch size를 더 크게 확장할 수 있을 뿐 아니라, 작은 배치 크기에서도 더 우수한 성능을 보입니다. 또한, Lacked-image Tuning과 결합하여 단 네 개..
ExpReS-VLA: Specializing Vision-Language-Action Models Through Experience Replay and Retrieval 논문 주소: https://arxiv.org/pdf/2511.06202AbstractVision Language Action 모델인 OpenVLA는 로봇 manipulation 작업 전반에 걸쳐 인상적인 zero-shot generalization 성능을 보여주지만, 실제 배치 환경에서는 특정 작업 집합에 대해 일관된 높은 성능을 유지해야 하므로 이러한 일반화 능력이 오히려 한계로 작용합니다. 본 연구에서는 이러한 문제를 해결하기 위해, EXPierence replayed, REtrieval augmented, Specialized VLA (ExpReS-VLA)를 제안합니다. ExpReS-VLA는 사전 학습된 VLA를 target domain에 빠르게 적응시키면서도, compressed experienc..
Shortcut Learning in Generalist Robot Policies: TheRole of Dataset Diversity and Fragmentation 논문 주소: https://arxiv.org/pdf/2508.06426Github: https://lucky-light-sun.github.io/proj/shortcut-learning-in-grps/ Abstract Open-X-Embodiment(OXE) 와 같은 대규모 데이터셋으로 학습된 generalist 로봇 정책은 다양한 작업에서 강력한 성능을 보여줍니다. 그러나 이러한 모델들은 종종 훈련 데이터의 분포를 넘어서는 일반화에 어려움을 겪습니다. 본 논문에서는 이러한 일반화 한계의 근본 원인을 규명하고자 합니다. 본 연구에서는 shortcut learning ㅡ 즉, 작업과 무관한 특징에 의존하는 학습ㅡ 이 일반화를 방해하는 핵심 요인임을 확인했습니다. 이론적·실증적 분석을 통해 shortcut ..
Confidence Calibration in Vision-Language-Action Models 논문 주소: https://arxiv.org/pdf/2507.17383v1 신뢰할 수 있는 로봇 행동은 높은 수준의 작업 성공률 뿐 아니라, 로봇이 자신의 성공 가능성을 얼마나 신뢰성 있게 정량화할 수 있는가 또한 필요합니다. 이를 위해 본 논문에서는 Vision-Language-Action 모델에서의 calibration을 체계적으로 분석한 최초의 연구를 제시합니다. VLA는 시각 관찰과 자연어 지시를 저수준의 로봇 모터 명령으로 매핑하는 foundation model 입니다. 먼저 다양한 데이터셋과 VLA 변형 모델을 대상으로 광범위한 벤치마킹을 수행하여, 작업 성공률과 calibration error 간의 중요한 관계를 분석하였으며, 두 요소가 상충하지 않음을 확인하였습니다. 다음으로, pro..
From Intention to Execution:Probing the Generalization Boundaries of Vision-Language-Action Models 논문 주소: https://arxiv.org/pdf/2506.09930v1깃허브: https://github.com/ai4ce/INT-ACT/tree/main AbstractVision-Langauge -Action model이 전통적인 로봇 모방학습보다 가지느 하나의 장점은, 대규모 VLM의 폭 넓은 일반화 능력을 활용하여 다재다능하고 범용적인 로봇 policy를 생성할 수 있다는 점입니다. 그러나 현재의 VLA 평가 방식은 여전히 불충분합니다.전통적인 모방 학습 벤치마크는 language instruction이 부족하여 적합하지 않으며, 언어를 포함한 새로운 VLA 벤치마크들은 평과 과제가 제한적이고, VLM의 사전학습이 실제로 로봇 policy의 일반화 능력을 얼마나 기여하는지를 충분히 탐구되지 않..
Improving Generalization Ability ofRobotic Imitation Learning by ResolvingCausal Confusion in Observations 논문 주소 : https://arxiv.org/pdf/2507.22380 Abstract최근 imitation learning의 발전은 로봇 조작 분야를 크게 진보시켰습니다. 그러나 현재의 imitation learning 기법들은 일반화 능력이 부족하여, 비교적 작은 도메인 변화에도 크게 성능이 저하되는 한계를 보이고 있습니다. 본 연구에서는 학습 환경ㄹ과 실제 배포 환경 간의 예측 불가능한 변화에도 대응할 수 있도록, 복잡한 imitation learning 알고리즘의 일반화 능력을 향상시키는 것을 목표로 합니다. 대상 작업과 관련 없는 관찰 요소들로 인한 혼란을 피하기 위해, 본 연구에서는 간찰 구성 요소와 전문가 행동간의 casual relationship을 명시적으로 학습하도록 제안합니다. 이..
SKIL: Semantic Keypoint Imitation Learning forGeneralizable Data-efficient Manipulation 논문 주소: https://arxiv.org/pdf/2501.14400v1 Abstract 의류 조작 및 테이블 재배치와 같은 real-world 작업은 로봇이 일반화 가능하고, 매우 정밀하며, long-horizon 행동을 수행할 것을 요구합니다. 모방 학습이 로봇에게 새로운 기술을 가르치는 효과적인 접근 방식임이 입증되었지만, 이러한 복잡한 작업을 위해서는 여전히 많은 양의 전문가 시연 데이터가 필수 불가결하며, 이는 높은 sample complexity과 비용이 많이 드는 데이터 수집을 초래합니다. 이를 해결하기 위해, 본 연구에서는 Vision foundation model의 도움으로 semantic keypoints을 자동으로 획득하고, 훨씬 낮은 샘플 복잡성으로 복잡한 로봇 작업의 효율적인..