본문 바로가기

Vision Language Action model

(30)
RoboMonkey: Scaling Test-Time Sampling andVerification for Vision-Language-Action Models 논문 주소: https://www.arxiv.org/pdf/2506.17811Github: https://robomonkey-vla.github.io/ Abstract Vision-Langauge- Action 모델은 Visuomotor control에서 놀라운 능력을 보여주었지만, 구조화되지 않은 실제 환경에서 그 견고성을 보장하는 것은 여전히 지속적인 도전 과제입니다. 본 논문에서는 VLAs의 견고성과 일반화를 향상시키기 위한 수단으로 샘플링 및 검증의 관점에서 test-time scaling을 조사합니다. 먼저, action errors와 샘플 수 사이의 관계가 다양한 VLAs에 걸쳐 지수화된 거듭제곱 법칙을 따른다는 것을 입증하며, 이는 inference-time scaling laws에 존재를 ..
MoLe-VLA:DynamicLayer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation 논문 주소: https://arxiv.org/pdf/2503.20384Github: https://github.com/RoyZry98/MoLe-VLA-Pytorch/ AbstractMultimodal Large Language Models는 복잡한 언어 및 시각 데이터 이해에 탁월하여, generalist robotic systems이 지침을 해석하고 embodied tasks를 수행할 수 있도록 합니다. 그럼에도 불구하고, 막대한 computational and storage demands로 인해 실제 환경 배포에 어려움이 있습니다. LLM layer의 homogeneous patterns에 대한 최근 통찰력은 이러한 문제들을 해결하기 위한 sparsification techniques에 영감을 주었으..
SAFE: Multitask Failure Detection forVision-Language-Action Models 논문 주소: https://arxiv.org/pdf/2506.09937Github: https://vla-safe.github.io/ AbstractVision-Language-Action모델은 다양한 조작 작업에서 유망한 로봇 동작을 보여주었지만, 새로운 작업에 out-of-the-box로 배포될 경우에는 제한적인 성공률을 보입니다. 이러한 정책이 안전하게 동작하려면, 로봇이 멈추거나, 되돌아가거나, 도움을 요청할 수 있도록 실시간 경고를 제공하는 failure detection이 필요합니다. 그러나 기존 실패 감지기는 소수 작업에 한정된 탐지 성능만을 보이며, VLA처럼 일반화가 요구되는 환경에는 적합하지 않습니다. 본 논문에서는 multitask failure detection problem을 소..
Vision-Language Action Models : Concepts, Progress, Applications and Challenges--(4) 마지막 입니다. 읽느라 고생하셨습니다. 4. Challenges and Limitations of Vision-Language-Action Models VLA모델은 연구 프로토타입에서 견고한 실제 시스템으로의 전환을 가로막는 다양한 상호 연결된 도전 과제에 직면하고 있습니다. 첫째, 실시간 resource-aware inference를 달성하는 것은 여전히 어렵습니다. 예를 들어, DeeR-VLA는 early-exit architectures를 통해 조작 벤치마크에서 계산량을 5~6배 줄이면서도 정확도를 유지하지만, 복잡한 시나리오에서는 그 이점이 감소합니다. 유사하게, UniNaVid는 egocentric video tokens를 압축하여 5Hz 내비게이션을 가능하게 하지만, 모호한 지시나 긴 hor..
Vision-Language Action Models : Concepts, Progress, Applications and Challenges--(3) 3.2. Training and Efficiency Advancements in Vision-Language-Action ModelsVLA 모델은 멀티모달 입력의 정렬, 계산 비용의 절감, 그리고 실시간 제어 가능성을 달성하기 위해 훈련과 최적화 기법 측면에서 빠른 발전을 이루고 있습니다. 주요 발전 영역은 다음과 같습니다. Data-Efficient Learning.LAION-5B와 같은 대규모 vision–language corpora와 Open X-Embodiment와 같은 로봇 경로 컬렉션에서의 co-finetuning은 semantic understanding와 motor skill을 정렬합니다. OpenVLA (70억 파라미터)는 550억 파라미터 RT-2 변형보다 16.5% 더 높은 성공률을..
Vision-Language Action Models : Concepts, Progress, Applications and Challenges--(2) 이어서 작성합니다. 2.2. Multimodal Integration: From Isolated Pipelines to Uni fied AgentsVLA 모델 출현의 핵심적인 진보는, 통합된 아키텍처 내에서 비전, 언어, 액션을 공동 처리하는 Multimodal 통합 능력에 있습니다. 전통적인 로봇 시스템은 지각, 자연어 이해, 제어를 별개의 모듈로 처리하며, 주로 수동 정의된 인터페이스나 데이터 변환을 통해 연결되었습니다. 예를 들어, 고전적 파이프라인에서는 지각 모델이 상징적 레이블을 출력하고, 이는 플래너가 액션으로 매핑하는 구조였으며, domain-specific hand engineering에 크게 의존했습니다. 이 방식은 적응성이 부족하고, 새로운 환경이나 모호한 상황에 취약했으며, 정해진 ..
Vision-Language-Action Models: Concepts, Progress, Applications and Challenges -- (1) 논문 주소: https://arxiv.org/pdf/2505.04769v1 Abstract Vision Language Action model은 인공지능 분야의 혁신적인 발전을 의미하며, 지각, 자연어 이해, 그리고 구체화된 행동을 단일 계산 프레임워크 내에서 통합하는 것을 목표로 합니다. 이 기초적인 검토는 VLA 모델의 최근 발전에 대한 포괄적인 종합을 제시하며, 빠르게 진화하는 이 분야의 환경을 구성하는 다섯 가지 주제별 기둥으로 체계적으로 정리되어 있습니다. 본 연구에서는 VLA 시스템의 개념적 기반을 정립하는 것부터 시작하여, cross modal learning 아키텍처에서 Vision-Language models, Action plaaner, 그리고 hierarchical controller..
ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models 논문 주소: https://arxiv.org/pdf/2409.15250 Abstract 최근 대규모 언어 모델(LLM)의 발전과 대규모 로봇 데이터셋의 접근성 증가는 로봇 모델의 패러다임 전환을 촉발하여, 다양한 작업, 장면 및 로봇 양식에 적응할 수 있는 generalist로 변화시키고 있습니다. 이러한 발전에서 커뮤니티에게 큰 진전은 다양한 작업에서 강력한 성능을 보여주는 오픈 Vision Language Action (VLA) 모델입니다. 본 연구에서는 기존의 로봇 foundation models 세 가지의 시각적 일반화 능력에 대해 연구하고, 이에 상응하는 평가 프레임워크를 제안합니다. 본 연구는 기존 모델들이 visual out-of-domain (OOD) 시나리오에 대한 robustne..