본문 바로가기

전체 글

(57)
From Intention to Execution:Probing the Generalization Boundaries of Vision-Language-Action Models 논문 주소: https://arxiv.org/pdf/2506.09930v1깃허브: https://github.com/ai4ce/INT-ACT/tree/main AbstractVision-Langauge -Action model이 전통적인 로봇 모방학습보다 가지느 하나의 장점은, 대규모 VLM의 폭 넓은 일반화 능력을 활용하여 다재다능하고 범용적인 로봇 policy를 생성할 수 있다는 점입니다. 그러나 현재의 VLA 평가 방식은 여전히 불충분합니다.전통적인 모방 학습 벤치마크는 language instruction이 부족하여 적합하지 않으며, 언어를 포함한 새로운 VLA 벤치마크들은 평과 과제가 제한적이고, VLM의 사전학습이 실제로 로봇 policy의 일반화 능력을 얼마나 기여하는지를 충분히 탐구되지 않..
Improving Generalization Ability ofRobotic Imitation Learning by ResolvingCausal Confusion in Observations 논문 주소 : https://arxiv.org/pdf/2507.22380 Abstract최근 imitation learning의 발전은 로봇 조작 분야를 크게 진보시켰습니다. 그러나 현재의 imitation learning 기법들은 일반화 능력이 부족하여, 비교적 작은 도메인 변화에도 크게 성능이 저하되는 한계를 보이고 있습니다. 본 연구에서는 학습 환경ㄹ과 실제 배포 환경 간의 예측 불가능한 변화에도 대응할 수 있도록, 복잡한 imitation learning 알고리즘의 일반화 능력을 향상시키는 것을 목표로 합니다. 대상 작업과 관련 없는 관찰 요소들로 인한 혼란을 피하기 위해, 본 연구에서는 간찰 구성 요소와 전문가 행동간의 casual relationship을 명시적으로 학습하도록 제안합니다. 이..
SKIL: Semantic Keypoint Imitation Learning forGeneralizable Data-efficient Manipulation 논문 주소: https://arxiv.org/pdf/2501.14400v1 Abstract 의류 조작 및 테이블 재배치와 같은 real-world 작업은 로봇이 일반화 가능하고, 매우 정밀하며, long-horizon 행동을 수행할 것을 요구합니다. 모방 학습이 로봇에게 새로운 기술을 가르치는 효과적인 접근 방식임이 입증되었지만, 이러한 복잡한 작업을 위해서는 여전히 많은 양의 전문가 시연 데이터가 필수 불가결하며, 이는 높은 sample complexity과 비용이 많이 드는 데이터 수집을 초래합니다. 이를 해결하기 위해, 본 연구에서는 Vision foundation model의 도움으로 semantic keypoints을 자동으로 획득하고, 훨씬 낮은 샘플 복잡성으로 복잡한 로봇 작업의 효율적인..
SKIL: Semantic Keypoint Imitation Learning forGeneralizable Data-efficient Manipulation 논문 주소: https://arxiv.org/pdf/2501.14400v1 Abstract 의류 조작 및 테이블 재배치와 같은 real-world 작업은 로봇이 일반화 가능하고, 매우 정밀하며, long-horizon 행동을 수행할 것을 요구합니다. 모방 학습이 로봇에게 새로운 기술을 가르치는 효과적인 접근 방식임이 입증되었지만, 이러한 복잡한 작업을 위해서는 여전히 많은 양의 전문가 시연 데이터가 필수 불가결하며, 이는 높은 sample complexity과 비용이 많이 드는 데이터 수집을 초래합니다. 이를 해결하기 위해, 본 연구에서는 Vision foundation model의 도움으로 semantic keypoints을 자동으로 획득하고, 훨씬 낮은 샘플 복잡성으로 복잡한 로봇 작업의 효율적인..
Noise or Signal: The Role of Image Backgrounds in Object Recognition 논문 주소: https://arxiv.org/pdf/2006.09994 Abstract본 연구에서는 object recongnition 모델들이 background으로 부터 signal에 의존하는 경향을 평가합니다. ImageNet 이미지에서 foreground와 배경신호를 분리하기 위한 도구를 만들었으며, 다음과 같은 사실을 발견했습니다. (a) 모델들은 배경만을 이용하더라도(non-trivial) 일정 수준의 정확도를 달성할 수 있습니다. (b) 모델들은 올바르게 분류된 전경이 존재하더라도 이미지를 잘못 분류하는 경우가 자주 발생합니다. - 특히 adversarially choson 배경에서는 그 비율이 최대 $87.5%$ 에 달합니다. (c) 더 정확한 모델일수록 배경에 덜 의존하는 경향을 보입니..
Enhancing Generalization in Vision–Language–Action Models byPreserving Pretrained Representations 논문 주소: https://arxiv.org/pdf/2509.11417v1 Abstract Vision Language Action 모델은 Vision- Language Model로부터 fine-tuning 되어, 다양한 과제와 환경 전반에 걸쳐 풍부한 pretrained representatioins을 활용함으로 써 generalist robots을 구축할 수 있는 가능성을 지니고 있습니다. 그러나 로봇 데이터에 대한 직접적인 fine-tuning은 이러한 표현을 손상시키고 일반화를 제한합니다. 본 연구에서는 사전 학습된 feature를 더 잘 보존하면서 robot manipulation에 맞게 이를 적응시키는 framework를 제안합니다. 본 연구의 접근 방식은 세 가지 구성 요소를 도입합니다.(i..
PaliGemma: A versatile 3B VLM for transfer & PaliGemma 2:A Family of Versatile VLMs for Transfer PaliGemma: https://arxiv.org/pdf/2407.07726PaliGemma 2: https://arxiv.org/pdf/2412.03555PaliGemma AbstractPaliGemma는 SigLIP-So400m vision Encoder와 Gemma-2B language model을 기반으로 한 open VLM 입니다. 이 모델은 다양한 분야에서 trasnfer가 잘 이루어지는 범용적이고 지식 기반이 넓은 모델을 목표로 하며, Open-world 환경에서 수행되는 여러 종류의 작업에서 강력한 성능을 보여줍니다. 연구진은 PaliGemma를 약 40개에 달하는 다양한 작업에서 평가하였으며, 기존의 표준 VLM 벤치마크 뿐 아니라 remote-sensing이나 segmentation과..
Gemma 2: Improving Open Language Modelsat a Practical Size 논문 주소: https://arxiv.org/pdf/2408.00118 Abstract본 논문에서는 Gemma 계열의 경량이면서도 최첨단 모델군에 새롭게 추가된 Gemma 2를 소개합니다. Gemma 2는 2B에서 27B 개의 파라미터 규모에 이르는 다양한 크기로 구성되어 있습니다. 이번 새로운 버전에서는 Transformer 아키텍처에 여러 가지 알려진 기술적 개선을 적용했습니다. 예를 들어, Local-Global attention을 interleaving 하여 적용하는 방식과 group-query attention 기법을 도입했습니다. 또한, 2B 및 9B 모델은 next token prediction 방식 대신 knowledge distillation을 통해 학습했습니다. 그 결과 Gemma 2 ..